- 博客(513)
- 资源 (25)
- 收藏
- 关注

原创 ganglia学习1之ganglia集群版搭建(支持hadoop和spark)
更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述 Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Gan
2016-11-09 15:48:05
1680

原创 spark源码解读4之SortByKey
更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用sortBy,也可以先map然后再sortByKey,soerBy也是调用SortByKey1.2 源码S
2016-11-06 18:58:35
1877

原创 spark源码解读3之RDD中top源码解读
更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方法,建议使用take和top方法。如果要有序,可以使用top方法。1.1 定义 def top(num
2016-11-04 19:51:14
2200

原创 spark源码解读2之水塘抽样算法(Reservoir Sampling)
更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解 问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获
2016-11-04 19:51:02
2910

原创 spark源码解读1之Partitioner
更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据key进行元素划分。Partitioner是一个抽象类。只有两个方法:numPartitions和get
2016-11-04 19:50:46
2144

原创 Spark入门学习记录之SparkLearning
为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/
2016-05-17 22:34:00
3811
1

原创 SparkLearning博客模版
更多代码请见:https://github.com/xubo245/SparkLearning1解释2.代码:3.结果:参考【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html【2】https://github.com/xubo245/Sp
2016-05-03 19:15:34
696
原创 通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review
通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code reviewGithub:git fetch origin pull/3188/head:pr31883188是PR的idhttps://github.com/apache/carbondata/pull/3188Gitlab:git pull remo...
2019-08-17 10:39:50
3233
原创 read traffic light image(4138 images) from whole dataset(10w+) to obs
Applicationread traffic light image(4138 images) from whole dataset(10w+) to obsPrepare:Download data from reference[2]start jupter, import pycocoDemo.ipynb localhost:PythonAPI xubo$ jupyter ...
2019-04-10 09:58:22
526
原创 Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis
Share Android 8.0 network to Mac High Sierra 10.13.3 by horndisI can confirm Horndis works with Honor V10 on High Sierra 10.13.3. Here’s a quick guide:brew cask install horndisYou might have to...
2019-03-18 23:17:42
688
原创 Apache CarbonData学习资料汇总
CarbonData Learning Materials1. introductionApache CarbonData is an indexed columnar data store solution for fast analytics on big data platform, e.g.Apache Hadoop, Apache Spark, etc.1.1 官网: http:...
2018-11-22 12:02:27
1425
原创 Install tensorflow and run hello world in MacBook pro : MacOS
Install tensorflow and run hello world in MacBook pro / MacOSinstall tensorflowlocalhost:git xubo$ pip3 install tensorflowCollecting tensorflow Cache entry deserialization failed, entry ignored ...
2018-10-20 23:45:37
644
原创 集群节点间数据分发dispath.sh
!/usr/bin/env bashif [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 ficur_dir=(cd"(cd"(cd "(dirname “$1”)”; pwd) for dst in {1..50} doscp -r $1 emr-worker-$dst:$cur_di...
2018-06-06 12:07:52
658
原创 基因数据处理123之SSW代码不正确,到时比SparkSW时间长
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换成128*128的矩阵,当计算Q0,即8个字符串的query时,显然时间占比大,本来序列比对时间就不长...
2018-06-06 09:02:49
469
原创 基因数据处理122之SSW和SparkSW评分不一致,query为Q9
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释RT,但是顺序一致2.代码:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio-1.3.0$ vi sparkSWSSWQ10.sh dir=$(ls -l query/* |...
2018-06-06 09:02:11
411
原创 基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。java中无法运行128*128的String矩阵,所以需要提供blosum的转换2.代码: public static int[...
2018-06-06 09:01:22
397
原创 基因数据处理120之scala调用SSW在linux下运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释先有java提供转换,使用jni调用c然后scala调用java2.代码:2.1 java:package ssw;/** * Created by xubo on 2016/11/25. */public class SSW { public sta...
2018-06-06 09:00:04
346
原创 基因数据处理119之java调用SSW在linux下运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释测试自带Example:xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava.library.path=. -cp SparkSW.jar ssw.ExampleAligning...
2018-06-03 00:05:44
407
原创 基因数据处理118之SSW运行
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW是一个更快的SW算法,并且提供了c语言lib和java的调用代码:https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library论文:Zhao, M., et al. (2013). "SSW Lib...
2018-06-03 00:05:20
511
原创 基因数据处理117之重新多次运行SparkBWA Yarn集群
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkBWA.sh for j in 10000 100000 1000000 1000000...
2018-06-03 00:03:54
362
原创 基因数据处理116之重新运行SparkBWA Yarn集群模式
更多代码请见:https://github.com/xubo245基因数据处理系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。2.代码:endhadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartit...
2018-06-03 00:03:32
351
原创 基因数据处理115之重新运行SparkBWA本地模式
更多代码请见:https://github.com/xubo245基因数据处理系列1.记录hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> (...
2018-06-03 00:02:37
575
原创 基因数据处理114之BWA建立全基因组索引成功
运行记录hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.14 sec[bwa_index] Construct BWT for the packed sequ...
2018-06-03 00:01:56
3082
原创 基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_
(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(variantContext => variantContext.genotypes) // sav...
2018-06-03 00:01:41
229
原创 基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法
前面一片已经讲了遇到的问题,之前也遇到过:基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/51525241解决办法:在读入的sam/bam/adam数据进行判定,如果RecordGroup等数据为...
2018-06-03 00:01:24
334
原创 基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常
脚本:hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash spark-submit \--class org.gcdss.cli.callVarian...
2018-06-03 00:01:09
428
原创 基因数据处理110之批量测试SparkBWA和CS-bwamem算法
1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh echo "startCsbwamem algin" ./cs-bwamem/csbwamemAlign.s...
2018-06-03 00:00:50
251
原创 基因数据处理109之SparkBWA运行成功的部分log
数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0S...
2018-06-02 23:59:50
302
原创 基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)
1.upload:hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-...
2018-06-02 23:58:15
244
原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)
脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start"startTime4=`date +"%s.%N"` time4=`date +"%Y%m%d%H%M%S"` #spark-submit --cla
2018-01-11 00:45:49
531
原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition
1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired位置:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ pwd/home/hadoop/x
2018-01-11 00:45:34
319
原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到
脚本1:spark-submit --class SparkBWA \--master spark://219.219.220.149:7077 \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--driver-java-options
2018-01-11 00:45:18
441
原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master yarn-client \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--archives ./bwa.zip \SparkBWA.jar \-al
2018-01-11 00:44:58
314
原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例
脚本:spark-submit --class SparkBWA \--master local \--archives bwa.zip \SparkBWA.jar \-algorithm mem -reads paired \-index /home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \-partitions
2018-01-11 00:44:43
695
原创 基因数据处理101之SparkBWA本地运行配置和实例
1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile加入export LD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH
2018-01-11 00:44:24
779
原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12
运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N1000000L100paired2.fastq >GRCH38chr1L3556522N1000000L1
2018-01-11 00:44:10
619
1
原创 基因数据处理99之SparkBWA修改下载文件
由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ makeif [ ! -d "build" ]; then mkdir build; figcc -c -g -Wall -Wno-unused-function -O2 -fPIC -DHAVE_PTHREAD -DUSE
2018-01-11 00:43:57
286
原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录
脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --driver-
2018-01-11 00:43:26
608
原创 基因数据处理97之SparkBWA运行时spark on Yarn问题
hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAdding default property: spark.executor.extraJavaOptions=-Djava.l
2018-01-11 00:42:28
283
原创 基因数据处理96之sparkBWA运行问题(yarn)
hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default property: spark.executor.extraJavaOp
2018-01-05 00:36:40
256
isrgb.m,matlab
2014-03-27
WebZIP下整个网站
2013-11-20
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
opencv 3.4.1 jar
2018-05-16
阿里移动推荐算法大赛冠军答辩PPT
2015-09-09
Ashley Madison用户数据泄露网站分析
2015-08-25
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝