自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)

脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start" startTime4=`date +"%s.%N&...

2018-01-11 00:45:49 508 0

原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition

1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired 位置:hadoop@Ma...

2018-01-11 00:45:34 299 0

原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到

脚本1:spark-submit --class SparkBWA \ --master spark://219.219.220.149:7077 \ --conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/h...

2018-01-11 00:45:18 399 0

原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/Sp...

2018-01-11 00:44:58 294 0

原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \ --master local \ --archives bwa.zip \ SparkBWA.jar \ -algorithm mem -reads paired \ -index /home/hadoop/xubo/ref/G...

2018-01-11 00:44:43 656 0

原创 基因数据处理101之SparkBWA本地运行配置和实例

1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile 加入export LD_LIBRARY_PATH=/hom...

2018-01-11 00:44:24 717 0

原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12

运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N10...

2018-01-11 00:44:10 554 1

原创 基因数据处理99之SparkBWA修改下载文件

由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ make if [ ! -d "build" ]; then mkdir build; fi gcc -...

2018-01-11 00:43:57 272 0

原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录

脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.e...

2018-01-11 00:43:26 553 0

原创 基因数据处理97之SparkBWA运行时spark on Yarn问题

hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default...

2018-01-11 00:42:28 271 0

原创 基因数据处理96之sparkBWA运行问题(yarn)

hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf ...

2018-01-05 00:36:40 234 0

原创 基因数据处理95之sparkBWA运行问题

脚本: hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat pairedERR.sh spark-submit --class SparkBWA \ --master local[4] \ --driver-memory 1500m \ -...

2018-01-05 00:34:15 301 0

原创 基因数据处理94之使用kmer分析SRR003161数据的kmer分布

1.分两组 (1)kmer长度为:5 to 21 (2)kmer长度为:5 to 55 by 10 2.代码: package org.gcdss.cli import java.text.SimpleDateFormat import java.util._ import org.a...

2018-01-05 00:28:47 1284 0

原创 基因数据处理93之sparkBWA安装和使用

1.安装 git clone https://github.com/citiususc/SparkBWA.git cd SparkBWA make 2.使用: 报错:没有成功 hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./run.s...

2018-01-04 23:47:06 990 0

原创 基因数据处理92之重新调整loadDataProcessing使之能适应基因数据处理91的问题

1.解决思路: 正如基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上描述的问题,目前解决办法如下:采取简单的map和union的方式将alternateAllele的读取改为逗号分开的。然后进行union 余留问题,这样的方法需要遍历四次RDD,可以...

2018-01-04 23:45:48 151 0

原创 基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上

1.介绍: vcf2omim数据量为:rdd2.count:8623 dataProcessing数据为: rdd2.count:10884 sum:2300 8584 2300为AlternateAllele有逗号的数量,例如ref为A,AlternateAllele为G,C 2....

2018-01-04 23:43:22 203 0

原创 基因数据处理90之disease的DataProcessing修改后运行记录

hadoop@Master:~/xubo/project/callDisease/DataProcessing$ ./allVcf.sh start: vcfFile:/xubo/callVariant/vcf/All_20160407.vcf dbSnp2omimFile:/xubo/call...

2018-01-04 23:41:56 164 0

原创 基因数据处理89之vcf2omim大数据集错误

hadoop@Master:~/xubo/project/callDisease/Vcf2Omim$ ./allVcf.sh start call Vcf2Omim start: Vcf2Omim vcfArrRDD: end [Stage 1:> ...

2018-01-04 23:39:33 248 0

原创 基因数据处理88之vcf2omim得到omim和dbSnpId信息

1.代码: /** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 *...

2018-01-04 23:36:28 269 0

提示
确定要删除当前文章?
取消 删除