自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 集群节点间数据分发dispath.sh

!/usr/bin/env bash if [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 fi cur_dir=(cd"(cd"(cd "(di...

2018-06-06 12:07:52 626 0

原创 基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换...

2018-06-06 09:02:49 449 0

原创 基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 RT,但是顺序一致 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio...

2018-06-06 09:02:11 389 0

原创 基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。 java中无法运行128*128的String...

2018-06-06 09:01:22 376 0

原创 基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 先有java提供转换,使用jni调用c 然后scala调用java 2.代码: 2.1 java: package ssw; /** * Created by xubo o...

2018-06-06 09:00:04 329 0

原创 基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 测试自带Example: xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava....

2018-06-03 00:05:44 392 0

原创 基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW是一个更快的SW算法,并且提供了c语言lib和java的调用 代码: https://github.com/mengyao/Complete-Striped-Smith-Waterm...

2018-06-03 00:05:20 470 0

原创 基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 重新运行,跟换了文件地址 后来终端,需要运行其他的 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi s...

2018-06-03 00:03:54 349 0

原创 基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 很久没运行SparkBWA了,系统文件有点多,重新运行。 2.代码: end hadoop@Master:~/disk2/xubo/project/alignment/sparkBW...

2018-06-03 00:03:32 332 0

原创 基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.记录 hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> ...

2018-06-03 00:02:37 517 0

原创 基因数据处理114之BWA建立全基因组索引成功

运行记录 hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.1...

2018-06-03 00:01:56 2835 0

原创 基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

(一)问题 问题1:avocado数据读取: avocado存到磁盘是:RDD[Genotype] val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(varia...

2018-06-03 00:01:41 202 0

原创 基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题,之前也遇到过: 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/515252...

2018-06-03 00:01:24 301 0

原创 基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常

脚本: hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash ...

2018-06-03 00:01:09 350 0

原创 基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh ...

2018-06-03 00:00:50 200 0

原创 基因数据处理109之SparkBWA运行成功的部分log

数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/ http://219.219.220.248:8042/node/containerlogs/container_146...

2018-06-02 23:59:50 283 0

原创 基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)

1.upload: hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://2...

2018-06-02 23:58:15 216 0

提示
确定要删除当前文章?
取消 删除