自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 基因数据处理87之adam-0.14.0读取adamsave数据成功

1,使用 cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:但是使用adam-0.14.0的adamload可以读取。2.代码: package org.bdgenomics.adam.rdd import org.a...

2017-12-26 00:06:22 216 0

原创 基因数据处理86之idea中编译安装adam-0.14.0成功

1.安装时需要修改maven到较高版本,并且需要就内存per mem设置较大2.记录:D:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent-0.14.0 -Xmx2g ...

2017-12-26 00:05:55 329 0

原创 基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据

1.介绍: cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2. adam-0.18.2 adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignment...

2017-12-26 00:05:28 264 0

原创 基因数据处理84之cs-bwamem处理小数据集

1.使用的是之前的数据: spark-submit –class cs.ucla.edu.bwaspark.BWAMEMSpark –master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cl...

2017-12-26 00:03:40 577 0

原创 基因数据处理83之移动GRCH38Index到每个节点

1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mkdir -p ~/xubo/ref/GRCH38Index/ hadoop@Master:~/cloud/adam/xubo/data/tes...

2017-12-26 00:03:06 495 0

原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 ...

2017-12-26 00:02:40 628 0

原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 ...

2017-12-26 00:01:25 545 0

原创 基因数据处理81之callVariant实现类callVariantByAvocado

1.代码:package org.gcdss.cli.callVariantimport java.text.SimpleDateFormat import java.util._import org.apache.spark.{SparkConf, SparkContext} import or...

2017-12-26 00:01:05 266 0

原创 基因数据处理80之disease的DataProcessing

1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */ pack...

2017-12-26 00:00:36 218 0

原创 基因数据处理79之从vcf关联到omim

1.数据:// var vcfFile = "file/callDisease/input/small.vcf" // var dbSnp2omimFile = "file/callDisease/input/omimFilter9Text.txt&quo...

2017-12-26 00:00:09 889 0

原创 基因数据处理78之从vcf使用不同的方法读取结果不一样

1.方法1和2:val path2 = "hdfs://219.219.220.149:9000/xubo/callVariant/vcf/smallAnno2Adam.vcf" val anno2adam = sc.loadParquetVariantAnnotations(...

2017-12-25 23:58:46 691 0

原创 基因数据处理77之从vcf文件中提取某条染色体的数据

1.代码:/** * @author xubo */ package org.gcdss.cli.vcfimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xubo on 2016/5/23. */ o...

2017-12-25 23:58:02 4093 0

原创 基因数据处理76之从HDFS读取fasta并统计条数

读入fasta格式数据: 第一次:hadoop@Master:~/xubo/project/load/loadfastqFromHDFSfastaAndCount$ ./load.sh start: 1 run time:25101 ms *************end***********...

2017-12-25 23:57:22 460 0

原创 基因数据处理75之从HDFS读取vcf文件存为Adam的parquet文件(成功)

1.参考:package org.bdgenomics.adam.cli class FlattenSuite extends ADAMFunSuite { val loader = Thread.currentThread().getContextClassLoader val inputPat...

2017-12-25 23:56:16 182 0

原创 基因数据处理74之从HDFS读取vcf文件存为Adam的parquet文件(有问题)

1.small.vcf: 没记录2.读取:5 load time:3287 ms {"variant": {"variantErrorProbability": 139, "contig": {"contigName"...

2017-12-25 23:55:42 695 0

原创 基因数据处理73之从HDFS读取fasta文件存为Adam的parquet文件

1.GRCH38chr14:hadoop@Master:~/xubo/project/load$ ./load.sh start: 1 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". SLF4J...

2017-12-25 23:54:33 307 0

原创 基因数据处理72之GATK安装成功

1.下载:git clone https://github.com/broadgsa/gatk-protected.git 2.安装:git checkout 3.5 mvn clean package -DskipTests 3.安装成功:[INFO] Reactor Summary: [INF...

2017-12-20 00:45:07 4841 0

原创 基因数据处理71之GRCH38 的chr14提取

1.获取开始和结束行号cat GCA_000001405.15_GRCh38_full_analysis_set.fna |grep -i -n '>' 2.提取chr14cat GCA_000001405.15_GRCh38_full_analysis_set.fna ...

2017-12-20 00:44:33 1038 0

原创 基因数据处理70之Picard安装没成功

1.下载:https://github.com/broadinstitute/picard.git 2.安装:hadoop@Master:~/xubo/tools/picard$ ant clone-htsjdk Buildfile: /home/hadoop/xubo/tools/picard/...

2017-12-20 00:44:12 795 0

原创 基因数据处理69之bowtie安装与使用

1.下载:hadoop@Master:~/xubo/tools$ git clone https://github.com/BenLangmead/bowtie2.git Cloning into 'bowtie2'... remote: Counting objects:...

2017-12-20 00:43:48 2664 0

原创 基因数据处理68之avocado的配置文件默认无法从hdfs读取

(1)配置文件设置为hdfs路劲有问题val configFile = "hdfs://219.219.220.149:9000/xubo/avocado/avocado-sample-configs/basic.properties" 报错:hadoop@Master:~/c...

2017-12-20 00:43:23 367 0

原创 基因数据处理67之bwa建立索引时间

两次,GRCH38 的1号染色体hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/bwaindex$ bwa index GRCH38chr1L3556522.fasta [bwa_index] Pack FASTA... 2.50...

2017-12-20 00:42:58 1832 0

原创 基因数据处理66之avocado集群运行

1.最大问题: 老报错的问题:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll$ ./GcdssCallVariant2.sh start: fqFile:hdfs://219.219.220.149...

2017-12-20 00:42:36 265 0

原创 基因数据处理65之bwa处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa aln bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwa.sai [bwa_aln] 17bp reads:...

2017-12-20 00:41:52 250 0

原创 基因数据处理64之bwamem处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa mem bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwamem.sam [M::bwa_idx_load_f...

2017-12-20 00:40:20 807 0

原创 基因数据处理63之snap修改默认设置后处理大于400bp的记录

通过修改Read.h中的400=》4000,之后可以运行,但是匹配的命中率好低。但是bwamen很不错,下一篇有记录。xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq...

2017-12-20 00:39:06 299 0

原创 基因数据处理62之snap默认无法处理大于400bp的reads

在处理500bp和1000bp的时候,snap都无法处理:xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.sam We...

2017-12-18 23:52:35 228 0

原创 基因数据处理61之idea运行cs-bwamem处理single-end(1条100bp的reads)

代码: package cs.ucla.edu.bwaspark import java.text.SimpleDateFormat import java.util.Date import cs.ucla.edu.bwaspark.FastMap._ impo...

2017-12-18 23:52:13 346 0

原创 基因数据处理60之bwa运行single-end(1千万条100bp的reads)

第一次:``` hadoop@Master:~/cloud/adam/xubo/data/cs-bwamem$ bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > bwa/g38L100c1...

2017-12-18 23:51:59 224 0

原创 基因数据处理59之snap运行single-end(1千万条100bp的reads)

记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner single snap/snapindex g38L100c10000000Nhs20.fq -o snap/g38L100c1000000...

2017-12-18 23:50:20 312 0

原创 基因数据处理58之snap运行paired-end(1千万条100bp的reads对)

hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner index GRCH38BWAindex/GRCH38chr1L3556522.fasta snapindex Welcome to SNAP ve...

2017-12-18 23:48:13 419 0

原创 基因数据处理57之BWA-MEM运行single-end(1千万条100bp的reads)

``` hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > g38L100c1...

2017-12-18 23:47:44 492 0

原创 基因数据处理56之bwa运行paird-end(1千万条100bp的reads).md

(1)pair1.fq》sai bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq >g38L100c10000000Nhs20Paired1.saipair1记录: h...

2017-12-18 01:17:02 742 0

原创 基因数据处理55之cs-bwamem安装记录(idea maven ,没有通过pl)

project下的pom D:\1win7\java\jdk\bin\java "-Dmaven.home=D:\1win7\idea\IntelliJ IDEA Community Edition 15.0.4\plugins\maven\lib\maven3" &q...

2017-12-18 01:15:19 265 0

原创 基因数据处理54之bwa-mem运行paird-end(1千万条100bp的reads)

指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq g38L1...

2017-12-18 01:14:46 834 1

原创 基因数据处理53之cs-bwamem集群版运行paird-end(1千万条100bp的reads)

art: art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired 2.fastq上传到h...

2017-12-18 01:13:54 460 0

提示
确定要删除当前文章?
取消 删除