- 博客(36)
- 资源 (25)
- 收藏
- 关注
原创 基因数据处理87之adam-0.14.0读取adamsave数据成功
1,使用cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:但是使用adam-0.14.0的adamload可以读取。2.代码: package org.bdgenomics.adam.rdd import org.apache.spark.{SparkContext, SparkConf} import org
2017-12-26 00:06:22
241
原创 基因数据处理86之idea中编译安装adam-0.14.0成功
1.安装时需要修改maven到较高版本,并且需要就内存per mem设置较大2.记录:D:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent-0.14.0 -Xmx2g -XX:MaxPermSize=2024M -Dmaven.home=D:\1win7\java\apa
2017-12-26 00:05:55
388
原创 基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据
1.介绍: cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2. adam-0.18.2 adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码: package org.gcdss.cli.test
2017-12-26 00:05:28
286
原创 基因数据处理84之cs-bwamem处理小数据集
1.使用的是之前的数据: spark-submit –class cs.ucla.edu.bwaspark.BWAMEMSpark –master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cloud-scale-bwamem-0.2.0-assembly.jar upload-fastq 0
2017-12-26 00:03:40
636
原创 基因数据处理83之移动GRCH38Index到每个节点
1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mkdir -p ~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mv GCA_000001405.15_GRCh38/* ~/xubo/ref/G
2017-12-26 00:03:06
538
原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)
core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
2017-12-26 00:02:40
680
原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)
core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
2017-12-26 00:01:25
595
原创 基因数据处理81之callVariant实现类callVariantByAvocado
1.代码:package org.gcdss.cli.callVariantimport java.text.SimpleDateFormatimport java.util._import org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADAMContext._import org.gcdss
2017-12-26 00:01:05
276
原创 基因数据处理80之disease的DataProcessing
1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */package org.gcdss.cli.diseaseimport java.text.SimpleDate
2017-12-26 00:00:36
235
原创 基因数据处理79之从vcf关联到omim
1.数据:// var vcfFile = "file/callDisease/input/small.vcf"// var dbSnp2omimFile = "file/callDisease/input/omimFilter9Text.txt"// var omimFile = "file/callDisease/input/genemap.txt"修改过small数据:
2017-12-26 00:00:09
954
原创 基因数据处理78之从vcf使用不同的方法读取结果不一样
1.方法1和2:val path2 = "hdfs://219.219.220.149:9000/xubo/callVariant/vcf/smallAnno2Adam.vcf"val anno2adam = sc.loadParquetVariantAnnotations(path2)println("anno2adam:")anno2adam.foreach(println)val ann
2017-12-25 23:58:46
750
原创 基因数据处理77之从vcf文件中提取某条染色体的数据
1.代码:/** * @author xubo */package org.gcdss.cli.vcfimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xubo on 2016/5/23. */object extractGRCH38chr20vcf { def main(args: Array
2017-12-25 23:58:02
4315
原创 基因数据处理76之从HDFS读取fasta并统计条数
读入fasta格式数据: 第一次:hadoop@Master:~/xubo/project/load/loadfastqFromHDFSfastaAndCount$ ./load.sh start:1run time:25101 ms*************end*************hadoop@Master:~/xubo/project/load/loadfastqFromHD
2017-12-25 23:57:22
501
原创 基因数据处理75之从HDFS读取vcf文件存为Adam的parquet文件(成功)
1.参考:package org.bdgenomics.adam.cliclass FlattenSuite extends ADAMFunSuite {val loader = Thread.currentThread().getContextClassLoaderval inputPath = loader.getResource("small.vcf").getPathval outp
2017-12-25 23:56:16
196
原创 基因数据处理74之从HDFS读取vcf文件存为Adam的parquet文件(有问题)
1.small.vcf: 没记录2.读取:5load time:3287 ms{"variant": {"variantErrorProbability": 139, "contig": {"contigName": "1", "contigLength": null, "contigMD5": null, "referenceURL": null, "assembly": null, "sp
2017-12-25 23:55:42
734
原创 基因数据处理73之从HDFS读取fasta文件存为Adam的parquet文件
1.GRCH38chr14:hadoop@Master:~/xubo/project/load$ ./load.sh start:1SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J
2017-12-25 23:54:33
358
原创 基因数据处理72之GATK安装成功
1.下载:git clone https://github.com/broadgsa/gatk-protected.git2.安装:git checkout 3.5mvn clean package -DskipTests3.安装成功:[INFO] Reactor Summary:[INFO] [INFO] GATK Root ...............................
2017-12-20 00:45:07
5048
原创 基因数据处理71之GRCH38 的chr14提取
1.获取开始和结束行号cat GCA_000001405.15_GRCh38_full_analysis_set.fna |grep -i -n '>'2.提取chr14cat GCA_000001405.15_GRCh38_full_analysis_set.fna |head -32835035|tail -1529197 >GRCH38ch14.fasta 3.整理:hadoop@Mc
2017-12-20 00:44:33
1140
原创 基因数据处理70之Picard安装没成功
1.下载:https://github.com/broadinstitute/picard.git2.安装:hadoop@Master:~/xubo/tools/picard$ ant clone-htsjdkBuildfile: /home/hadoop/xubo/tools/picard/build.xmlclone-htsjdk: [exec] Cloning into 'hts
2017-12-20 00:44:12
861
原创 基因数据处理69之bowtie安装与使用
1.下载:hadoop@Master:~/xubo/tools$ git clone https://github.com/BenLangmead/bowtie2.gitCloning into 'bowtie2'...remote: Counting objects: 7503, done.remote: Total 7503 (delta 0), reused 0 (delta 0),
2017-12-20 00:43:48
2784
原创 基因数据处理68之avocado的配置文件默认无法从hdfs读取
(1)配置文件设置为hdfs路劲有问题val configFile = "hdfs://219.219.220.149:9000/xubo/avocado/avocado-sample-configs/basic.properties"报错:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll/test$ .
2017-12-20 00:43:23
394
原创 基因数据处理67之bwa建立索引时间
两次,GRCH38 的1号染色体hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/bwaindex$ bwa index GRCH38chr1L3556522.fasta [bwa_index] Pack FASTA... 2.50 sec[bwa_index] Construct BWT for the packed sequen
2017-12-20 00:42:58
2021
原创 基因数据处理66之avocado集群运行
1.最大问题: 老报错的问题:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll$ ./GcdssCallVariant2.sh start:fqFile:hdfs://219.219.220.149:9000/xubo/avocado/NA12878_snp_A2G_chr20_225058.sam
2017-12-20 00:42:36
314
原创 基因数据处理65之bwa处理500bp和1000bp的记录
xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa aln bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwa.sai[bwa_aln] 17bp reads: max_diff = 2[bwa_aln] 38bp reads: max_diff = 3[bwa_a
2017-12-20 00:41:52
279
原创 基因数据处理64之bwamem处理500bp和1000bp的记录
xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa mem bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwamem.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs[M::process] read 10000 se
2017-12-20 00:40:20
860
原创 基因数据处理63之snap修改默认设置后处理大于400bp的记录
通过修改Read.h中的400=》4000,之后可以运行,但是匹配的命中率好低。但是bwamen很不错,下一篇有记录。xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version
2017-12-20 00:39:06
341
原创 基因数据处理62之snap默认无法处理大于400bp的reads
在处理500bp和1000bp的时候,snap都无法处理:xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version 1.0beta.23.Loading index from
2017-12-18 23:52:35
242
原创 基因数据处理61之idea运行cs-bwamem处理single-end(1条100bp的reads)
代码: package cs.ucla.edu.bwaspark import java.text.SimpleDateFormat import java.util.Date import cs.ucla.edu.bwaspark.FastMap._ import cs.ucla.edu.bwaspark.commandline.{BWAMEMCommand,
2017-12-18 23:52:13
368
原创 基因数据处理60之bwa运行single-end(1千万条100bp的reads)
第一次:```hadoop@Master:~/cloud/adam/xubo/data/cs-bwamem$ bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > bwa/g38L100c10000000Nhs20.bwase1.sai [bwa_aln] 17bp reads: max_diff
2017-12-18 23:51:59
251
原创 基因数据处理59之snap运行single-end(1千万条100bp的reads)
记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner single snap/snapindex g38L100c10000000Nhs20.fq -o snap/g38L100c10000000Nhs20.snap.sam Welcome to SNAP version 1.0beta.
2017-12-18 23:50:20
355
原创 基因数据处理58之snap运行paired-end(1千万条100bp的reads对)
hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner index GRCH38BWAindex/GRCH38chr1L3556522.fasta snapindex Welcome to SNAP version 1.0beta.23. Hash table slack 0.300000 L
2017-12-18 23:48:13
469
原创 基因数据处理57之BWA-MEM运行single-end(1千万条100bp的reads)
```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > g38L100c10000000Nhs20.bwamem.sam[M::bwa_idx_load_from_disk] rea
2017-12-18 23:47:44
513
原创 基因数据处理56之bwa运行paird-end(1千万条100bp的reads).md
(1)pair1.fq》sai bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq >g38L100c10000000Nhs20Paired1.saipair1记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem
2017-12-18 01:17:02
845
原创 基因数据处理55之cs-bwamem安装记录(idea maven ,没有通过pl)
project下的pom D:\1win7\java\jdk\bin\java "-Dmaven.home=D:\1win7\idea\IntelliJ IDEA Community Edition 15.0.4\plugins\maven\lib\maven3" "-Dclassworlds.conf=D:\1win7\idea\IntelliJ IDEA Community Editio
2017-12-18 01:15:19
270
原创 基因数据处理54之bwa-mem运行paird-end(1千万条100bp的reads)
指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq g38L100c10000000Nhs20Paired2.fq >g38L100c10000000Nhs20Pai
2017-12-18 01:14:46
897
1
原创 基因数据处理53之cs-bwamem集群版运行paird-end(1千万条100bp的reads)
art: art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired2.fastq上传到hdfs spark-submit --class cs.ucla.edu.bwaspark.B
2017-12-18 01:13:54
480
isrgb.m,matlab
2014-03-27
WebZIP下整个网站
2013-11-20
计算方法实验Gauss_Seidel法和Runge_Kutta法
2013-10-17
opencv 3.4.1 jar
2018-05-16
阿里移动推荐算法大赛冠军答辩PPT
2015-09-09
Ashley Madison用户数据泄露网站分析
2015-08-25
JDK.API.7_English.chm
2015-08-24
Java 2 SE 6 Documentation.chm
2015-08-24
JavaSE中文API.chm
2015-08-24
jdk api 1.7英文版-带索引
2015-08-24
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝