自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(36)
  • 资源 (25)
  • 收藏
  • 关注

原创 基因数据处理87之adam-0.14.0读取adamsave数据成功

1,使用cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:但是使用adam-0.14.0的adamload可以读取。2.代码: package org.bdgenomics.adam.rdd import org.apache.spark.{SparkContext, SparkConf} import org

2017-12-26 00:06:22 241

原创 基因数据处理86之idea中编译安装adam-0.14.0成功

1.安装时需要修改maven到较高版本,并且需要就内存per mem设置较大2.记录:D:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent-0.14.0 -Xmx2g -XX:MaxPermSize=2024M -Dmaven.home=D:\1win7\java\apa

2017-12-26 00:05:55 388

原创 基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据

1.介绍: cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2. adam-0.18.2 adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码: package org.gcdss.cli.test

2017-12-26 00:05:28 286

原创 基因数据处理84之cs-bwamem处理小数据集

1.使用的是之前的数据: spark-submit –class cs.ucla.edu.bwaspark.BWAMEMSpark –master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cloud-scale-bwamem-0.2.0-assembly.jar upload-fastq 0

2017-12-26 00:03:40 636

原创 基因数据处理83之移动GRCH38Index到每个节点

1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mkdir -p ~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mv GCA_000001405.15_GRCh38/* ~/xubo/ref/G

2017-12-26 00:03:06 538

原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar

2017-12-26 00:02:40 680

原创 基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar

2017-12-26 00:01:25 595

原创 基因数据处理81之callVariant实现类callVariantByAvocado

1.代码:package org.gcdss.cli.callVariantimport java.text.SimpleDateFormatimport java.util._import org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADAMContext._import org.gcdss

2017-12-26 00:01:05 276

原创 基因数据处理80之disease的DataProcessing

1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */package org.gcdss.cli.diseaseimport java.text.SimpleDate

2017-12-26 00:00:36 235

原创 基因数据处理79之从vcf关联到omim

1.数据:// var vcfFile = "file/callDisease/input/small.vcf"// var dbSnp2omimFile = "file/callDisease/input/omimFilter9Text.txt"// var omimFile = "file/callDisease/input/genemap.txt"修改过small数据:

2017-12-26 00:00:09 954

原创 基因数据处理78之从vcf使用不同的方法读取结果不一样

1.方法1和2:val path2 = "hdfs://219.219.220.149:9000/xubo/callVariant/vcf/smallAnno2Adam.vcf"val anno2adam = sc.loadParquetVariantAnnotations(path2)println("anno2adam:")anno2adam.foreach(println)val ann

2017-12-25 23:58:46 750

原创 基因数据处理77之从vcf文件中提取某条染色体的数据

1.代码:/** * @author xubo */package org.gcdss.cli.vcfimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xubo on 2016/5/23. */object extractGRCH38chr20vcf { def main(args: Array

2017-12-25 23:58:02 4315

原创 基因数据处理76之从HDFS读取fasta并统计条数

读入fasta格式数据: 第一次:hadoop@Master:~/xubo/project/load/loadfastqFromHDFSfastaAndCount$ ./load.sh start:1run time:25101 ms*************end*************hadoop@Master:~/xubo/project/load/loadfastqFromHD

2017-12-25 23:57:22 501

原创 基因数据处理75之从HDFS读取vcf文件存为Adam的parquet文件(成功)

1.参考:package org.bdgenomics.adam.cliclass FlattenSuite extends ADAMFunSuite {val loader = Thread.currentThread().getContextClassLoaderval inputPath = loader.getResource("small.vcf").getPathval outp

2017-12-25 23:56:16 196

原创 基因数据处理74之从HDFS读取vcf文件存为Adam的parquet文件(有问题)

1.small.vcf: 没记录2.读取:5load time:3287 ms{"variant": {"variantErrorProbability": 139, "contig": {"contigName": "1", "contigLength": null, "contigMD5": null, "referenceURL": null, "assembly": null, "sp

2017-12-25 23:55:42 734

原创 基因数据处理73之从HDFS读取fasta文件存为Adam的parquet文件

1.GRCH38chr14:hadoop@Master:~/xubo/project/load$ ./load.sh start:1SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J

2017-12-25 23:54:33 358

原创 基因数据处理72之GATK安装成功

1.下载:git clone https://github.com/broadgsa/gatk-protected.git2.安装:git checkout 3.5mvn clean package -DskipTests3.安装成功:[INFO] Reactor Summary:[INFO] [INFO] GATK Root ...............................

2017-12-20 00:45:07 5048

原创 基因数据处理71之GRCH38 的chr14提取

1.获取开始和结束行号cat GCA_000001405.15_GRCh38_full_analysis_set.fna |grep -i -n '>'2.提取chr14cat GCA_000001405.15_GRCh38_full_analysis_set.fna |head -32835035|tail -1529197 >GRCH38ch14.fasta 3.整理:hadoop@Mc

2017-12-20 00:44:33 1140

原创 基因数据处理70之Picard安装没成功

1.下载:https://github.com/broadinstitute/picard.git2.安装:hadoop@Master:~/xubo/tools/picard$ ant clone-htsjdkBuildfile: /home/hadoop/xubo/tools/picard/build.xmlclone-htsjdk: [exec] Cloning into 'hts

2017-12-20 00:44:12 861

原创 基因数据处理69之bowtie安装与使用

1.下载:hadoop@Master:~/xubo/tools$ git clone https://github.com/BenLangmead/bowtie2.gitCloning into 'bowtie2'...remote: Counting objects: 7503, done.remote: Total 7503 (delta 0), reused 0 (delta 0),

2017-12-20 00:43:48 2784

原创 基因数据处理68之avocado的配置文件默认无法从hdfs读取

(1)配置文件设置为hdfs路劲有问题val configFile = "hdfs://219.219.220.149:9000/xubo/avocado/avocado-sample-configs/basic.properties"报错:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll/test$ .

2017-12-20 00:43:23 394

原创 基因数据处理67之bwa建立索引时间

两次,GRCH38 的1号染色体hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/bwaindex$ bwa index GRCH38chr1L3556522.fasta [bwa_index] Pack FASTA... 2.50 sec[bwa_index] Construct BWT for the packed sequen

2017-12-20 00:42:58 2021

原创 基因数据处理66之avocado集群运行

1.最大问题: 老报错的问题:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll$ ./GcdssCallVariant2.sh start:fqFile:hdfs://219.219.220.149:9000/xubo/avocado/NA12878_snp_A2G_chr20_225058.sam

2017-12-20 00:42:36 314

原创 基因数据处理65之bwa处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa aln bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwa.sai[bwa_aln] 17bp reads: max_diff = 2[bwa_aln] 38bp reads: max_diff = 3[bwa_a

2017-12-20 00:41:52 279

原创 基因数据处理64之bwamem处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa mem bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwamem.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs[M::process] read 10000 se

2017-12-20 00:40:20 860

原创 基因数据处理63之snap修改默认设置后处理大于400bp的记录

通过修改Read.h中的400=》4000,之后可以运行,但是匹配的命中率好低。但是bwamen很不错,下一篇有记录。xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version

2017-12-20 00:39:06 341

原创 基因数据处理62之snap默认无法处理大于400bp的reads

在处理500bp和1000bp的时候,snap都无法处理:xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version 1.0beta.23.Loading index from

2017-12-18 23:52:35 242

原创 基因数据处理61之idea运行cs-bwamem处理single-end(1条100bp的reads)

代码: package cs.ucla.edu.bwaspark import java.text.SimpleDateFormat import java.util.Date import cs.ucla.edu.bwaspark.FastMap._ import cs.ucla.edu.bwaspark.commandline.{BWAMEMCommand,

2017-12-18 23:52:13 368

原创 基因数据处理60之bwa运行single-end(1千万条100bp的reads)

第一次:```hadoop@Master:~/cloud/adam/xubo/data/cs-bwamem$ bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > bwa/g38L100c10000000Nhs20.bwase1.sai [bwa_aln] 17bp reads: max_diff

2017-12-18 23:51:59 251

原创 基因数据处理59之snap运行single-end(1千万条100bp的reads)

记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner single snap/snapindex g38L100c10000000Nhs20.fq -o snap/g38L100c10000000Nhs20.snap.sam Welcome to SNAP version 1.0beta.

2017-12-18 23:50:20 355

原创 基因数据处理58之snap运行paired-end(1千万条100bp的reads对)

hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner index GRCH38BWAindex/GRCH38chr1L3556522.fasta snapindex Welcome to SNAP version 1.0beta.23. Hash table slack 0.300000 L

2017-12-18 23:48:13 469

原创 基因数据处理57之BWA-MEM运行single-end(1千万条100bp的reads)

```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > g38L100c10000000Nhs20.bwamem.sam[M::bwa_idx_load_from_disk] rea

2017-12-18 23:47:44 513

原创 基因数据处理56之bwa运行paird-end(1千万条100bp的reads).md

(1)pair1.fq》sai bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq >g38L100c10000000Nhs20Paired1.saipair1记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem

2017-12-18 01:17:02 845

原创 基因数据处理55之cs-bwamem安装记录(idea maven ,没有通过pl)

project下的pom D:\1win7\java\jdk\bin\java "-Dmaven.home=D:\1win7\idea\IntelliJ IDEA Community Edition 15.0.4\plugins\maven\lib\maven3" "-Dclassworlds.conf=D:\1win7\idea\IntelliJ IDEA Community Editio

2017-12-18 01:15:19 270

原创 基因数据处理54之bwa-mem运行paird-end(1千万条100bp的reads)

指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq g38L100c10000000Nhs20Paired2.fq >g38L100c10000000Nhs20Pai

2017-12-18 01:14:46 897 1

原创 基因数据处理53之cs-bwamem集群版运行paird-end(1千万条100bp的reads)

art: art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired2.fastq上传到hdfs spark-submit --class cs.ucla.edu.bwaspark.B

2017-12-18 01:13:54 480

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1

2014-03-27

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

WebZIP下整个网站

WebZIP 是著名的离线浏览器软件,在它的帮助下你能够完整下载网站的内容,或者你也可以选择自行设置下载的层数、文件类型、网页与媒体文件的定位以及网址过滤器,以便按己所需地获取网站内容。你下载到本地硬盘中的网站内容将仍保持原本的 HTML 格式,其文件名与目录结构都不会变化,这样可以准确地提供网站的镜像。现在使用 WebZIP 中新的 FAR 插件工具,你可以把下载的内容制作成 HTML-帮助文件(.chm)。你也可以把抓取的网站内容压缩为 ZIP 文件。 免费下载:http://pan.baidu.com/s/18CdOh

2013-11-20

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

阿里移动推荐算法大赛冠军答辩PPT

阿里移动推荐算法大赛冠军答辩PPT, 阿里云 天池 移动推荐算法 冠军答辩PPT 视频在:http://tianchi.aliyun.com/mini/reply.htm?spm=0.0.0.0.DUevYN

2015-09-09

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

Ashley Madison用户数据泄露网站分析

Ashley Madison用户数据泄露网站分析:3300万,3700万,9.7G,bt,种子文件。下载。(仅供分析研究,禁止其他用途)

2015-08-25

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

鸟哥的Linux私房菜基础篇第三版.pdf

鸟哥的Linux私房菜基础篇第三版.pdf

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

bishop-prml-complete-solution

bishop-prml-complete-solution

2015-08-20

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除