自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 Adam学习13之Fasta/Fastq/SAM/BAM文件格式数据读取

0.代码(读取方法): package org.bdgenomics.adamLocal.algorithms.test import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apac...

2016-04-30 22:33:19 4659 0

原创 SAM数据格式学习3之官方文档

SAM数据格式学习3之官方文档 http://samtools.github.io/hts-specs/SAMv1.pdf 其他详细格式: https://github.com/samtools/hts-specs 里面很详细

2016-04-29 22:06:45 544 0

原创 SAM数据格式学习2之FLAG理解

SAM格式: 1.FLAG说明: Each bit in the FLAG field is defined as: 0x0001 p the read is paired in sequencing 0x0002 P the read is mapped in a prop...

2016-04-29 17:25:02 3817 0

原创 SAM数据格式学习1之CIGAR理解

SAM信息中的一条: SRR003161.2 0 chr7 41381016 60 4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S * 0 0 TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAG...

2016-04-29 17:12:38 7468 1

原创 Spark中组件Mllib的学习2之MovieLensALS学习(集群run-eaxmples运行)

1.将spark下的data文件夹上传到hdfs目录 2.运行: hadoop@Master:~/cloud/spark-1.5.2$ ./bin/run-example mllib.MovieLensALS --rank 5 --numIterations 20 --lambda 1.0 -...

2016-04-27 20:22:35 1337 0

原创 Spark组件之Spark Streaming学习5--WindowsWordCount学习

更多代码请见:https://github.com/xubo245/SparkLearning 1.理解 WindowsWordCount是滑动窗口技术的应用,是统计多个窗口,在滑动。可以用于统计最近30秒或者最近一个小时的信息,单个batch还可以保留为1秒,然后每隔10秒或者半个小...

2016-04-26 22:25:54 487 0

原创 Spark组件之Spark Streaming学习4--HdfsWordCount 学习

1.理解:HdfsWordCount 是从hdfs的文件读入流文件,即制定文件目录,每个一段时间扫描该路径下的文件,不扫描子目录下的文件。 如果有新增加的文件,则进行流计算  val ssc = new StreamingContext(sparkConf, Seconds(2)) 处理跟前面差...

2016-04-26 21:36:29 1390 0

原创 Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)

1.通过建立一个对象来获取Streaming的单例对象 val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext) import sqlContext.implicits._ object SQLContex...

2016-04-26 17:26:39 2557 0

原创 Spark组件之Spark Streaming学习2--StatefulNetworkWordCount 学习

运行方法类似:http://blog.csdn.net/xubo245/article/details/51251970 1.理解 StatefulNetworkWordCount 与NetworkWordCount不同的是会进行state标记,然后wordCount是累计,而不是只求一个batc...

2016-04-26 17:19:48 1178 0

原创 Spark组件之Spark Streaming学习1--NetworkWordCount学习

NetworkWordCount:每个1秒将接收的数据进行wordCount,不累加 使用 1.方法1:在集群的examples中启动 一个terminal: ./bin/run-example streaming.NetworkWordCount localhost 9999 另外一个ter...

2016-04-26 17:08:15 1024 0

原创 GitLab安装并设置为开机启动

gitlab安装步骤 1.下载: 地址:https://bitnami.com/stack/gitlab/installer 下载的版本为:bitnami-gitlab-8.5.7-0-linux-x64-installer.run 2.安装: sudo chmod 777 bitnami...

2016-04-25 17:47:17 13100 0

原创 基因数据处理25之avocado安装

基因数据处理25之avocado安装 下载: git clone https://github.com/bigdatagenomics/avocado.git 安装 第一次失败,第二次成功 hadoop@Master:~/cloud/adam/xubo/cod...

2016-04-23 02:26:27 6781 0

原创 基因数据处理24之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条,4线程)

比默认的要块1倍左右 1 [M::bwa_idx_load_from_disk] read 0 ALT contigs [bsw2_aln] read 25000 sequences/pairs (14470082 bp) ... [main] Version: 0.7.13-r1126 [ma...

2016-04-22 19:07:25 1725 0

原创 基因数据处理23之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为25000条)

结论: read为25000条对单条染色体进行比对需要110秒左右,对chr1-4比对需要160秒左右 运行结果: 1 [M::bwa_idx_load_from_disk] read 0 ALT contigs [bsw2_aln] read 17040 sequences/pairs (...

2016-04-22 18:13:57 1157 0

原创 基因数据处理22之对GRCH38全基因建立BWA索引

环境: ubuntu 14.04 内存 6G bwa 0.7.12 结论: 建立索引大概4500秒左右 节点2运行: hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160422$ cp ../test20160310/GCA_...

2016-04-22 17:36:47 2911 0

原创 基因数据处理21之BWASW算法ref分块建立索引然后比对(ref切分为四段,read为250条)

1.时间分析 对ref为单条染色体进行比对,第一次比对在3-5s不等,对chr1-4比对,在20s左右 连续比对多次后,对单染色体比对降到1s左右,chr1-4降到2s左右 不懂为什么比一次比对时间比较长,后面几次比对时间变短 运行代码: hadoop@Master:~/clou...

2016-04-22 16:46:40 1191 0

原创 基因数据处理20之BWASW算法ref分块建立索引然后比对

SRR003161h20.fastq 三次测试: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub$ bwa bwasw GRCH38chr1L3556522.fna SRR003161h20.fastq >SRR003161h20BWASWch...

2016-04-22 16:24:31 1390 0

原创 Adam学习12之loadFasta中的Fragment参数配置

1.fragment 为10000: val fq1 = ac.loadFasta(file1, 10000): hadoop@Master:~/cloud/testByXubo/spark/GRCH38$ ./cluster.sh fq0.count:45850077

2016-04-21 16:30:12 1356 0

原创 Spark组件之SparkR学习5--R语言函数调用(跨文件调用)

环境: RStudio R-3.2.1 Spark组件之SparkR学习5--R语言函数调用(跨文件调用) 1.在文件夹func下新建R文件addTest.R:  文件路径:D:/all/R/RStudio/Rtianchi/R/func/addTest.R D:/all/R/RStudio...

2016-04-21 02:05:09 2122 0

原创 Spark组件之SparkR学习4--Eclipse下R语言环境搭建

1.下载R地址: eclipse下 http://download.walware.de/eclipse-4.3/ Learning R这本书上第5页有讲从http://www.walware.de/goto/statet下载,但是没试成功,不确定是否可行 继续。。。

2016-04-20 13:12:34 2848 0

原创 Spark组件之SparkR学习3--使用spark-submit向集群提交R代码文件data-manipulation.R

1.数据准备: 1.1 下载数据文件 wget http://s3-us-west-2.amazonaws.com/sparkr-data/flights.csv 1.2 上传到hdfs: hadoop fs -put flights.csv ./ 2.运行 2.1 默认本地运行: spar...

2016-04-20 13:00:07 3432 0

原创 Spark组件之SparkR学习2--使用spark-submit向集群提交R代码文件dataframe.R

环境: spark1.5.2,R-3.2.1 1.examples1   dataframe.R  1.1 文件来源:参考【1】 ./bin/spark-submit examples/src/main/r/dataframe.R中代码运行有问题: hadoop@Master:~/cloud/...

2016-04-20 12:32:27 2846 0

原创 Spark组件之SparkR学习1--安装与测试

环境: ubuntu:Spark 1.5.2(已装)、R3.2.1 Window: Rstudio 1.R安装: Spark安装后直接启动SparkR会报错,R找不到,故需要装R (1)R下载: https://cran.r-project.org/src/base/R-3/ 或者: https...

2016-04-19 23:55:56 3797 2

原创 Spark生态之Spark-csv学习1之安装和简单的examples

1.安装: (1) Spark-shell: $SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0直接运行就进入了shell (2)eclipse的project: 可以从(1)中安装的三个jar包...

2016-04-19 00:15:52 4066 0

原创 Adam学习11之Adam2.10-0.19搭建问题解决

Adam学习11之Adam2.10-0.19搭建问题解决 From:https://github.com/bigdatagenomics/adam/issues/1001 install by mvn clean package -DskipTests error: [INFO] [INF...

2016-04-18 10:27:31 3263 0

原创 Spark疑问2之spark 丢了executor会恢复吗?

Spark疑问2之spark 丢了executor会恢复吗 Lost executor hadoop@Master:~/cloud/testByXubo/spark/GRCH38/test2$ ./cluster.sh fq0.count:45850077 ...

2016-04-17 15:33:35 3280 0

原创 Spark疑问1之如何查看sparkContext没有关闭的sc

Spark疑问1之如何查看sparkContext没有关闭的 在跑完spark程序后有时会忘记执行sc.stop hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887

2016-04-17 15:30:07 7284 1

原创 Adam学习10之集群节点的内存对运行时间的影响

问题:将单节点的内存从512M加到4096M时运行时间不减少反而增加,不解,待解决。是不是单个测试用例的偶然性? hadoop@Master:~/cloud/testByXubo/spark/hs38DH/package$ ./cluster.sh fq0.count:105887 ...

2016-04-17 14:50:57 451 0

原创 Adam学习9之对GRCH38的fna文件进行统计操作

第三种方法和第二种方法可以顺利执行,统计出来GRCH38(GCA_000001405.15_GRCh38_full_analysis_set.fna)的信息: fq0.count:45850077 ...

2016-04-17 14:28:37 2553 0

原创 基因数据处理19之BWA匹配算法串产生、匹配、评价等整体流程

环境: ubunut BWA samtools wgsim bwa.kit工具 1.数据下载:需要在bwa.kit下 bwa.kit/run-gen-ref hs38DH 2.串产生: hadoop@Mcnode1:~/cloud/adam/xubo/data/hs3...

2016-04-15 19:41:25 2452 2

原创 基因数据处理18之基因序列生成工具wgsim安装和使用

1.下载: https://github.com/lh3/wgsim 可以git或者zip 2.安装: gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm 3.数据下载:可以使用bwakit下载: https://github.com/lh3/bwa/tre...

2016-04-15 17:12:57 2668 0

原创 Spark组件之SparkSQL学习1之问题报错No TypeTag available for Person

/** * @author xubo * spark 1.5.2 * * reference :http://spark.apache.org/docs/1.5.2/sql-programming-guide.html */ 运行Inferring the Schema Using ...

2016-04-14 17:20:16 3046 0

原创 eclipse中安装并编译C/C++

1.下载安装CDT http://www.eclipse.org/cdt/downloads.php 查找地址:http://download.eclipse.org/tools/cdt/releases/kepler 在eclipse 中的help中install new software输入...

2016-04-08 12:33:22 470 0

提示
确定要删除当前文章?
取消 删除