Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!
私信 关注
KeepLearningBigData
码龄8年

主要学习Spark、CarbonData、Alluxio、Adam等大数据技术; Apache CarbonDarta Committer; Apache Spark、Alluxio、SparkBWA等项目的contributor

  • 1,512,400
    被访问量
  • 502
    原创文章
  • 1,669
    作者排名
  • 492
    粉丝数量
  • 目前就职 华为
  • 于 2013-03-21 加入CSDN
获得成就
  • 博客专家认证
  • 获得114次点赞
  • 内容获得176次评论
  • 获得346次收藏
荣誉勋章
TA的专栏
  • C语言
    23篇
  • JAVA
    37篇
  • 计算机
    18篇
  • 其他
    8篇
  • 云计算
    41篇
  • hadoop
    9篇
  • spark
    67篇
  • neo4j
    4篇
  • mongodb
    8篇
  • 课程
    18篇
  • NoSQL
    24篇
  • redis
    13篇
  • scala
    14篇
  • adam
    25篇
  • Cramtool
  • Samtools
    8篇
  • 基因数据处理
    122篇
  • Linux
    13篇
  • maven
    21篇
  • tomcat
    2篇
  • scalatest
    2篇
  • Github
    1篇
  • MLlib
    41篇
  • Spark2-0
  • Spark源码解读
    4篇
  • alluxio
    25篇
  • ganglia
    2篇
  • 基础学习
    5篇
  • Ray
    1篇
  • Spark问题
    15篇
  • GCDSS
  • tensor flow
    1篇
  • CarbonData
    1篇
  • AI
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code reviewGithub:git fetch origin pull/3188/head:pr31883188是PR的idhttps://github.com/apache/carbondata/pull/3188Gitlab:git pull remo...
原创
3454阅读
0评论
1点赞
发布博客于 2 年前

read traffic light image(4138 images) from whole dataset(10w+) to obs

Applicationread traffic light image(4138 images) from whole dataset(10w+) to obsPrepare:Download data from reference[2]start jupter, import pycocoDemo.ipynb localhost:PythonAPI xubo$ jupyter ...
原创
540阅读
0评论
0点赞
发布博客于 2 年前

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndisI can confirm Horndis works with Honor V10 on High Sierra 10.13.3. Here’s a quick guide:brew cask install horndisYou might have to...
原创
701阅读
0评论
0点赞
发布博客于 2 年前

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。
pdf
发布资源于 3 年前

Apache CarbonData学习资料汇总

CarbonData Learning Materials1. introductionApache CarbonData is an indexed columnar data store solution for fast analytics on big data platform, e.g.Apache Hadoop, Apache Spark, etc.1.1 官网: http:...
原创
1441阅读
0评论
1点赞
发布博客于 3 年前

Install tensorflow and run hello world in MacBook pro : MacOS

Install tensorflow and run hello world in MacBook pro / MacOSinstall tensorflowlocalhost:git xubo$ pip3 install tensorflowCollecting tensorflow Cache entry deserialization failed, entry ignored ...
原创
654阅读
0评论
0点赞
发布博客于 3 年前

集群节点间数据分发dispath.sh

!/usr/bin/env bashif [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 ficur_dir=(cd"(cd"(cd "(dirname “$1”)”; pwd) for dst in {1..50} doscp -r $1 emr-worker-$dst:$cur_di...
原创
668阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换成128*128的矩阵,当计算Q0,即8个字符串的query时,显然时间占比大,本来序列比对时间就不长...
原创
477阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释RT,但是顺序一致2.代码:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio-1.3.0$ vi sparkSWSSWQ10.sh dir=$(ls -l query/* |...
原创
422阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。java中无法运行128*128的String矩阵,所以需要提供blosum的转换2.代码: public static int[...
原创
401阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释先有java提供转换,使用jni调用c然后scala调用java2.代码:2.1 java:package ssw;/** * Created by xubo on 2016/11/25. */public class SSW { public sta...
原创
347阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释测试自带Example:xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava.library.path=. -cp SparkSW.jar ssw.ExampleAligning...
原创
431阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释SSW是一个更快的SW算法,并且提供了c语言lib和java的调用代码:https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library论文:Zhao, M., et al. (2013). "SSW Lib...
原创
531阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释重新运行,跟换了文件地址后来终端,需要运行其他的2.代码:hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi sparkBWA.sh for j in 10000 100000 1000000 1000000...
原创
366阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.解释很久没运行SparkBWA了,系统文件有点多,重新运行。2.代码:endhadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi g38L100c100000Nhs20Paired12SparkBWAYarnPartit...
原创
363阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245基因数据处理系列1.记录hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> (...
原创
617阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理114之BWA建立全基因组索引成功

运行记录hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.14 sec[bwa_index] Construct BWT for the packed sequ...
原创
3155阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

(一)问题问题1:avocado数据读取:avocado存到磁盘是:RDD[Genotype]val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(variantContext => variantContext.genotypes) // sav...
原创
239阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题,之前也遇到过:基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/51525241解决办法:在读入的sam/bam/adam数据进行判定,如果RecordGroup等数据为...
原创
368阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常

脚本:hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash spark-submit \--class org.gcdss.cli.callVarian...
原创
449阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh echo "startCsbwamem algin" ./cs-bwamem/csbwamemAlign.s...
原创
281阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理109之SparkBWA运行成功的部分log

数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/http://219.219.220.248:8042/node/containerlogs/container_1466866953605_0001_01_000003/hadoop/stderr/?start=0S...
原创
320阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)

1.upload:hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-...
原创
266阅读
0评论
0点赞
发布博客于 3 年前

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project
jar
发布资源于 3 年前

基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)

脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start"startTime4=`date +"%s.%N"` time4=`date +"%Y%m%d%H%M%S"` #spark-submit --cla
原创
539阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition

1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired位置:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ pwd/home/hadoop/x
原创
333阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到

脚本1:spark-submit --class SparkBWA \--master spark://219.219.220.149:7077 \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--driver-java-options
原创
457阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \--master yarn-client \--conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/SparkBWA/build" \--archives ./bwa.zip \SparkBWA.jar \-al
原创
338阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理102之SparkBWA本地运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \--master local \--archives bwa.zip \SparkBWA.jar \-algorithm mem -reads paired \-index /home/hadoop/xubo/ref/GRCH38L1Index/GRCH38chr1L3556522.fasta \-partitions
原创
716阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理101之SparkBWA本地运行配置和实例

1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile加入export LD_LIBRARY_PATH=/home/hadoop/xubo/tools/SparkBWA/build:$LD_LIBRARY_PATH
原创
814阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12

运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N1000000L100paired2.fastq >GRCH38chr1L3556522N1000000L1
原创
652阅读
1评论
0点赞
发布博客于 3 年前

基因数据处理99之SparkBWA修改下载文件

由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ makeif [ ! -d "build" ]; then mkdir build; figcc -c -g -Wall -Wno-unused-function -O2 -fPIC -DHAVE_PTHREAD -DUSE
原创
290阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录

脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-XX:MaxPermSize=1024M" --driver-
原创
630阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理97之SparkBWA运行时spark on Yarn问题

hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.confAdding default property: spark.executor.extraJavaOptions=-Djava.l
原创
289阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理96之sparkBWA运行问题(yarn)

hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default property: spark.executor.extraJavaOp
原创
261阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理95之sparkBWA运行问题

脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat pairedERR.sh spark-submit --class SparkBWA \--master local[4] \--driver-memory 1500m \--executor-memory 1500m \--executor-cores 1 \--arc
原创
317阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理94之使用kmer分析SRR003161数据的kmer分布

1.分两组(1)kmer长度为:5 to 21(2)kmer长度为:5 to 55 by 102.代码:package org.gcdss.cliimport java.text.SimpleDateFormatimport java.util._import org.apache.spark._import org.bdgenomics.adam.projection
原创
1399阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理93之sparkBWA安装和使用

1.安装git clone https://github.com/citiususc/SparkBWA.gitcd SparkBWAmake2.使用: 报错:没有成功hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./run.sh Error: Must specify a primary resource (JAR or P
原创
1097阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理92之重新调整loadDataProcessing使之能适应基因数据处理91的问题

1.解决思路:正如基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上描述的问题,目前解决办法如下:采取简单的map和union的方式将alternateAllele的读取改为逗号分开的。然后进行union余留问题,这样的方法需要遍历四次RDD,可以将返回的类型改为Array或者其他形式来减少时间开销。还好RDD不大, 只有1万多行。2.解决代码
原创
175阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理91之disease的vcf2omim和dataProcessing的数据对不上

1.介绍: vcf2omim数据量为:rdd2.count:8623 dataProcessing数据为: rdd2.count:10884 sum:2300 85842300为AlternateAllele有逗号的数量,例如ref为A,AlternateAllele为G,C2.原因分析,主要是读入vcf时上诉情况会变成两条: 数据:1 10493 rs199606
原创
228阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理90之disease的DataProcessing修改后运行记录

hadoop@Master:~/xubo/project/callDisease/DataProcessing$ ./allVcf.sh start:vcfFile:/xubo/callVariant/vcf/All_20160407.vcfdbSnp2omimFile:/xubo/callDisease/input/omimFilter9Text.txtomimFile:/xubo/ca
原创
179阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理89之vcf2omim大数据集错误

hadoop@Master:~/xubo/project/callDisease/Vcf2Omim$ ./allVcf.sh start call Vcf2Omimstart:Vcf2OmimvcfArrRDD:end[Stage 1:> (0 + 15) / 203]16/06
原创
263阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理88之vcf2omim得到omim和dbSnpId信息

1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */ package org.gcdss.cli.diseaseimport java.text.
原创
295阅读
0评论
0点赞
发布博客于 3 年前

基因数据处理87之adam-0.14.0读取adamsave数据成功

1,使用cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:但是使用adam-0.14.0的adamload可以读取。2.代码: package org.bdgenomics.adam.rdd import org.apache.spark.{SparkContext, SparkConf} import org
原创
243阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理86之idea中编译安装adam-0.14.0成功

1.安装时需要修改maven到较高版本,并且需要就内存per mem设置较大2.记录:D:\1win7\java\jdk\bin\java -Dmaven.multiModuleProjectDirectory=D:\all\idea\adam-adam-parent-0.14.0 -Xmx2g -XX:MaxPermSize=2024M -Dmaven.home=D:\1win7\java\apa
原创
503阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理85之adam-0.18.2无法读取0.14.0使用adamSave存储的数据

1.介绍: cs-bwamem依赖的是adam-0.14.0里面的adamSave存储之后无法用adam-0.18.2的结果读取:2. adam-0.18.2 adamsave可以用loadParquetAlignments读取。但无法用loadParquetAlignments读取adam-0.14.23.代码: package org.gcdss.cli.test
原创
291阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理84之cs-bwamem处理小数据集

1.使用的是之前的数据: spark-submit –class cs.ucla.edu.bwaspark.BWAMEMSpark –master local[2] /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/target/cloud-scale-bwamem-0.2.0-assembly.jar upload-fastq 0
原创
663阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理83之移动GRCH38Index到每个节点

1.从cloud/adam移出到xubo/ref:hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mkdir -p ~/xubo/ref/GRCH38Index/hadoop@Master:~/cloud/adam/xubo/data/test20160310$ mv GCA_000001405.15_GRCh38/* ~/xubo/ref/G
原创
605阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
原创
699阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理82之cs-bwamem处理SRR003161(参考基因组为GRCH38chr1)

core用不少了,只用了4个,实际可以14个。1.由于GRCH过大,及其内存小,运行不了全基因组匹配2.上传:spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://219.219.220.149:7077 /home/hadoop/xubo/tools/cloud-scale-bwamem-0.2.1/tar
原创
709阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理81之callVariant实现类callVariantByAvocado

1.代码:package org.gcdss.cli.callVariantimport java.text.SimpleDateFormatimport java.util._import org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADAMContext._import org.gcdss
原创
284阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理80之disease的DataProcessing

1.代码:/** * @author xubo * more code:https://github.com/xubo245/SparkLearning * more blog:http://blog.csdn.net/xubo245 */package org.gcdss.cli.diseaseimport java.text.SimpleDate
原创
238阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理79之从vcf关联到omim

1.数据:// var vcfFile = "file/callDisease/input/small.vcf"// var dbSnp2omimFile = "file/callDisease/input/omimFilter9Text.txt"// var omimFile = "file/callDisease/input/genemap.txt"修改过small数据:
原创
992阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理78之从vcf使用不同的方法读取结果不一样

1.方法1和2:val path2 = "hdfs://219.219.220.149:9000/xubo/callVariant/vcf/smallAnno2Adam.vcf"val anno2adam = sc.loadParquetVariantAnnotations(path2)println("anno2adam:")anno2adam.foreach(println)val ann
原创
764阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理77之从vcf文件中提取某条染色体的数据

1.代码:/** * @author xubo */package org.gcdss.cli.vcfimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xubo on 2016/5/23. */object extractGRCH38chr20vcf { def main(args: Array
原创
4430阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理76之从HDFS读取fasta并统计条数

读入fasta格式数据: 第一次:hadoop@Master:~/xubo/project/load/loadfastqFromHDFSfastaAndCount$ ./load.sh start:1run time:25101 ms*************end*************hadoop@Master:~/xubo/project/load/loadfastqFromHD
原创
512阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理75之从HDFS读取vcf文件存为Adam的parquet文件(成功)

1.参考:package org.bdgenomics.adam.cliclass FlattenSuite extends ADAMFunSuite {val loader = Thread.currentThread().getContextClassLoaderval inputPath = loader.getResource("small.vcf").getPathval outp
原创
201阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理74之从HDFS读取vcf文件存为Adam的parquet文件(有问题)

1.small.vcf: 没记录2.读取:5load time:3287 ms{"variant": {"variantErrorProbability": 139, "contig": {"contigName": "1", "contigLength": null, "contigMD5": null, "referenceURL": null, "assembly": null, "sp
原创
754阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理73之从HDFS读取fasta文件存为Adam的parquet文件

1.GRCH38chr14:hadoop@Master:~/xubo/project/load$ ./load.sh start:1SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J
原创
411阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理72之GATK安装成功

1.下载:git clone https://github.com/broadgsa/gatk-protected.git2.安装:git checkout 3.5mvn clean package -DskipTests3.安装成功:[INFO] Reactor Summary:[INFO] [INFO] GATK Root ...............................
原创
5118阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理71之GRCH38 的chr14提取

1.获取开始和结束行号cat GCA_000001405.15_GRCh38_full_analysis_set.fna |grep -i -n '>'2.提取chr14cat GCA_000001405.15_GRCh38_full_analysis_set.fna |head -32835035|tail -1529197 >GRCH38ch14.fasta 3.整理:hadoop@Mc
原创
1170阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理70之Picard安装没成功

1.下载:https://github.com/broadinstitute/picard.git2.安装:hadoop@Master:~/xubo/tools/picard$ ant clone-htsjdkBuildfile: /home/hadoop/xubo/tools/picard/build.xmlclone-htsjdk: [exec] Cloning into 'hts
原创
898阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理69之bowtie安装与使用

1.下载:hadoop@Master:~/xubo/tools$ git clone https://github.com/BenLangmead/bowtie2.gitCloning into 'bowtie2'...remote: Counting objects: 7503, done.remote: Total 7503 (delta 0), reused 0 (delta 0),
原创
2841阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理68之avocado的配置文件默认无法从hdfs读取

(1)配置文件设置为hdfs路劲有问题val configFile = "hdfs://219.219.220.149:9000/xubo/avocado/avocado-sample-configs/basic.properties"报错:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll/test$ .
原创
406阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理67之bwa建立索引时间

两次,GRCH38 的1号染色体hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/bwaindex$ bwa index GRCH38chr1L3556522.fasta [bwa_index] Pack FASTA... 2.50 sec[bwa_index] Construct BWT for the packed sequen
原创
2120阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理66之avocado集群运行

1.最大问题: 老报错的问题:hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem/BWAMEMSparkAll$ ./GcdssCallVariant2.sh start:fqFile:hdfs://219.219.220.149:9000/xubo/avocado/NA12878_snp_A2G_chr20_225058.sam
原创
324阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理65之bwa处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa aln bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwa.sai[bwa_aln] 17bp reads: max_diff = 2[bwa_aln] 38bp reads: max_diff = 3[bwa_a
原创
296阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理64之bwamem处理500bp和1000bp的记录

xubo@xubo:~/xubo/data/alignment/cs-bwamem$ bwa mem bwaindex/GRCH38chr1L3556522.fasta g38l500N10000.fq >g38l500N10000.bwamem.sam[M::bwa_idx_load_from_disk] read 0 ALT contigs[M::process] read 10000 se
原创
940阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理63之snap修改默认设置后处理大于400bp的记录

通过修改Read.h中的400=》4000,之后可以运行,但是匹配的命中率好低。但是bwamen很不错,下一篇有记录。xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version
原创
371阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理62之snap默认无法处理大于400bp的reads

在处理500bp和1000bp的时候,snap都无法处理:xubo@xubo:~/xubo/data/alignment/cs-bwamem$ snap-aligner single snapindex/ g38l500N10000.fq -o g38l500N10000.snap1.samWelcome to SNAP version 1.0beta.23.Loading index from
原创
255阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理61之idea运行cs-bwamem处理single-end(1条100bp的reads)

代码: package cs.ucla.edu.bwaspark import java.text.SimpleDateFormat import java.util.Date import cs.ucla.edu.bwaspark.FastMap._ import cs.ucla.edu.bwaspark.commandline.{BWAMEMCommand,
原创
374阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理60之bwa运行single-end(1千万条100bp的reads)

第一次:```hadoop@Master:~/cloud/adam/xubo/data/cs-bwamem$ bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > bwa/g38L100c10000000Nhs20.bwase1.sai [bwa_aln] 17bp reads: max_diff
原创
288阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理59之snap运行single-end(1千万条100bp的reads)

记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner single snap/snapindex g38L100c10000000Nhs20.fq -o snap/g38L100c10000000Nhs20.snap.sam Welcome to SNAP version 1.0beta.
原创
383阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理58之snap运行paired-end(1千万条100bp的reads对)

hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ snap-aligner index GRCH38BWAindex/GRCH38chr1L3556522.fasta snapindex Welcome to SNAP version 1.0beta.23. Hash table slack 0.300000 L
原创
492阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理57之BWA-MEM运行single-end(1千万条100bp的reads)

```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20.fq > g38L100c10000000Nhs20.bwamem.sam[M::bwa_idx_load_from_disk] rea
原创
524阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理56之bwa运行paird-end(1千万条100bp的reads).md

(1)pair1.fq》sai bwa aln GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq >g38L100c10000000Nhs20Paired1.saipair1记录: hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem
原创
891阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理55之cs-bwamem安装记录(idea maven ,没有通过pl)

project下的pom D:\1win7\java\jdk\bin\java "-Dmaven.home=D:\1win7\idea\IntelliJ IDEA Community Edition 15.0.4\plugins\maven\lib\maven3" "-Dclassworlds.conf=D:\1win7\idea\IntelliJ IDEA Community Editio
原创
273阅读
0评论
0点赞
发布博客于 4 年前

基因数据处理54之bwa-mem运行paird-end(1千万条100bp的reads)

指令:```hadoop@Master:~/cloud/adam/xubo/data/GRCH38Sub/cs-bwamem$ bwa mem GRCH38BWAindex/GRCH38chr1L3556522.fasta g38L100c10000000Nhs20Paired1.fq g38L100c10000000Nhs20Paired2.fq >g38L100c10000000Nhs20Pai
原创
938阅读
1评论
0点赞
发布博客于 4 年前

基因数据处理53之cs-bwamem集群版运行paird-end(1千万条100bp的reads)

art: art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired2.fastq上传到hdfs spark-submit --class cs.ucla.edu.bwaspark.B
原创
485阅读
0评论
0点赞
发布博客于 4 年前

JNI学习1之资料整理大全

更多代码请见:https://github.com/xubo245/JNILearning1.书籍:Java核心技术卷二 第十二章本地方法2.百度云: 深入浅出JNI 第一讲(JNI概述、编写首个JNI程序) 传智播客_Java培训教程_JNI第1-7讲3.开源项目: https://github.com/xubo245/HelloWorldJNIwithRegisterNatives
原创
788阅读
0评论
0点赞
发布博客于 4 年前

Spark问题14之Spark stage retry问题

更多代码请见:https://github.com/xubo245基因数据处理系列之SparkBWA1.解释1.1 简述当partitions超过节点数量的时候Lost executor的问题,已经提交到SparkBWA中,https://github.com/citiususc/SparkBWA/issues/35另外发现,tmp里面有临时文件没有删除,而且stage retry未解决2.记录完整
原创
3844阅读
0评论
0点赞
发布博客于 4 年前

Spark问题13之Total size of serialized results of 30 tasks (2.0 GB) is bigger than spark.driver.maxResul

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述当使用cs-bwamem输出文件到local的sam时,文件过大,出现问题。driver的默认maxResultSize不够,报错2.运行记录:hadoop@M
原创
6107阅读
0评论
0点赞
发布博客于 4 年前

Spark问题12之kryoserializer shuffle size 不够,出现overflow

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行cs-bwamem是出现序列化shuffle overflow问题,主要是需要输出sam到本地,文件比较大,默认的是:spark.kryoserial
原创
4069阅读
2评论
0点赞
发布博客于 4 年前

Spark问题11之广播失败

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述运行是出现Error cleaning broadcast 72.运行记录:17/02/28 08:28:48 ERROR ContextCleaner: Er
原创
4761阅读
0评论
0点赞
发布博客于 4 年前

Spark问题10之Spark运行时节点空间不足导致运行报错

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 简述在写了脚本运行多个application的时候,运行到十几个之后,报错了。org.apache.spark.SparkException: Job
原创
1940阅读
0评论
0点赞
发布博客于 4 年前

Spark问题9之Spark通过JNI调用c的问题解决

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述当scala通过JNI调用c时,使用spark-submit提交时,会出现错误:no JNIparasail in java.library.pat
原创
2697阅读
6评论
0点赞
发布博客于 4 年前

Spark问题8之worker lost

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 第一次八个节点七个节点dead,worker都lost了,不知道为什么没找到其他日志【3】中也有类似的问题,猜测可能是history增加的原因hadoo
原创
1173阅读
0评论
0点赞
发布博客于 4 年前

Spark问题7之如何让节点执行指定的core数

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1使用1,2的代码会有1个节点执行连个core1.2 ## 代码hadoop@Master:~/disk2/xubo/project/alignment/S
原创
1862阅读
0评论
0点赞
发布博客于 4 年前

Spark问题6之Spark丢失excutor之后appport占CPU90%

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 spark lost excutorhadoop@Master:~/disk2/xubo/project/alignment/SparkSW/Spark
原创
804阅读
0评论
0点赞
发布博客于 4 年前

Spark问题5之ERROR LiveListenerBus SparkListenerBus has already stopped

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1 描述将uniref按照序列长度[0,100).[100,)…进行划分,然后使用sparkSW从HDFS和Alluxio分别读取,并进行性能分析运行过程中
原创
11323阅读
4评论
0点赞
发布博客于 4 年前

Spark问题4之Excutor lost

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1Mcnode1 的一个excutor丢失: ExecutorLostFailure (executor 2 lost)1.2http://Master
原创
1016阅读
0评论
0点赞
发布博客于 4 年前

Spark问题3之SparkException:Error notifying standalone scheduler's driver endpoint

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述1.1运行alluxioHDFS.sh的时候出现错误:hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/
原创
1430阅读
0评论
0点赞
发布博客于 4 年前

Spark问题2之window下载hdfs文件的hosts设置

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.问题描述window下打开hdfs,会出现问题:hdfs常配置了hosts,访问或者下载hdfs的文件时(通过浏览器),回出现跳转的是hostname,而不是ip,而w
原创
699阅读
0评论
0点赞
发布博客于 4 年前

Spark问题1之读入参考序列的adam格式报错empty max

原因:读取方法不对// val rdd = sc.loadParquetContigFragments(args(0))解决办法:val rdd = sc.loadSequence(args(0))运行记录:hadoop@Master:~/xubo/project/load/loadfastaFromHDFSAdamAndCount$ ./loadGRCH38chr14.sh start
原创
1500阅读
0评论
0点赞
发布博客于 4 年前

RISELab实验室正在开发的Ray项目初步尝试记录

Ray是RISELab实验室在开发的一个项目,目前还没有发布(20170208,20170124就听说了),想试下,听说架构和性能都有很大提升。之前学的Spark就是RISELab的前生,AMPlab开发的。sudo apt-get update报错了:Err http://archive.ubuntukylin.com:10006 trusty Release.gpg Unable to co
原创
1385阅读
0评论
0点赞
发布博客于 4 年前

集群部署和配置工具Mark

最近在跟蚂蚁金服的工程师聊的时候,突然想起一个问题,特地请教了下。如果有上千台服务器,如何快速的部署?包括系统和软件。如果一个一个系统安装操作系统,肯定很麻烦,而且耗时。之前也问过一些朋友,但都没得到好的回答。望玄师兄介绍了两个工具ansible和puppet。Mark下。大概查了下,没花太多时间。ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfe
原创
874阅读
0评论
1点赞
发布博客于 4 年前

使用阿里云E-MapReduce遇到的那些坑

由于需要做实验来验证自己系统的scalability,实验室机器数又不够,所以选择用商业服务器来完成实验。 在AWS和阿里云之间选择了阿里云。在完成试验后对实验过程中遇到的那些坑进行了总结。   自己的实验主要是做一个分布式序列比对系统(DSA: Distributed Sequence Alignment System),测试其中相关算法的scalability  由于是要测性能,所以选择了独享
原创
6468阅读
0评论
0点赞
发布博客于 4 年前

Ubuntu下解决IDEA与Maven的配置问题:Dmaven.multiModuleProjectDirectory system property is not set

1 问题描述当在ubuntu下使用IDEA 13.0 maven3.3.9的时候mvn package出现问题/usr/lib/jvm/java-7-openjdk-amd64/bin/java -Dmaven.home=/home/xubo/cloud/apache-maven-3.3.9 -Dclassworlds.conf=/home/xubo/cloud/apache-maven-3.3.9
原创
1619阅读
2评论
0点赞
发布博客于 4 年前

基础知识学习1之哈希(Hash)

1.理解1.1 基本概念理解哈希, Hash的音译,也有翻译做“散列”。 可以理解为映射的一种。T[hash[x]]=x, 通过hash函数将值x转换成T对应的下标,然后将值写到该位置. 比如除法hash: 10%9取余1,将10存在T[1].hash平均时间要比链表快,同时可以节省比数组更少的空间。 假设关键字集合为K,关键字域为U,空间可以将至O(|K|).hash使用的场景是数的集合比数的
原创
485阅读
0评论
0点赞
发布博客于 4 年前

Adam学习27之序列化问题解决办法

1.问题:1.1 描述当读入fastq文件后,需要进行转换,比如collect或者读取属性,会出现没有序列化的问题1.2 问题代码:package org.dsw.coreimport org.apache.spark.{SparkContext, SparkConf}import org.bdgenomics.adam.rdd.ADAMContext._/** * Created by xu
原创
860阅读
0评论
0点赞
发布博客于 5 年前