自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 ganglia学习1之ganglia集群版搭建(支持hadoop和spark)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述    ...

2016-11-09 15:48:05 1666 0

原创 spark源码解读4之SortByKey

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用s...

2016-11-06 18:58:35 1823 0

原创 spark源码解读3之RDD中top源码解读

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方...

2016-11-04 19:51:14 2168 0

原创 spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到...

2016-11-04 19:51:02 2836 0

原创 spark源码解读1之Partitioner

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据...

2016-11-04 19:50:46 2112 0

原创 Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/573...

2016-05-17 22:34:00 3780 1

原创 SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning 1解释 2.代码: 3.结果: 参考 【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html ...

2016-05-03 19:15:34 679 0

原创 通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review

通过git拉取github/gitlab上的Pull Request(PR)/Merge Request(MR)到本地进行code review Github: git fetch origin pull/3188/head:pr3188 3188是PR的id https://github.co...

2019-08-17 10:39:50 2802 0

原创 read traffic light image(4138 images) from whole dataset(10w+) to obs

Application read traffic light image(4138 images) from whole dataset(10w+) to obs Prepare: Download data from reference[2] start jupter, import p...

2019-04-10 09:58:22 501 0

原创 Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis

Share Android 8.0 network to Mac High Sierra 10.13.3 by horndis I can confirm Horndis works with Honor V10 on High Sierra 10.13.3. Here’s a quick gu...

2019-03-18 23:17:42 654 0

原创 Apache CarbonData学习资料汇总

CarbonData Learning Materials 1. introduction Apache CarbonData is an indexed columnar data store solution for fast analytics on big data platform,...

2018-11-22 12:02:27 1381 0

原创 Install tensorflow and run hello world in MacBook pro : MacOS

Install tensorflow and run hello world in MacBook pro / MacOS install tensorflow localhost:git xubo$ pip3 install tensorflow Collecting tensorflow ...

2018-10-20 23:45:37 616 0

原创 集群节点间数据分发dispath.sh

!/usr/bin/env bash if [ $# -ne 1 ]; then echo “Usage: dispath.sh filename” exit 1 fi cur_dir=(cd"(cd"(cd "(di...

2018-06-06 12:07:52 626 0

原创 基因数据处理123之SSW代码不正确,到时比SparkSW时间长

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每次运行都需要进行一次score matrix的计算,而这个是将blosum50的矩阵转换...

2018-06-06 09:02:49 449 0

原创 基因数据处理122之SSW和SparkSW评分不一致,query为Q9

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 RT,但是顺序一致 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/SparkSW/SparkSW20161114/alluxio...

2018-06-06 09:02:11 389 0

原创 基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW的评分矩阵是128*128的,是按char的int值来进行计算的。而blosum50是蛋白质的,而且不是按ABC顺序来的,所以需要转换。 java中无法运行128*128的String...

2018-06-06 09:01:22 376 0

原创 基因数据处理120之scala调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 先有java提供转换,使用jni调用c 然后scala调用java 2.代码: 2.1 java: package ssw; /** * Created by xubo o...

2018-06-06 09:00:04 329 0

原创 基因数据处理119之java调用SSW在linux下运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 测试自带Example: xubo@xubo:~/xubo/tools/Complete-Striped-Smith-Waterman-Library/src$ scala -Djava....

2018-06-03 00:05:44 392 0

原创 基因数据处理118之SSW运行

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW是一个更快的SW算法,并且提供了c语言lib和java的调用 代码: https://github.com/mengyao/Complete-Striped-Smith-Waterm...

2018-06-03 00:05:20 470 0

原创 基因数据处理117之重新多次运行SparkBWA Yarn集群

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 重新运行,跟换了文件地址 后来终端,需要运行其他的 2.代码: hadoop@Master:~/disk2/xubo/project/alignment/sparkBWA$ vi s...

2018-06-03 00:03:54 349 0

原创 基因数据处理116之重新运行SparkBWA Yarn集群模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 很久没运行SparkBWA了,系统文件有点多,重新运行。 2.代码: end hadoop@Master:~/disk2/xubo/project/alignment/sparkBW...

2018-06-03 00:03:32 332 0

原创 基因数据处理115之重新运行SparkBWA本地模式

更多代码请见:https://github.com/xubo245 基因数据处理系列 1.记录 hadoop@Master:~/disk2/xubo/tools/SparkBWA/build$ ./pairedGRCH38L1Local.sh [Stage 3:> ...

2018-06-03 00:02:37 517 0

原创 基因数据处理114之BWA建立全基因组索引成功

运行记录 hadoop@Mcnode5:~/disk2/home/hadoop/xubo/ref/buildIndex$ bwa index GCA_000001405.15_GRCh38_full_analysis_set.fna [bwa_index] Pack FASTA... 33.1...

2018-06-03 00:01:56 2835 0

原创 基因数据处理113之对avocado识别的SparkBWA变异数据进行疾病分析_

(一)问题 问题1:avocado数据读取: avocado存到磁盘是:RDD[Genotype] val processedGenotypes: RDD[Genotype] = postProcessVariants(calledVariants, stats).flatMap(varia...

2018-06-03 00:01:41 202 0

原创 基因数据处理112之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常解决办法

前面一片已经讲了遇到的问题,之前也遇到过: 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null) http://blog.csdn.net/xubo245/article/details/515252...

2018-06-03 00:01:24 301 0

原创 基因数据处理111之运行gcdss的avocado编译识别报错getRecordGroupSample空指针异常

脚本: hadoop@Master:~/xubo/project/callVariant$ cat runBBg38L50c100000Nhs20Paired12YarnT201606252236LocalNopartition.sh #!/usr/bin/env bash ...

2018-06-03 00:01:09 350 0

原创 基因数据处理110之批量测试SparkBWA和CS-bwamem算法

1.总的脚本 hadoop@Master:~/xubo/project/alignment$ cat runSparkBWAAndCsbwamem.sh echo "start sparkBWA" ./sparkBWA/sparkBWA.sh ...

2018-06-03 00:00:50 200 0

原创 基因数据处理109之SparkBWA运行成功的部分log

数据来自: http://219.219.220.149:18080/history/application_1466866953605_0001/executors/ http://219.219.220.248:8042/node/containerlogs/container_146...

2018-06-02 23:59:50 283 0

原创 基因数据处理107之cs-bwamem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired1T20160625)

1.upload: hadoop@Master:~/xubo/project/alignment/cs-bwamem$ cat align.sh #spark-submit --class cs.ucla.edu.bwaspark.BWAMEMSpark --master spark://2...

2018-06-02 23:58:15 216 0

原创 基因数据处理106之bwa-mem运行paird-end(1千万条100bp的reads g38L100c10000000Nhs20Paired12)

脚本:hadoop@Master:~/xubo/project/alignment/sparkBWA$ cat g38L100c10000000Nhs20Paired12Bwamem.sh echo "start" startTime4=`date +"%s.%N&...

2018-01-11 00:45:49 508 0

原创 基因数据处理105之SparkBWAYarn模式运行1000万条paired-reads实例g38L100c10000000Nhs20Paired12YarnPartition

1.数据生成:art_illumina -ss HS20 -i GRCH38BWAindex/GRCH38chr1L3556522.fna -p -l 100 -m 200 -s 10 -c 10000000 -o g38L100c10000000Nhs20Paired 位置:hadoop@Ma...

2018-01-11 00:45:34 299 0

原创 基因数据处理104之SparkBWAMaster文件得到空文件,中间sam文件找不到

脚本1:spark-submit --class SparkBWA \ --master spark://219.219.220.149:7077 \ --conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/h...

2018-01-11 00:45:18 399 0

原创 基因数据处理103之SparkBWAYarn模式运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.executor.extraJavaOptions=-Djava.library.path=/home/hadoop/xubo/tools/Sp...

2018-01-11 00:44:58 294 0

原创 基因数据处理102之SparkBWA本地运行100万条paired-reads实例

脚本:spark-submit --class SparkBWA \ --master local \ --archives bwa.zip \ SparkBWA.jar \ -algorithm mem -reads paired \ -index /home/hadoop/xubo/ref/G...

2018-01-11 00:44:43 656 0

原创 基因数据处理101之SparkBWA本地运行配置和实例

1.修改Makefile.common:将LIBBWA_LIBS = -lrt 改为LIBBWA_LIBS = -lrt -lz不然会报错误【5】2.make之后修改java.library.path步骤:vi /etc/profile 加入export LD_LIBRARY_PATH=/hom...

2018-01-11 00:44:24 717 0

原创 基因数据处理100之bwamem算法处理100万条paired-reads数据GRCH38chr1L3556522N1000000L100paired12

运行记录:hadoop@Master:~/xubo/ref/GRCH38L1Index/pe$ bwa mem ../GRCH38chr1L3556522.fasta GRCH38chr1L3556522N1000000L100paired1.fastq GRCH38chr1L3556522N10...

2018-01-11 00:44:10 554 1

原创 基因数据处理99之SparkBWA修改下载文件

由于每次make都需要下载spark包,180M,所以在Make中将其注释掉了。然后运行make:hadoop@Mcnode1:~/xubo/tools/SparkBWA$ make if [ ! -d "build" ]; then mkdir build; fi gcc -...

2018-01-11 00:43:57 272 0

原创 基因数据处理98之SparkBWA运行时spark on Yarn问题日志完整记录

脚本:hadoop@Mcnode1:~/xubo/tools/SparkBWA/build$ cat paired.sh spark-submit --class SparkBWA \ --master yarn-client \ --conf "spark.e...

2018-01-11 00:43:26 553 0

原创 基因数据处理97之SparkBWA运行时spark on Yarn问题

hadoop@Master:~/xubo/tools/SparkBWA/build$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf Adding default...

2018-01-11 00:42:28 271 0

原创 基因数据处理96之sparkBWA运行问题(yarn)

hadoop@Master:~/xubo/project/alignment/sparkBWA$ ./paired.sh Using properties file: /home/hadoop/cloud/spark-1.5.2/conf/spark-defaults.conf ...

2018-01-05 00:36:40 234 0

提示
确定要删除当前文章?
取消 删除