自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/573...

2016-05-17 22:34:00

阅读数 3632

评论数 1

原创 SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning 1解释 2.代码: 3.结果: 参考 【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html ...

2016-05-03 19:15:34

阅读数 636

评论数 0

原创 基因数据处理43之mango之503错误

HTTP ERROR: 503Problem accessing /. Reason: Service UnavailablePowered by Jetty://更详细请见: https://github.com/bigdatagenomics/mango/issues/181

2016-05-30 20:35:02

阅读数 385

评论数 0

原创 基因数据处理42之mango问题_seqdict.avro不存在解决

参考【1】中问题解决 问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有解决办法:package org.gcdss.testimport java.io.File import java.nio.file.Filesimport org.apache.parquet....

2016-05-30 20:09:06

阅读数 396

评论数 0

原创 基因数据处理41之mango使用失败

这里写代码片

2016-05-30 13:30:58

阅读数 590

评论数 0

原创 基因数据处理40之bedtools的安装和使用

下载: 编译 3. 4.运行: bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录:这里写代码片

2016-05-30 13:01:48

阅读数 2910

评论数 0

原创 统计项目下各语言的代码量

更多代码请见:https://github.com/xubo245/AdamLearning1解释 统计项目下各语言的代码量 例子:tensorflow tensorflow 代码大概63万行2.代码: (1)代码下载git clone https://github.com/tensorf...

2016-05-30 10:58:48

阅读数 1159

评论数 0

原创 基因数据处理39之mango安装记录

更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser2.代码:git clone https://github.com/bigd...

2016-05-30 10:11:57

阅读数 669

评论数 0

原创 linux环境下关闭后台进程

1.基本: ctrl +Z回导致正在运行的程序方法哦后台运行fg可以在前台运行bg后台2.查看进程id: 查看当前进行idjobs -l3.关闭:kill -9 pidhadoop@Master:~/xubo/tools/mango$ jobs [1]+ Stopped ...

2016-05-29 19:47:20

阅读数 3667

评论数 0

原创 基因数据处理38之dbSnpId到omimId的映射表

1.下载: 首先收到【2】,来源是【2】 【1】中有描述:You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table...

2016-05-29 19:39:59

阅读数 490

评论数 0

原创 Idea中 Module is not specified错误解决

更多代码请见:https://github.com/xubo245/AdamLearning1解释 在idea中运行代码时报错:Error running ADAMVariationRDDFunctionsSuite: Module is not specified2.解决办法:In the E...

2016-05-29 18:58:32

阅读数 34644

评论数 7

原创 基因数据处理37之bdg-formats编译成功

更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中2.代码: 【...

2016-05-29 16:13:21

阅读数 422

评论数 0

原创 基因数据处理36之qc-metrics安装

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purpose...

2016-05-29 13:38:55

阅读数 562

评论数 0

原创 基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理

指令:samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_ch...

2016-05-28 21:25:37

阅读数 2728

评论数 0

原创 基因数据处理34之使用samtools和bcftools进行变异分析

1.指令: (1)samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或...

2016-05-28 21:22:21

阅读数 4458

评论数 2

原创 基因数据处理33之Avocado运行记录(参考基因组)

1.数据下载: avocaodo的test resource中2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo...

2016-05-28 19:51:21

阅读数 665

评论数 0

原创 基因数据处理32之Avocado运行记录(人造数据集)

主要是需要数据正确,如果中间缺少记录,avocado一般不会成功 1.代码: Avocado修改:/** * Licensed to Big Data Genomics (BDG) under one * or more contributor license agreements. ...

2016-05-28 19:02:45

阅读数 717

评论数 0

原创 Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary

Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码:package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkCo...

2016-05-28 18:47:54

阅读数 695

评论数 0

原创 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)

读入的read为: val fqFile = "hs38DHSE1L100F1.sam"读取结果:cleanedReads.count:1 {"readNum": 0, "contig": {"contigName":...

2016-05-28 15:50:11

阅读数 699

评论数 0

原创 基因数据处理30之avocado运行avocado-cli中的avocado问题1和2

问题1:avocado中的run方法中: println("stats.coverage:" + stats.coverage)调用的是: lazy val coverage = ComputingCoverage.time { ScoreCoverage(inp...

2016-05-28 15:20:28

阅读数 580

评论数 0

原创 基因数据处理29之avocado运行snap-basic有问题

hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop...

2016-05-27 23:08:26

阅读数 599

评论数 0

原创 基因数据处理28之avocado运行

需要注意的是如果使用avocado的命令行,fs和fq为hdfs路径,properties为本地路径:hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.f...

2016-05-27 22:36:53

阅读数 823

评论数 0

原创 基因数据处理26之bcftools安装和使用

1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools生成bcf文件:xubo@xubo:~/xubo/data/testTools/se$ samto...

2016-05-27 21:23:13

阅读数 7237

评论数 0

原创 基因数据处理27之FastQC在linux下安装运行

FastQC是评价基因数据质量的软件。1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置: unzip 配置:ln -s /path/to/FastQC/fastqc /usr/...

2016-05-26 21:40:02

阅读数 8785

评论数 2

原创 Spark中组件Mllib的学习41之保序回归(Isotonic regression)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小? 保序回...

2016-05-25 16:59:59

阅读数 1378

评论数 0

原创 Spark中组件Mllib的学习40之梯度提升树(GBT)用于回归*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT(Gradient Boost Regression Tree)渐进梯度回归树 同样的setCategoricalFeaturesIn...

2016-05-25 16:39:45

阅读数 2433

评论数 0

原创 Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释(1)GBDT基本概念 用ID3算法和C4.5算法学习得到的决策树,有可能导致模型过拟合,通常使用剪枝算法来解决。随着集成学习的发展...

2016-05-25 16:33:45

阅读数 2838

评论数 0

原创 Spark中组件Mllib的学习38之随机森林(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib...

2016-05-25 15:48:26

阅读数 2212

评论数 1

原创 Spark中组件Mllib的学习37之随机森林(Gini)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest 大概思想就是生成多个决策树,都单独训练;如果来了一个数据,用各个决策树进行回归预测,如果是非连续结果,则取...

2016-05-25 15:44:03

阅读数 1661

评论数 0

原创 Spark中组件Mllib的学习36之决策树(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机...

2016-05-25 15:26:54

阅读数 1279

评论数 0

原创 Spark中组件Mllib的学习35之随机森林(entropy)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest2.代码:/** * @author xubo * ref:Spark MlLib机器学...

2016-05-25 15:17:15

阅读数 1536

评论数 0

原创 Spark中组件Mllib的学习34之决策树(使用entropy)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算:gini、entropy、variance。其他的目前不支持 def fromString(name: Str...

2016-05-25 15:08:22

阅读数 3063

评论数 0

原创 下载github项目中的某个文件夹或者文件

更多代码请见:https://github.com/xubo245/SparkLearning1.解释 有时候由于project太大或者不想下载项目的所有文件,只需要下载单个文件或者文件夹,这个时候使用git就比较麻烦了。 github下载pdf文件,使用右键链接另存为的时候下载的文件无法打开...

2016-05-25 12:37:20

阅读数 18314

评论数 1

原创 Spark中组件Mllib的学习33之决策树(使用Gini)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树:Decision Trees请见【4】【5】 数据每次是随机划分,所以准确率每次不一定2.代码:/** * @author xubo ...

2016-05-25 11:25:25

阅读数 893

评论数 0

原创 Spark中组件Mllib的学习32之朴素贝叶斯分类器(伯努利朴素贝叶斯)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 (1) 朴素贝叶斯分类器种类 在把训练集中的每个文档向量化的过程中,存在两个模型。一个是统计词在文档中出现的次数(多项式模型);一个是统计词是否...

2016-05-25 11:03:53

阅读数 1696

评论数 0

原创 Spark中组件Mllib的学习31之朴素贝叶斯分类器(多项式朴素贝叶斯)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释 (1) 贝叶斯: 推广: (2)朴素贝叶斯:为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子...

2016-05-24 23:03:25

阅读数 2812

评论数 0

原创 Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (...

2016-05-24 22:44:31

阅读数 4334

评论数 1

原创 Spark中组件Mllib的学习29之支持向量机SVM-方法2

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码:/** * @author xubo * ref:Spark MlL...

2016-05-24 22:35:53

阅读数 2360

评论数 1

原创 Spark中组件Mllib的学习28之支持向量机SVM-方法1

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样...

2016-05-24 22:33:02

阅读数 1903

评论数 2

原创 Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归,较大数据集,带预测准确度计算

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 但预测较多数据集,需要去计算准确度2.代码:/** * @author xubo * ref:Spark MlLib...

2016-05-24 22:02:08

阅读数 2214

评论数 0

提示
确定要删除当前文章?
取消 删除