自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!

  • 博客(155)
  • 资源 (25)
  • 收藏
  • 关注

原创 Spark入门学习记录之SparkLearning

为了更好的学习spark,也为了记录自己学习过程中的遇到的各种问题,方便以后查询,故谢了相关博客,也公开了代码和数据,代码基本都可以本地运行。 总目录: SparkLearning博客:http://blog.csdn.net/bob601450868/article/category/5730447 SparkLearning代码和数据:https://github.com/xubo245/

2016-05-17 22:34:00 3811 1

原创 SparkLearning博客模版

更多代码请见:https://github.com/xubo245/SparkLearning1解释2.代码:3.结果:参考【1】 http://spark.apache.org/docs/1.5.2/graphx-programming-guide.html【2】https://github.com/xubo245/Sp

2016-05-03 19:15:34 696

原创 基因数据处理43之mango之503错误

HTTP ERROR: 503Problem accessing /. Reason: Service UnavailablePowered by Jetty://更详细请见: https://github.com/bigdatagenomics/mango/issues/181

2016-05-30 20:35:02 436

原创 基因数据处理42之mango问题_seqdict.avro不存在解决

参考【1】中问题解决 问题分析:这是新版本的问题:adam0.19.1目前在maven中心仓库没有解决办法:package org.gcdss.testimport java.io.Fileimport java.nio.file.Filesimport org.apache.parquet.hadoop.metadata.CompressionCodecNameimport org.apac

2016-05-30 20:09:06 491

原创 基因数据处理41之mango使用失败

这里写代码片

2016-05-30 13:30:58 721

原创 基因数据处理40之bedtools的安装和使用

下载:编译3. 4.运行: bam变成bedhadoop@Master:~/xubo/data/snap$ bamToBed -i datatest.sorted.bam >datatest.sorted.bed5.记录:这里写代码片

2016-05-30 13:01:48 3519

原创 统计项目下各语言的代码量

更多代码请见:https://github.com/xubo245/AdamLearning1解释 统计项目下各语言的代码量 例子:tensorflow tensorflow 代码大概63万行2.代码: (1)代码下载git clone https://github.com/tensorflow/tensorflow(2)安装cloc: sudo apt-get install cloc(3

2016-05-30 10:58:48 1654

原创 基因数据处理39之mango安装记录

更多代码请见:https://github.com/xubo245/AdamLearning1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser2.代码:git clone https://github.com/bigdatagenomics/mango.gitcd mangomvn clean package -Ds

2016-05-30 10:11:57 794

原创 linux环境下关闭后台进程

1.基本: ctrl +Z回导致正在运行的程序方法哦后台运行fg可以在前台运行bg后台2.查看进程id: 查看当前进行idjobs -l3.关闭:kill -9 pidhadoop@Master:~/xubo/tools/mango$ jobs [1]+ Stopped mvn clean package -DskipTestshadoop@Master:~

2016-05-29 19:47:20 4050

原创 基因数据处理38之dbSnpId到omimId的映射表

1.下载: 首先收到【2】,来源是【2】 【1】中有描述:You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisi

2016-05-29 19:39:59 619

原创 Idea中 Module is not specified错误解决

更多代码请见:https://github.com/xubo245/AdamLearning1解释 在idea中运行代码时报错:Error running ADAMVariationRDDFunctionsSuite: Module is not specified2.解决办法:In the Edit Configuration window, there should be the option

2016-05-29 18:58:32 41150 8

原创 基因数据处理37之bdg-formats编译成功

更多代码请见:https://github.com/xubo245/AdamLearning1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中2.代码: 【2】下载 编译:mvn clean package -DskipTests3.结果:[WARNING]

2016-05-29 16:13:21 488

原创 基因数据处理36之qc-metrics安装

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics, useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的2.代码:git clon

2016-05-29 13:38:55 665

原创 基因数据处理35之使用samtools和bcftools进行变异分析2--连续处理

指令:samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv > NA12878_snp_A2G_chr20_225058_longer.raw.vcfbcftools filter -s LowQual -e

2016-05-28 21:25:37 3505

原创 基因数据处理34之使用samtools和bcftools进行变异分析

1.指令: (1)samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam > NA12878_snp_A2G_chr20_225058.variants或者:samtools mpileup -vf Homo_sapiens_assembly19chr20.fas

2016-05-28 21:22:21 5493 2

原创 基因数据处理33之Avocado运行记录(参考基因组)

1.数据下载: avocaodo的test resource中2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '>' > Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | hea

2016-05-28 19:51:21 844

原创 基因数据处理32之Avocado运行记录(人造数据集)

主要是需要数据正确,如果中间缺少记录,avocado一般不会成功 1.代码: Avocado修改:/** * Licensed to Big Data Genomics (BDG) under one * or more contributor license agreements. See the NOTICE file * distributed with this work

2016-05-28 19:02:45 833

原创 Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary

Adam学习25之读取sam生成的alignmentRecord含recordGroupDictionary1.代码:package org.bdgenomics.adam.testimport java.nio.file.Filesimport org.apache.spark.{SparkConf, SparkContext}import org.bdgenomics.adam.rdd.ADA

2016-05-28 18:47:54 990

原创 基因数据处理31之avocado运行avocado-cli中的avocado问题3-变异识别找不到RecordGroupSample(null)

读入的read为: val fqFile = "hs38DHSE1L100F1.sam"读取结果:cleanedReads.count:1{"readNum": 0, "contig": {"contigName": "chrUn_KN707963v1_decoy", "contigLength": 62955, "contigMD5": null, "referenceURL": null, "

2016-05-28 15:50:11 792

原创 基因数据处理30之avocado运行avocado-cli中的avocado问题1和2

问题1:avocado中的run方法中: println("stats.coverage:" + stats.coverage)调用的是: lazy val coverage = ComputingCoverage.time { ScoreCoverage(inputDataset) }然后报错:Exception in thread "main" java.lang.Unsupp

2016-05-28 15:20:28 672

原创 基因数据处理29之avocado运行snap-basic有问题

hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs2.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527NUMhs2snap /home/hadoop/xubo/data/testTools/se/snap-basic.propertiesUsing

2016-05-27 23:08:26 680

原创 基因数据处理28之avocado运行

需要注意的是如果使用avocado的命令行,fs和fq为hdfs路径,properties为本地路径:hadoop@Master:~/xubo/data/testTools/se$ avocado-submit /xubo/avocado/hs1.fq /xubo/avocado/hs38DH.fa /xubo/avocado/test20160527 /home/hadoop/cloud/avoc

2016-05-27 22:36:53 904

原创 基因数据处理26之bcftools安装和使用

1.下载:https://github.com/samtools/bcftools2.安装 make make install3.结合samtools使用 对排序好的bam数据用samtools生成bcf文件:xubo@xubo:~/xubo/data/testTools/se$ samtools mpileup -ugf ../hs38DH.fa hs2.sort.bam >hs2.bcf

2016-05-27 21:23:13 8386 1

原创 基因数据处理27之FastQC在linux下安装运行

FastQC是评价基因数据质量的软件。1.下载: http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc2.解压配置: unzip 配置:ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc参考【1】3.运行:xubo@xubo:~/cloud/FastQC$

2016-05-26 21:40:02 9927 2

原创 Spark中组件Mllib的学习41之保序回归(Isotonic regression)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释问题描述:给定一个无序数字序列,要求不改变每个元素的位置,但可以修改每个元素的值,修改后得到一个非递减序列,问如何使误差(该处取平方差)最小?保序回归法:从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,

2016-05-25 16:59:59 1723

原创 Spark中组件Mllib的学习40之梯度提升树(GBT)用于回归*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 GBRT(Gradient Boost Regression Tree)渐进梯度回归树 同样的setCategoricalFeaturesInfo有问题。注释掉了。2.代码:/** * @author xubo * ref

2016-05-25 16:39:45 2800

原创 Spark中组件Mllib的学习39之梯度提升树(GBT)用于分类*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释(1)GBDT基本概念 用ID3算法和C4.5算法学习得到的决策树,有可能导致模型过拟合,通常使用剪枝算法来解决。随着集成学习的发展,出现了比较典型的迭代决策树GBDT和随机森林RF,即将多棵单决策树进行模型组合,形成多决策树,可以看成

2016-05-25 16:33:45 3003

原创 Spark中组件Mllib的学习38之随机森林(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-25 15:48:26 2487 1

原创 Spark中组件Mllib的学习37之随机森林(Gini)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest 大概思想就是生成多个决策树,都单独训练;如果来了一个数据,用各个决策树进行回归预测,如果是非连续结果,则取最多个数的值;如果连续,则取多个决策树结果的平均值。2.代码:/** * @author xubo

2016-05-25 15:44:03 2019

原创 Spark中组件Mllib的学习36之决策树(使用variance)进行回归

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树(使用variance)进行回归2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo2

2016-05-25 15:26:54 1400

原创 Spark中组件Mllib的学习35之随机森林(entropy)进行分类

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 随机森林:RandomForest2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo245

2016-05-25 15:17:15 1791

原创 Spark中组件Mllib的学习34之决策树(使用entropy)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释MLlib决策树支持三种不纯度的计算:gini、entropy、variance。其他的目前不支持 def fromString(name: String): Impurity = name match { case "gini" => Gin

2016-05-25 15:08:22 3487

原创 下载github项目中的某个文件夹或者文件

更多代码请见:https://github.com/xubo245/SparkLearning1.解释 有时候由于project太大或者不想下载项目的所有文件,只需要下载单个文件或者文件夹,这个时候使用git就比较麻烦了。 github下载pdf文件,使用右键链接另存为的时候下载的文件无法打开,50K左右。应该是没下载下来。 另外github听说不支持git clone某个文件或者文件夹,为的

2016-05-25 12:37:20 22143 1

原创 Spark中组件Mllib的学习33之决策树(使用Gini)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 决策树:Decision Trees请见【4】【5】数据每次是随机划分,所以准确率每次不一定2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more c

2016-05-25 11:25:25 1051

原创 Spark中组件Mllib的学习32之朴素贝叶斯分类器(伯努利朴素贝叶斯)*

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 (1) 朴素贝叶斯分类器种类 在把训练集中的每个文档向量化的过程中,存在两个模型。一个是统计词在文档中出现的次数(多项式模型);一个是统计词是否在文档中出现过(柏努利模型) 目前mllib只支持多项式朴素贝叶斯和伯努利贝叶斯(spark-1.

2016-05-25 11:03:53 1892

原创 Spark中组件Mllib的学习31之朴素贝叶斯分类器(多项式朴素贝叶斯)

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1 解释 (1) 贝叶斯: 推广: (2)朴素贝叶斯:为了简化计算,朴素贝叶斯算法做了一假设:“朴素的认为各个特征相互独立”。这么一来,上式的分子就简化成了:P(C)*P(F1|C)*P(F2|C)...P(Fn|C)。这样简化过后,计算起来就方便多

2016-05-24 23:03:25 3126

原创 Spark中组件Mllib的学习30之逻辑回归LogisticRegressionWithLBFGS

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释Limited-memory BFGS (L-BFGS or LM-BFGS) Broyden–Fletcher–Goldfarb–Shanno (BFGS) algorithm =》 LBFGS :Limited-memory Broyden–

2016-05-24 22:44:31 4713 1

原创 Spark中组件Mllib的学习29之支持向量机SVM-方法2

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 spark官网第二种方法建立SVMmodel2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xu

2016-05-24 22:35:53 2523 1

原创 Spark中组件Mllib的学习28之支持向量机SVM-方法1

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之分类篇 1解释 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM的

2016-05-24 22:33:02 2087 2

原创 Spark中组件Mllib的学习27之逻辑回归-多元逻辑回归,较大数据集,带预测准确度计算

更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 但预测较多数据集,需要去计算准确度2.代码:/** * @author xubo * ref:Spark MlLib机器学习实战 * more code:https://github.com/xubo

2016-05-24 22:02:08 2448

isrgb.m,matlab

isrgb.m matlab rgb function y = isrgb(x) %ISRGB Return true for RGB image. % FLAG = ISRGB(A) returns 1 if A is an RGB truecolor image and % 0 otherwise. % % ISRGB uses these criteria to determine if A is an RGB image: % % - If A is of class double, all values must be in the range % [0,1

2014-03-27

色彩空间转换matlab

色彩空间转换matlab RGB HSV YIQ NTSC

2014-04-14

WebZIP下整个网站

WebZIP 是著名的离线浏览器软件,在它的帮助下你能够完整下载网站的内容,或者你也可以选择自行设置下载的层数、文件类型、网页与媒体文件的定位以及网址过滤器,以便按己所需地获取网站内容。你下载到本地硬盘中的网站内容将仍保持原本的 HTML 格式,其文件名与目录结构都不会变化,这样可以准确地提供网站的镜像。现在使用 WebZIP 中新的 FAR 插件工具,你可以把下载的内容制作成 HTML-帮助文件(.chm)。你也可以把抓取的网站内容压缩为 ZIP 文件。 免费下载:http://pan.baidu.com/s/18CdOh

2013-11-20

C语言头函数包include

C语言头函数包include stdio.h stdlib.h等

2013-10-18

计算方法实验Gauss_Seidel法和Runge_Kutta法

计算方法实验说明文档 PB10210016 徐波 实验要求: 第二版208页程序15 第二版208页程序20,将二阶改为四阶,求第二个 实验环境: 操作系统:Windows8 64位  编译软件:Code::Blocks 版本:10.05 位数:32位 实验提交时间:  考前 实验说明: Gauss_Seidel: 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 Runge_Kutta 左侧为数据文档,为了方便多次测试,可将txt文档中数据复制到exe中运行,输入规范请见上图 上图为正确输出之一 附件: 程序15:Gauss_Seidel代码、可运行exe程序、输入数据文件和运行截图 程序20:Runge_Kutta代码、可运行exe程序、输入数据文件和运行截图 实验心得:   通过这次实验,对Gauss_Seidel法和Runge_Kutta法了解更深,并且有了实际运行经验,而且通过编程,对方法每一步的运算数据的输入输出了解更深,总的来说收获很大,我们应该多写些类似的程序,希望能将其放在网页上,输入数据就能运行出结果。 PB10210016 徐波 2013.5.28 代码请联系QQ:601450868  

2013-10-17

CarbonData学习资料

Apache CarbonData学习文档汇总,包含视频/文档/文件等。

2018-11-22

opencv 3.4.1 jar

opencv-341.jar. for invoking opencv,you can add the code to your project

2018-05-16

高级Shell脚本编程

高级Shell脚本编程,高级Shell脚本编程

2016-03-15

2015年中国软件开发者白皮书

2015年中国软件开发者白皮书

2016-01-12

neo4j-javadocs-2.3.1-javadoc.jar

neo4j-javadocs-2.3.1-javadoc.jar neo4j 2.3.1 API

2015-11-26

neo4j-enterprise-2.3.1-unix.tar.gz

neo4j-enterprise-2.3.1-unix.tar.gz,官网下载

2015-11-25

neo4j-enterprise-2.3.0-M03-unix.tar.gz

neo4j-enterprise-2.3.0-M03-unix.tar.gz,官网下载

2015-11-25

阿里移动推荐算法大赛冠军答辩PPT

阿里移动推荐算法大赛冠军答辩PPT, 阿里云 天池 移动推荐算法 冠军答辩PPT 视频在:http://tianchi.aliyun.com/mini/reply.htm?spm=0.0.0.0.DUevYN

2015-09-09

资金流入流出预测大赛冠军答辩PPT

资金流入流出预测大赛冠军答辩PPT,资金流入 流出预测 冠军答辩PPT 阿里云 天池

2015-09-09

redis-3.0.4安装包

redis-3.0.4.tar.gz,redis-3.0.4安装包,官网下载

2015-09-09

Ashley Madison用户数据泄露网站分析

Ashley Madison用户数据泄露网站分析:3300万,3700万,9.7G,bt,种子文件。下载。(仅供分析研究,禁止其他用途)

2015-08-25

JDK.API.7_English.chm

JDK.API.7_English.chm Java™ Platform, Standard Edition 7 API Specification This document is the API specification for the Java™ Platform, Standard Edition.

2015-08-24

Java 2 SE 6 Documentation.chm

Java 2 SE 6 Documentation.chm JavaTM SE 6 Platform at a Glance This document covers the JavaTM Platform, Standard Edition 6 JDK. Its product version number is 6 and developer version number is 1.6.0, as described in Platform Name and Version Numbers. For information on a feature of the JDK, click on a component in the diagram below.

2015-08-24

JavaSE中文API.chm

JavaSE中文API.chm JavaTM 2 Platform Standard Edition 5.0 API 规范 本文档是 Java 2 Platform Standard Edition 5.0 的 API 规范。

2015-08-24

jdk api 1.7英文版-带索引

java, jdk api 1.7英文版-带索引,English,Index,Java™ Platform, Standard Edition 7 API Specification

2015-08-24

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

微软、谷歌、百度、腾讯等各大公司笔试面试题整理全版.rar

2015-08-20

鸟哥的Linux私房菜基础篇第三版.pdf

鸟哥的Linux私房菜基础篇第三版.pdf

2015-08-20

10部算法经典著作的合集

10部算法经典著作的合集

2015-08-20

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题.pdf

2015-08-20

bishop-prml-complete-solution

bishop-prml-complete-solution

2015-08-20

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除