自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Keep Learning

学习Spark、CarbonData 、Alluxio等,且为其Contributor,Github为:https://github.com/xubo245。欢迎微信联系601450868!...

原创 ganglia学习1之ganglia集群版搭建(支持hadoop和spark)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述    ...

2016-11-09 15:48:05 1666 0

原创 spark源码解读4之SortByKey

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解1.1 需求使用spark的时候会经常使用sortBykey,比如wordCount后需要排序,可以使用s...

2016-11-06 18:58:35 1823 0

原创 spark源码解读3之RDD中top源码解读

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-2.0.1 (20161103github下载版)1.理解输出读取中常用到topK算法,RDD也提供了top方法。特别是RDD过大时,要慎用RDD的collect方...

2016-11-04 19:51:14 2168 0

原创 spark源码解读2之水塘抽样算法(Reservoir Sampling)

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到...

2016-11-04 19:51:02 2836 0

原创 spark源码解读1之Partitioner

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解Partitioner类Partitioner类是用于处理key-value类型的RDD,根据...

2016-11-04 19:50:46 2112 0

原创 Spark生态之Alluxio学习23--alluxio-0.7.1解决数据本地化的问题

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释spark-1.5.2和alluxio-1.3.0默认不支持...

2016-11-16 19:53:55 580 0

原创 Spark生态之Alluxio学习22--saveAsTextFile alluxio后count (有bug)

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1....

2016-11-16 19:52:56 639 0

原创 Spark生态之Alluxio学习21--疑问:为什么master看不到D9,而work节点有D9部分数据?

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释1.1 疑问为什么master看不到D9,而work节点有D...

2016-11-16 19:52:39 574 0

原创 Spark生态之Alluxio学习20--疑问:为什么D7-D9到最后的count时间都是30s左右?

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1....

2016-11-16 19:51:51 1297 0

原创 Spark生态之Alluxio学习19--alluxio性能提升分析与实验1

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1....

2016-11-16 19:51:24 1046 0

原创 Spark生态之Alluxio学习18--alluxio work 3000出现问题

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释待解决1.1 问题访问http://mcnode6:3000...

2016-11-16 19:50:45 537 0

原创 Spark生态之Alluxio学习17--多次运行Space Usage增加

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1....

2016-11-16 19:50:30 949 0

原创 Spark生态之Alluxio学习16--将alluxio文件的block大小修改

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.alluxio-1.3.01.0 默认大小alluxio-1.3...

2016-11-16 19:50:02 1612 0

原创 Spark生态之Alluxio学习15--alluxio性能分析和加速方式

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.00 以下分析是主要是基于spark-1.5.2和alluxio-1....

2016-11-16 19:49:32 884 0

原创 Spark生态之Alluxio学习14--alluxio内存文件加载方式和分布情况分析

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.0 alluxio-0.7.1 通过copyFromLo...

2016-11-16 19:49:14 4640 3

原创 Spark生态之Alluxio学习13--Alluxio-1.3.0启动疑问

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio-1.3.0(tachyon),spark-1.5.2,hadoop-2.6.01.解释1.1 alluxio.env.sh 配置# The dir...

2016-11-16 19:48:34 748 0

原创 Spark生态之Alluxio学习12--spark调用alluxio-1.3.0配置

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.解释alluxio-0.7.1 启动的时候spark集群直接可以...

2016-11-10 14:55:00 801 0

原创 Spark生态之Alluxio学习11--alluxio-1.3.0集群配置

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.0在spark上运行alluxio请参考下一个博客1.解释1.1 下载...

2016-11-10 14:54:03 1203 0

原创 ganglia学习2之Spark编译带有ganglia的版本

更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.11.理解Spark除了自带的UI,还支持ganglia,编辑$SPARK_...

2016-11-09 15:37:16 1033 0

原创 Spark生态之Alluxio学习10--集群问法全部启动问题解决

更多代码请见:https://github.com/xubo245/SparkLearningSpark生态之Alluxio学习 版本:alluxio(tachyon) 0.7.1,spark-1.5.2,hadoop-2.6.01.解释1.1 问题描述之前博文没有解决的问题:http://blo...

2016-11-06 20:52:28 952 0

提示
确定要删除当前文章?
取消 删除