使用阿里云E-MapReduce遇到的那些坑

  由于需要做实验来验证自己系统的scalability,实验室机器数又不够,所以选择用商业服务器来完成实验。 在AWS和阿里云之间选择了阿里云。在完成试验后对实验过程中遇到的那些坑进行了总结。
  自己的实验主要是做一个分布式序列比对系统(DSA: Distributed Sequence Alignment System),测试其中相关算法的scalability

  由于是要测性能,所以选择了独享型:ecs.sn2.large
  相关配置:4核16G,CentOS release 6.5, Intel Xeon E5-2680,支持SSW2/SSE4.1/AVX指令集,但不支持AVX2
  集群数量(台):5,10,15,…,45,50.每次扩容五台
  软件:EMR-2.3.0:Hadoop 2.7.2, Yarn 2.7.2 and Spark 1.6.2

1.不支持Spark standalone运行模式

1.1 实验需求

  实验室集群数量少,使用的是standalone模式,主要是速度比Yarn快。而且自己的DSA系统中使用了Alluxio进行加速,目前standalone模式支持比较全,standalone模式下Alluxio和Spark的数据本地化配置比较容易,而Yarn模式配置比较麻烦,官网只提供了AWS上的相关教程。

1.2 尝试解决

  自己准备在阿里云的E-Mapreduce下自己安装和配置,但是发现很麻烦,scala环境都没配置,Spark也是修改过的,相关配置做了比较多的调整,每次扩容中都得自己配,自己测试。而且联系了阿里云的技术支持,说即使把Yarn关闭了系统也会自动恢复,目前也没支持standalone模式。考虑到自己的实验时间比较紧,选择了妥协,采用了从自己算法层面上做调整,尽量减少I/O开销对实验带来的影响。
目前阿里云E-MapReduce发布一年左右,很多在完善,而且商业的确实太多以Yarn运行来提高集群的利用率,只是希望能在独享机器上支持standalone模式。

2.集群脚本问题

2.1 实验需求和问题描述

  在实验过程中,由于Spark调用c写的SIMD程序,需要在每个节点进行配置.一个一个节点太麻烦,想用EMR自带的集群脚本,集群节点初始化的时候就配置好,这样可以节省时间。

2.2 尝试解决

  试了多次,都不行,包括参考【2】、【3】的教程。最简单的脚本都不行。也问了阿里云EMR的技术支持,得到的结论是阿里云没有配置好,单个集群需要技术支持人员手动更改,在升级或者申请后还得技术员手动更改。版本的升级得等一周后,可我实验时间只有一周……

  最后没办法,只能一个一个节点运行自己写的脚本。

  技术支持:鸿初(钉钉)

2.3 反馈回复

  

3.无法扩容

3.1 实验需求和和问题描述

  实验过程中需要不断扩容节点,从5个节点到20个节点的三次扩容都没问题,但是从20个节点扩容至25个节点出问题了. 使用的是杭州地区的数据中心,心想杭州是阿里的大本营, 结果出现了扩容不了. 15分钟后还在扩容中,就开始联系EMR的支持群.因为前面几次正常的扩容一般都在5分钟左右.

3.2 尝试解决

  联系技术支持人员,排查确认问题大概45分钟,到解决大概两个多小时,一直在等. 最后集群恢复了,技术支持的回复是系统问题,一般只会在多次扩容才会出现. 测试的时候估计没考虑我这种频繁扩容的情况.

  另外一个问题是暂时修复后无法继续扩容.

  申请杭州集群30个节点无法成功,下面描述. 最后迁移到了上海数据中心,再申请才完成.

4. 库存不够

4.1 实验需求和和问题描述

  由于实验室节点有限,需要更多的计算资源.所以申请阿里云.在申请阿里云30个EMR节点的时候包括,库存不足,使用的杭州数据中心的集群.

  试了两次,结果还是库存不足,没成功但是还扣了费.

4.2 尝试解决

  联系技术支持, 得到的回复是机器库存不可查, 问题暂时修复不了. 没办法,只能申请其他地方的数据中心.对比之后,发现深圳配置麻烦,需要专网. 最后选择了上海数据中心,申请30个EMR节点成功,扩容也没问题.

  通过完善脚本后, 启动配置到运行程序可以控制在20分钟左右,包括申请机器时初始化的5五分钟左右.还需要配置每个节点的SIMD环境,HDFS文件导入导入, lib文件的分发等.大概10个左右的步骤.

  扣费还在走工单,2017.1.1申请的,今天是2017.1.24,之前回复是半个月,可能是过年吧.

5. 充值后退钱不方便

5.1 实验需求和和问题描述

  由于担心集群被关,特地多充了点钱在阿里云,以防集群关机没保存配置。充值的时候提示没用完的可以退。但是用完后才发现支付宝帐号需要与发票抬头一致,我做实验是实验室报销,写学校的名字,但钱得自己垫。这比较坑。

  另外申请的两个工单也还在走流程,退的是券,强烈要求下才给退的现金。

5.2 尝试解决

  联系的售后工程师,得到的回复是为了安全起见,充值退钱需要与抬头一致,工单退款也很麻烦。
  退款需要学校盖章证明。然后扫面或者图片发过去。
  工单没下来,只能等了….

  真心希望速度能快点。

总结

  论文还在写,相关结果等论文发表后再写出来.取得的实验结果还算比较理想,比目前已经发表的GPU、FPGA、Xeon Phi相关的论文的性能都要高,只是其实还有很多地方性能有待提高。

  总的来说, 阿里云的EMR还有很多不完善的地方, 但是技术支持特别好.有时忙到凌晨一两点,技术支持还在帮忙解决问题,很感谢. 特别是成滔、剑影、雷飙、封神等。这也是我选择用阿里云的一个重要原因。希望阿里云的EMR能不断完善。

参考:

【1】https://www.aliyun.com/product/emapreduce/
【2】https://help.aliyun.com/document_detail/44232.html?spm=5176.doc28108.6.570.1hwnUn
【3】https://yq.aliyun.com/articles/61326?spm=5176.8091938.0.0.xU2bl3
已标记关键词 清除标记
相关推荐
DirectX修复工具(DirectX Repair)是一款系统级工具软件,简便易用。本程序为绿色版,无需安装,可直接运行。 本程序的主要功能是检测当前系统的DirectX状态,如果发现异常则进行修复。程序主要针对0xc000007b问题设计,可以完美修复该问题。本程序中包含了最新版的DirectX redist(Jun2010),并且全部DX文件都有Microsoft的数字签名,安全放心。 本程序为了应对一般电脑用户的使用,采用了易用的一键式设计,只要点击主界面上的“检测并修复”按钮,程序就会自动完成校验、检测、下载、修复以及注册的全部功能,无需用户的介入,大大降低了使用难度。在常规修复过程中,程序还会自动检测DirectX加速状态,在异常时给予用户相应提示。 本程序适用于多个操作系统,如Windows XP(需先安装.NET 2.0,详情请参阅“致Windows XP用户.txt”文件)、Windows Vista、Windows 7、Windows 8、Windows 8.1、Windows 8.1 Update、Windows 10,同时兼容32位操作系统和64位操作系统。本程序会根据系统的不同,自动调整任务模式,无需用户进行设置。 本程序的V4.0版分为标准版、增强版以及在线修复版。所有版本都支持修复DirectX的功能,而增强版则额外支持修复c++的功能。在线修复版功能与标准版相同,但其所需的数据包需要在修复时自动下载。各个版本之间,主程序完全相同,只是其配套使用的数据包不同。因此,标准版和在线修复版可以通过补全扩展包的形式成为增强版。本程序自V3.5版起,自带扩展功能。只要在主界面的“工具”菜单下打开“选项”对话框,找到“扩展”标签,点击其中的“开始扩展”按钮即可。扩展过程需要Internet连接,扩展成功后新的数据包可自动生效。扩展用时根据网络速度不同而不同,最快仅需数秒,最慢需要数分钟,烦请耐心等待。如扩展失败,可点击“扩展”界面左上角小锁图标切换为加密连接,即可很大程度上避免因防火墙或其他原因导致的连接失败。 本程序自V2.0版起采用全新的底层程序架构,使用了异步多线程编程技术,使得检测、下载、修复单独进行,互不干扰,快速如飞。新程序更改了自我校验方式,因此使用新版本的程序时不会再出现自我校验失败的错误;但并非取消自我校验,因此程序安全性与之前版本相同,并未降低。 程序有更新系统c++功能。由于绝大多数软件运行时需要c++的支持,并且c++的异常也会导致0xc000007b错误,因此程序在检测修复的同时,也会根据需要更新系统中的c++组件。自V3.2版本开始使用了全新的c++扩展包,可以大幅提高工业软件修复成功的概率。修复c++的功能仅限于增强版,标准版及在线修复版在系统c++异常时(非丢失时)会提示用户使用增强版进行修复。除常规修复外,新版程序还支持C++强力修复功能。当常规修复无效时,可以到本程序的选项界面内开启强力修复功能,可大幅提高修复成功率。请注意,请仅在常规修复无效时再使用此功能。 程序有两种窗口样式。正常模式即默认样式,适合绝大多数用户使用。另有一种简约模式,此时窗口将只显示最基本的内容,修复会自动进行,修复完成10秒钟后会自动退出。该窗口样式可以使修复工作变得更加简单快速,同时方便其他软件、游戏将本程序内嵌,即可进行无需人工参与的快速修复。开启简约模式的方法是:打开程序所在目录下的“Settings.ini”文件(如果没有可以自己创建),将其中的“FormStyle”一项的值改为“Simple”并保存即可。 新版程序支持命令行运行模式。在命令行中调用本程序,可以在路径后直接添加命令进行相应的设置。常见的命令有7类,分别是设置语言的命令、设置窗口模式的命令,设置安全级别的命令、开启强力修复的命令、设置c++修复模式的命令、控制Direct加速的命令、显示版权信息的命令。具体命令名称可以通过“/help”或“/?”进行查询。 程序有高级筛选功能,开启该功能后用户可以自主选择要修复的文件,避免了其他不必要的修复工作。同时,也支持通过文件进行辅助筛选,只要在程序目录下建立“Filter.dat”文件,其中的每一行写一个需要修复文件的序号即可。该功能仅针对高级用户使用,并且必须在正常窗口模式下才有效(简约模式时无效)。 本程序有自动记录日志功能,可以记录每一次检测修复结果,方便在出现问题时,及时分析和查找原因,以便找到解决办法。 程序的“选项”对话框中包含了7项高级功能。点击"常规”选项卡可以调整程序的基本运行情况,包括日志记录、安全级别控制、调试模式开启等。只有开启调试模式后才能在C
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页