不开玩笑 Hadoop集群容量还可以这样裁减

了解更少数字化转型方案检查此链接：

说起

它的小名在IT圈已是

无人不知，无人不晓

Hadoop的出现

让用户可以在不了解

散布式底层细节的状况下

开发散布式程序

同时还能充沛应用集群的威力

启动高速运算和存储

就好比蚂蚁赛大象

便宜的机器群也可以匹敌高性能计算机

但另一方面

越来越多客户

始终缩短Hadoop节点的购置周期

要素就是存储空间无余！

而假设按容量需求购置少量主机

则会有少量计算资源被糜费

因此，面对从天而降的海量数据，咱们是沿用原有的横向裁减node模式还是纵向裁减存储呢？ 假设驳回存储纵向裁减模式，那该如何衔接？用什么存储？能否会带来治理复杂度？能否会影响性能？架构如何搭建？

Hadoop散布式架构+存储

不是开玩笑！

听到Hadoop散布式架构+存储这一律念，置信会有很多人质疑这种架构 ，也会有人以为小编疑问Hadoop，没有互联网基因。哈哈，不论了，提起Hadoop横向裁减的全散布式架构，简直以上的用户应该都是横向平等的裁减（即主机），很少有人会在Hadoop架构下联想存储的经常使用方法。

其实小编最后也是一样的想法，Hadoop用什么存储？用什么存储看起来都不完美，原谅我对机房的规划有强制症，不青睐那种不对称的规划。但随着Hadoop客户的始终壮大，他们面临的理想需求却在始终地敲打着我。

虽然很多客户对Hadoop架构下经常使用存储抱有抵触的思想， 但也有不少客户在尝试，逐渐意识到Hadoop架构下经常使用一些特定存储并没有破坏Hadoop的全散布式结构，也没有扭转Hadoop对磁盘的治理 。只是咱们在始终横向裁减节点的同时，适时的也可以关注一下存储磁盘的纵向裁减。

看到这里，你还疑心小编是来说大话的吗？哈哈，咱们继续下去，先便捷引见一下Hadoop。

Hadoop是一个由Apache基金会所开发的散布式系统基础架构。Hadoop成功了一个散布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性特点，并且设计用来部署在昂贵的配件上，它还提供高吞吐量来访问运行程序的数据，适宜那些有着超大数据集的运行程序。

Hadoop的出现，也让软件定义存储的经常使用到达了一个史无前例的高度，在一些互联网类的企业里，少则十几个节点，多则几千个节点的Hadoop集群拔地而起，运行场景越来越丰盛，数据量也带来了几何倍数的增长。

从扫尾的话题咱们知道，面对海量数据，假设继续沿用横向裁减node模式裁减，肯定会形成糜费， 因此本文就来分享一些客户在Hadoop环境下经常使用JBOD存储，从而减低全体老本的经常使用方法 。

关于JBOD

JBOD（Justa bunch of disk）俗称硬盘裁减柜。也就是说， 这套存储并没有控制器单元，也没有性能CPU/内存等部件 ，也没有对磁盘的RAID治理，它十分便捷，也十分经典。正由于JBOD自身不性能任何逻辑治理，将所有磁盘治理都交由Hadoop，所以JBOD能和Hadoop完美融合。

上方，咱们就来引见JBOD是如何让Hadoop集群变得更经济、更环保。

一波三折的裁减磁盘模式

首先，Hadoop中除了运行的组件之外，关键有两种node是咱们经常关注的，一个是Master node，一个是Data node，如下图所示，客户的Master node继续沿用R640/R630的1U主机节点，Data node沿用戴尔易安信R740/R730主机。经过Edge node与Client端（Hadoop Component Client）启动通信。

随着业务始终的开展，Hadoop集群也须要始终的裁减，此时认真的客户运维人员发现， 最近几次的节点裁减都是由于磁盘容量不够形成的，其实节点内的CPU/内存占用率并不高 。所以能否有一种只裁减磁盘的便捷模式呢？

▐ 开局总会走一些弯路。咱们介绍了带有控制器的默认存储设备， 想用默认存储的性能代替Hadoop的治理，结果经常使用成果不好 。

Hadoop想全控磁盘，而默认存储对磁盘又有自己的了解，所以形成两种结果，要么是将一局部业务分拆进去，独自用存储提供数据服务；要么是将默认存储放在Hadoop架构经常使用，很多初级性能又不能施展作用。

▐ 于是咱们换第二种方案，用低端的带有控制器的存储设备，经过FC/iSCSI模式将磁盘映射给Data node经常使用 。

结果在测试环节中，发现条带化后的磁盘，在Hadoop架构下，反而降落了性能，同时HDFS（Hadoop的文件系统）所提供的节点间数据复制技术已满足数据备份需求，无需经常使用RAID的冗余机制。因此这种方案也被否认。

这样看来，只要最便捷的JBOD可以再次尝试一下，这是一个不带任何逻辑治理的磁盘组，他没有带控制器存储的RAID条带技术。 虽然RAID条带化技术(RAID 0)被宽泛用户优化性能，然而其速度依然比用在HDFS里的JBOD性能慢 。

JBOD在一切磁盘之间循环调度HDFS块。 RAID 0的读写操作受限于磁盘阵列中最慢盘片的速度，而JBOD的磁盘操作均独立，因此平均读写速度高于最慢盘片的读写速度 。须要强调的是，各个磁盘的性能在实践经常使用中总存在相当大的差异，即使关于相反型号的磁盘。在一个测试(Gridmix)中，JBOD比RAID 0 快10%；在另一测试（HDFS写吞吐量）中，JBOD比RAID 0 快30%。

好了，既然JBOD自身性能不差，那么接口会不会慢呢？

接口当然是4通道的12Gb SAS，转换一下单位， 每个接口可以到达6GB/s左右的速率 ，要知道每一块7200转的机械磁盘实践读写速率基本上在100MB/s左右。而一个84盘位的JBOD可以提供6个12Gb SAS接口，通常上可以同时衔接6个Data node启动数据访问，并发带宽通常上可以到达36GB/s的接口速率。（实践无法能用到这么大带宽，毕竟后端的磁盘数量是有限的，所以瓶颈不在接口）。

性能看来不是疑问，那么Data node上要做什么扭转呢？

能否须要很复杂的驱动程序？能否会影响Data node上的组件运转？ 答案其实很便捷，只要要在Data node上装置最罕用的12Gb SAS卡即可，Linux操作系统下，其驱动也是极端轻量的装置程序 ，并不会对下层的组件有任何影响。

于是，就有了上图。在一个10PB+的Hadoop集群中，未然发现了JBOD的身影， 经过JBOD的引入，极大降落了Data node的裁减，从而让机柜空间降落了65%，功耗降落了37%，总体老本降落了35% ！对客户来说，这可都是真金白银的老本节俭啊。

最后，来引见一下戴尔易安信的JBOD家族吧

目前，戴尔易安信PowerVault存储系列有MD1、MD1420和ME484三款JBOD裁减机柜选项，可与第13代和第14代PowerEdge主机配合经常使用，借助丰盛的盘柜选项、硬盘类型和操作系统选项协助用户成功轻松裁减，并以灵敏的设计方案满足用户的特定需求。同季节俭在空间、电力和冷却方面的支出。

裁减Hadoop集群容量，这里还有经济又适用的模式！

尊崇的读者

由 戴尔科技个人中国钻研院 及

VMware翻新网络 主办的

《前沿“机器学习减速”网络研讨会》

第四期来啦

本期内容，咱们将聚焦

《基于可编程替换机的网络计算减速机器学习》

由 戴尔科技个人中国钻研院

首席工程师胡晨光

为您带来解说

6月5日（周五）

下午14:00-15:00

咱们不见不散

扫描下方二维码或

点击文末“阅读原文”即可报名加入

关系内容介绍：入门级存储，能和它“打”的一个都没有

关系产品： Dell EMC PowerStore X 系列存储

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#戴尔