企业宣传,产品推广,广告招商,广告投放联系seowdb

不开玩笑 Hadoop集群容量还可以这样裁减

了解更少数字化转型方案检查此链接:

说起

它的小名在IT圈已是

无人不知,无人不晓

Hadoop的出现

让用户可以在不了解

散布式底层细节的状况下

开发散布式程序

同时还能充沛应用集群的威力

启动高速运算和存储

就好比蚂蚁赛大象

便宜的机器群也可以匹敌高性能计算机

但另一方面

越来越多客户

始终缩短Hadoop节点的购置周期

要素就是存储空间无余!

而假设按容量需求购置少量主机

则会有少量计算资源被糜费

因此,面对从天而降的海量数据,咱们是沿用原有的横向裁减node模式还是纵向 裁减存储 呢? 假设驳回存储纵向裁减模式,那该如何衔接?用什么存储?能否会带来治理复杂度?能否会影响性能?架构如何搭建?

Hadoop散布式架构+存储

不是开玩笑!

听到Hadoop散布式架构+存储这一律念,置信会有很多人质疑这种架构 ,也会有人以为小编疑问Hadoop,没有互联网基因。哈哈,不论了,提起Hadoop横向裁减的全散布式架构,简直以上的用户应该都是横向平等的裁减(即主机),很少有人会在Hadoop架构下联想存储的经常使用方法。

其实小编最后也是一样的想法,Hadoop用什么存储?用什么存储看起来都不完美,原谅我对机房的规划有强制症,不青睐那种不对称的规划。但随着Hadoop客户的始终壮大,他们面临的理想需求却在始终地敲打着我。

虽然很多客户对Hadoop架构下经常使用存储抱有抵触的思想, 但也有不少客户在尝试,逐渐意识到Hadoop架构下经常使用一些特定存储并没有破坏Hadoop的全散布式结构,也没有扭转Hadoop对磁盘的治理 。只是咱们在始终横向裁减节点的同时,适时的也可以关注一下存储磁盘的纵向裁减。

看到这里,你还疑心小编是来说大话的吗?哈哈,咱们继续下去,先便捷引见一下Hadoop。

Hadoop是一个由Apache基金会所开发的散布式系统基础架构。Hadoop成功了一个散布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性特点,并且设计用来部署在昂贵的配件上,它还提供高吞吐量来访问运行程序的数据,适宜那些有着超大数据集的运行程序。

Hadoop的出现,也让软件定义存储的经常使用到达了一个史无前例的高度,在一些互联网类的企业里,少则十几个节点,多则几千个节点的Hadoop集群拔地而起,运行场景越来越丰盛,数据量也带来了几何倍数的增长。

从扫尾的话题咱们知道,面对海量数据,假设继续沿用横向裁减node模式裁减,肯定会形成糜费, 因此本文就来分享一些客户在Hadoop环境下经常使用JBOD存储,从而减低全体老本的经常使用方法

关于JBOD

JBOD(Justa bunch of disk)俗称硬盘裁减柜。也就是说, 这套存储并没有控制器单元,也没有性能CPU/内存等部件 ,也没有对磁盘的RAID治理,它十分便捷,也十分经典。正由于JBOD自身不性能任何逻辑治理,将所有磁盘治理都交由Hadoop,所以JBOD能和Hadoop完美融合。

上方,咱们就来引见JBOD是如何让Hadoop集群变得更经济、更环保。

一波三折的裁减磁盘模式

首先,Hadoop中除了运行的组件之外,关键有两种node是咱们经常关注的,一个是Master node,一个是Data node,如下图所示,客户的Master node继续沿用R640/R630的1U主机节点,Data node沿用戴尔易安信R740/R730主机。经过Edge node与Client端(Hadoop Component Client)启动通信。

随着业务始终的开展,Hadoop集群也须要始终的裁减,此时认真的客户运维人员发现, 最近几次的节点裁减都是由于磁盘容量不够形成的,其实节点内的CPU/内存占用率并不高 。所以能否有一种只裁减磁盘的便捷模式呢?

▐ 开局总会走一些弯路。咱们介绍了带有控制器的默认存储设备, 想用默认存储的性能代替Hadoop的治理,结果经常使用成果不好

Hadoop想全控磁盘,而默认存储对磁盘又有自己的了解,所以形成两种结果,要么是将一局部业务分拆进去,独自用存储提供数据服务;要么是将默认存储放在Hadoop架构经常使用,很多初级性能又不能施展作用。

▐ 于是咱们换第二种方案,用低端的带有控制器的存储设备,经过FC/iSCSI模式将磁盘映射给Data node经常使用

结果在测试环节中,发现条带化后的磁盘,在Hadoop架构下,反而降落了性能,同时HDFS(Hadoop的文件系统)所提供的节点间数据复制技术已满足数据备份需求,无需经常使用RAID的冗余机制。因此这种方案也被否认。

这样看来,只要最便捷的JBOD可以再次尝试一下,这是一个不带任何逻辑治理的磁盘组,他没有带控制器存储的RAID条带技术。 虽然RAID条带化技术(RAID 0)被宽泛用户优化性能,然而其速度依然比用在HDFS里的JBOD性能慢

JBOD在一切磁盘之间循环调度HDFS块。 RAID 0的读写操作受限于磁盘阵列中最慢盘片的速度,而JBOD的磁盘操作均独立,因此平均读写速度高于最慢盘片的读写速度 。须要强调的是,各个磁盘的性能在实践经常使用中总存在相当大的差异,即使关于相反型号的磁盘。在一个测试(Gridmix)中,JBOD比RAID 0 快10%;在另一测试(HDFS写吞吐量)中,JBOD比RAID 0 快30%。

好了,既然JBOD自身性能不差,那么接口会不会慢呢?

接口当然是4通道的12Gb SAS,转换一下单位, 每个接口可以到达6GB/s左右的速率 ,要知道每一块7200转的机械磁盘实践读写速率基本上在100MB/s左右。而一个84盘位的JBOD可以提供6个12Gb SAS接口,通常上可以同时衔接6个Data node启动数据访问,并发带宽通常上可以到达36GB/s的接口速率。(实践无法能用到这么大带宽,毕竟后端的磁盘数量是有限的,所以瓶颈不在接口)。

性能看来不是疑问,那么Data node上要做什么扭转呢?

能否须要很复杂的驱动程序?能否会影响Data node上的组件运转? 答案其实很便捷,只要要在Data node上装置最罕用的12Gb SAS卡即可,Linux操作系统下,其驱动也是极端轻量的装置程序 ,并不会对下层的组件有任何影响。

于是,就有了上图。在一个10PB+的Hadoop集群中,未然发现了JBOD的身影, 经过JBOD的引入,极大降落了Data node的裁减,从而让机柜空间降落了65%,功耗降落了37%,总体老本降落了35% !对客户来说,这可都是真金白银的老本节俭啊。

最后,来引见一下戴尔易安信的JBOD家族吧

目前, 戴尔易安信PowerVault存储系列 有MD1、MD1420和ME484三款JBOD裁减机柜选项,可与第13代和第14代PowerEdge主机配合经常使用,借助丰盛的盘柜选项、硬盘类型和操作系统选项协助用户成功轻松裁减,并以灵敏的设计方案满足用户的特定需求。同季节俭在空间、电力和冷却方面的支出。

裁减Hadoop集群容量,这里还有经济又适用的模式!

尊崇的读者

戴尔科技个人中国钻研院

VMware翻新网络 主办的

《前沿“机器学习减速”网络研讨会》

第四期来啦

本期内容,咱们将聚焦

《基于可编程替换机的网络计算减速机器学习》

戴尔科技个人中国钻研院

首席工程师胡晨光

为您带来解说

6月5日(周五)

下午14:00-15:00

咱们不见不散

扫描下方二维码或

点击文末“阅读原文”即可报名加入

关系内容介绍: 入门级存储,能和它“打”的一个都没有

关系产品: Dell EMC PowerStore X 系列存储

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender