理想1:Hadoop 不单单是一个产品。刚接触大数据的人通常以为 Hadoop 是数据迷信新时代的关键产品。实践上,Hadoop 不单单是一个产品,还是一个生态系统。它由多个开源产品(在 Apache Hadoop 基金会的支特下开发)组成。它们就像幕后引擎一样将大数据转换为做出更理智、更快决策所需的贵重常识。Apache Hadoop基金会的产品包括 MapReduce、HDFS、Hive、HBase、Pig、Sqoop、 Oozie、Hue、Zookeeper 和 Flume 等。这些产品能够以特定形式组合用于特定的业务剖析以及相关的数据源。
理想2:Hadoop 不只来自 Apache,还是一个基于社区的生态系统。Hadoop解快打算库蕴含来自 Apache 基金会的多个产品,同时也蕴含来自大数据领城泛滥供应商的很多产品。随着 Hadoop 的开展,越来越多社区和供应商加人其中,以使其尽或许片面和通用。
理想3:Hadoop 是一个开源社区名目。任何人都可以无偿经常使用Hadoop 作为开源软件库。Hadoop可以从Apache 网站 www.apache.org失掉。一些初创公司为其余公司提供基于Hadoop库及其裁减个性的打包解改打算,其中裁减个性是依据各户的特定须要和需求定制的。
理想4:Hadoop 和MapReduce 是两个互补的产品。谷歌在发明 HDFS之前就开发了 MapReduce。因此,MapReduce不依赖 HDFS, 而是与其余非HDFS的数据存储技术(包括一些最经常出现的数据库治理系统)一同上班 (如今依然可以一同上班)。
理想5:HDFS 是一个文件系统,而不是一个相关型数据库治理系统。Hadoop 关键解决散布式环境中的文件(而不是表和记载)。因此,其数据粒度是文件级的,且没有SQL 查问、相关型数据库、用于极速检索的无心索引以及对索引数据的极速访问等与相关型数据库治理系统相关的经常出现配置。然而,作为报答,HDFS 能够在文件级别口头相关型数据库治理系统不可口头的操作。
理想6:Hive 看起来像 SQL,但不是规范 SQL。Hive 是用于操作相关型数据库治理系统中数据的规范 SQL 的变体。关于熱悉 SQL 的数据剖析师来说,学习经常使用Hive编写代码是一个相对极速和便捷的环节。大数据畛域的很多人置信并宿愿,随着每次迭代,Hive将更凑近于SQL 的语法,而且,在不久的某个时刻,规范SQL将很容易被用于解决 Hadoop 系列产品中的数据。
理想7:Hadoop 不能代替数据仓库。从历史上看,数据仓库旨在解决企业的结构化数据,通常是相关型数据。随着大数据的出现,数据仓库由于不可解决非结构化数据而遭到批判。Hadoop 系列产品的指标是经过解决数据仓库不可解决的非结构化数据类型来补充(不是取代,至少目前还不是)数据仓库。
理想8:Hadoop 允许剖析。虽然Hadoop 已被互联网公司宽泛经常使用并被两极分化,然而它可以允许任何类型的剖析,而不只仅是网络剖析(如剖析网络日志和其余基于互联网的数据)。例如,Hadoop 在剖析物联网数据方面施展了关键作用,物联网数据关键是由运输、动力、批发、制作(如预测性保养)、电信和网络安保等行业的机器和传感器生成的。
理想9:MapReduce 不只仅是剖析。虽然 MapReduce 和剖析之间存在着亲密相关,然而这种相关并不是排他性的。虽然 MapReduce 是一个通用的口头引擎(它能够解决沙及并行编程、网络通讯和容错的各和复杂义务),然而它不只限于剖析运行。同样,它可以用来口头任何类型的计算义务。
理想10:Hadoop 不只与数据量相关,而且还与数据的多样性相关。HDFS 不只可以解决十分大的散布式文件,而且还可以解决不同类型的文件。这个环节相当便捷,任何类型和大小的数据都可以经常使用在 HDFS 中构建的十分便捷和间接的环节启动存储(集中或散布式)和治理。
作者简介:杜尔森·德伦(Dursun Delen),俄克拉荷马州立大学博士。Business Analytics的Spears和Patterson主席、卫生系统翻新核心钻研主任,以及俄克拉荷马州立大学斯皮尔斯商学院治文迷信和消息系统的卓越奉献传授。《预测性剖析:基于数据迷信的方法(原书第2版)》《商业剖析:基于数据迷信及人工默认技术的决策允许系统(原书第11版)》《规范性剖析:循证治理与最优决策》作者。