多语言展示
当前在线:1565今日阅读:60今日分享:41

大数据技术学习路线指南:[7]为什么是Hadoop

前文已经介绍过Hadoop是什么,但是关于为什么是Hadoop,Hadoop凭借怎样的本事而成为大数据分析技术的标准基础。我们一起从多个角度来了解下Hadoop的威力,以及和这威力密切相关的一切因素。
工具/原料

请先阅读本系列的前文《Hadoop是什么》

Hadoop大背景
1

Hadoop起源:Hadoop有个背景,就是起源于Apache Lucene项目中的一个搜索引擎Nutch。Lucene目前是世界上最好,并且开源的搜索引擎框架和产品。Lucene本身就有非常多好的大数据经验和思路。这为Hadoop预备了巨大能量,使得Hadoop注定是一个伟大的产品。

2

Hadoop命名:其实是一个孩子给棕黄色大象的命名。Hadoop图标在本系列中也随处可见。Google也是一个这样的例子。这样有一个很好的点就是想到Hadoop,就会想到大数据,而不会是其他。

3

Hadoop目标:Hadoop的出现是为了解决搜索引擎无法接受数以亿计单位的数据量的问题。借助Google分享的GFS和MapReduce成熟理论,Hadoop一跃而出,成功解决了海量数据存储和搜索的架构问题。未来Hadoop将支持更巨大的数据和更智能的数据管理。

Hadoop大比较
1

为什么选择Hadoop,而不是其他数据处理架构,比如传统关系型数据库或者其他。Hadoop在我的眼里,更像是在“暴力解锁”,它可以处理每一条数据,乃至每一种可能的设想。Hadoop的巨大贡献在于快速分析大数据所隐藏的事实,这在过去也许需要几天甚至几个月的时间才能完成,而Hadoop很可能只需要几分钟甚至几秒钟的时间就可以很完整地做好!

2

关系型数据库的几个特点使得它无缘大数据分析,当然它也有自己擅长的领域。(1)磁盘可以存储大量内容,却无法快速存取!并且存储空间的扩展是有限度的。(2)在更新一小部分数据的同时,会对整张表乃至整个数据库都会产生影响。(3)要求存储的数据都是结构化的,能处理的数据也都是结构化。

3

网格计算尝试通过多台机器(不同的任务)处理和管理共享文件系统,最终达到大数据计算的目的。这样的尝试以网络带宽的约束而失败告终。因为数据量达到GB级别以上时,网格计算的方法显得力不从心。不过网格计算用在中小型科研实验确实是说一不二的选择!

Hadoop大未来
1

Hadoop在2008年就已经是顶级的Apache项目,之后被各大互联网巨头挖掘开发并且商业化。如果市场上已经有不少成熟的Hadoop分析产品。这些基于Hadoop的产品有重新给Hadoop注入了新的活动。Hadoop将作为大数据分析的一个起点,使得分析未来可以智能化,使得人工智能更加普遍。

2

目前谷歌已经不再使用Hadoop架构(可以解决PB级别的数据),而是使用DataFlow结构在完成EB级别数据的分析,并且是基于对Hadoop架构的升级。这是一个可喜的消息,这不意味着Hadoop已经成为历史,而更说明Hadoop架构和其中思想的巨大潜力!

3

基于Hadoop的分析架构越来越多,相应的,大数据对现实世界的分析成果会越来越多。这些才是普通人可以实实在在感受到的大数据。比如购物,学习,健康,旅游等等都会变得更加便捷安全。

4

大数据给我们带来许多好处,但同时也产生了不少新问题。比如数据隐私,大数据安全,数据滥用等等。这些都将是需要大家达成共识的下一个议题。

注意事项

请完整阅读大数据技术学习路线指南系列!

推荐信息