大数据技术学习路线指南：[7]为什么是Hadoop

前文已经介绍过Hadoop是什么，但是关于为什么是Hadoop，Hadoop凭借怎样的本事而成为大数据分析技术的标准基础。我们一起从多个角度来了解下Hadoop的威力，以及和这威力密切相关的一切因素。

工具/原料

请先阅读本系列的前文《Hadoop是什么》

Hadoop大背景

Hadoop起源：Hadoop有个背景，就是起源于Apache Lucene项目中的一个搜索引擎Nutch。Lucene目前是世界上最好，并且开源的搜索引擎框架和产品。Lucene本身就有非常多好的大数据经验和思路。这为Hadoop预备了巨大能量，使得Hadoop注定是一个伟大的产品。

Hadoop命名：其实是一个孩子给棕黄色大象的命名。Hadoop图标在本系列中也随处可见。Google也是一个这样的例子。这样有一个很好的点就是想到Hadoop，就会想到大数据，而不会是其他。

Hadoop目标：Hadoop的出现是为了解决搜索引擎无法接受数以亿计单位的数据量的问题。借助Google分享的GFS和MapReduce成熟理论，Hadoop一跃而出，成功解决了海量数据存储和搜索的架构问题。未来Hadoop将支持更巨大的数据和更智能的数据管理。

Hadoop大比较

为什么选择Hadoop，而不是其他数据处理架构，比如传统关系型数据库或者其他。Hadoop在我的眼里，更像是在“暴力解锁”，它可以处理每一条数据，乃至每一种可能的设想。Hadoop的巨大贡献在于快速分析大数据所隐藏的事实，这在过去也许需要几天甚至几个月的时间才能完成，而Hadoop很可能只需要几分钟甚至几秒钟的时间就可以很完整地做好！

关系型数据库的几个特点使得它无缘大数据分析，当然它也有自己擅长的领域。（1）磁盘可以存储大量内容，却无法快速存取！并且存储空间的扩展是有限度的。（2）在更新一小部分数据的同时，会对整张表乃至整个数据库都会产生影响。（3）要求存储的数据都是结构化的，能处理的数据也都是结构化。

网格计算尝试通过多台机器（不同的任务）处理和管理共享文件系统，最终达到大数据计算的目的。这样的尝试以网络带宽的约束而失败告终。因为数据量达到GB级别以上时，网格计算的方法显得力不从心。不过网格计算用在中小型科研实验确实是说一不二的选择！

Hadoop大未来

Hadoop在2008年就已经是顶级的Apache项目，之后被各大互联网巨头挖掘开发并且商业化。如果市场上已经有不少成熟的Hadoop分析产品。这些基于Hadoop的产品有重新给Hadoop注入了新的活动。Hadoop将作为大数据分析的一个起点，使得分析未来可以智能化，使得人工智能更加普遍。

目前谷歌已经不再使用Hadoop架构（可以解决PB级别的数据），而是使用DataFlow结构在完成EB级别数据的分析，并且是基于对Hadoop架构的升级。这是一个可喜的消息，这不意味着Hadoop已经成为历史，而更说明Hadoop架构和其中思想的巨大潜力！

基于Hadoop的分析架构越来越多，相应的，大数据对现实世界的分析成果会越来越多。这些才是普通人可以实实在在感受到的大数据。比如购物，学习，健康，旅游等等都会变得更加便捷安全。

大数据给我们带来许多好处，但同时也产生了不少新问题。比如数据隐私，大数据安全，数据滥用等等。这些都将是需要大家达成共识的下一个议题。

注意事项

请完整阅读大数据技术学习路线指南系列！

上一篇：大数据主要学些什么？

下一篇：大数据技术学习路线指南：[1]大数据是什么

欧尼酱

大数据技术学习路线指南：[7]为什么是Hadoop

大数据主要学些什么？