每一个知道大数据的人都听说过Hadoop,作为基础框架,其凭借着低成本、高可靠、高扩展、高有效、高容错等特性成为最流行的大数据分析系统。要入门大数据,最好的办法就是理清Hadoop的生态系统。
Hadoop是Apache软件基金会的顶级开源项目,是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父,他打造了目前在云计算和大数据领域里如日中天的Hadoop。
Hadoop的发音是[hædu:p],Hadoop 这个名字不是一个缩写,而是一个虚构的名字。Doug Cutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短、容易发音和拼写,没有太多的意义,并且不会被用于别处,小孩子恰恰是这方面的高手”。

Apache Hadoop官方定义是:Hadoop项目™®是一套可靠的,可扩展的,支持分布式计算的开源软件。
Hadoop是一个基础框架,允许用简单的编程模型在计算机集群对大型数据集使进行分布式处理。它的设计规模从单一服务器到数千台机器,每个都提供本地计算和存储,框架本身提供计算机集群高可用的服务而不是依靠硬件来提供高可用性。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。