Hadoop知识点之Hadoop发展历程

2023-09-18 17:53:14

一、Hadoop名字的起源

Hadoop这个名字不是一个缩写,它是一个虚构的名字。

该项目的创建者,Doug Cutting如此解释Hadoop:

这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。Googol就是由小孩命名的。

 

二、Hadoop发展史

  1. 2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。。

  2. 2003年10月,Google发表Google File System论文。

  3. 2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。

  4. 2004年10月,Google发表了MapReduce论文。

  5. 2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。

  6. 2005年12月,开源搜索项目Nutch移植到新框架,使用MapReduce和NDFS在20个节点稳定运行。

  7. 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

  8. 2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

  9. 2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。

  10. 2006年4月,第一个Apache Hadoop发布。

  11. 2006年11月,Google发表了Bigtable论文,激起了Hbase的创建。

  12. 2007年10月,第一个Hadoop用户组会议召开,社区贡献开始急剧上升。

  13. 2007年,百度开始使用Hadoop做离线处理。

  14. 2007年,中国移动开始在“大云”研究中使用Hadoop技术。

  15. 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。

  16. 2008年1月,Hadoop成为Apache顶级项目。

  17. 2008年2月,Yahoo!运行了世界上最大的Hadoop应用,宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

  18. 2008年4月,在900个节点上运行1TB排序测试集仅需209秒,成为世界最快。

  19. 2008年8月,第一个Hadoop商业化公司Cloudera成立。

  20. 2008年10月,研究集群每天装载10TB的数据。

  21. 2009 年3月,Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。

  22. 2009年6月,Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版,后被誉为Hadoop圣经。

  23. 2009年7月 ,Hadoop Core项目更名为Hadoop Common;

  24. 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

  25. 2009年8月,Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。

  26. 2009年10月,首届Hadoop World大会在纽约召开。

  27. 2010年5月,IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。

  28. 2011年3月,Apache Hadoop获得Media Guardian Innovation Awards媒体卫报创新奖

  29. 2012年3月,企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。

  30. 2012年8月,另外一个重要的企业适用功能YARN成为Hadoop子项目。

  31. 2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

  32. 2017年12月,Release 3.0.0 generally available

更多推荐

微信小程序如何刷新当前页面

微信小程序是一种快速发展的移动应用程序开发平台,它提供了许多功能和特性,使开发者能够轻松创建功能丰富的小程序。在开发小程序时,有时我们需要刷新当前页面来更新数据或重新加载页面内容。本文将解释如何在微信小程序中刷新当前页面的代码。引言微信小程序的流行使得越来越多的开发者将其作为构建移动应用的首选平台。然而,与传统的网页开

快速了解Apipost

随着数字化转型的加速,API(应用程序接口)已经成为企业间沟通和数据交换的关键。而在API开发和管理过程中,API文档、调试、Mock和测试的协作显得尤为重要。Apipost正是这样一款一体化协作平台,旨在解决这些问题,提高API开发效率和质量。Apipost提供API文档管理功能,让后端开发人员可以在开发完接口调试的

cookie信息无法获取问题研究

背景在oneapi这个前后端都有的开源项目中,我想接入chatnextweb到oneapi的后端。由于需要二开chatnextweb,添加登录注册功能,考虑到java后端的性能问题和内存占用,决定不重启写个服务,而是将登录注册接入到oneapi的登录注册api,没错,和oneapi的前端公用一套登录注册熬了个大夜后,终

GLTF编辑器:在线模型材质编辑工具

GLTF编辑器是一个功能强大、易于使用的在线3D模型编辑和查看工具,它支持多种格式的3D模型导入并将模型导出为GLB格式,除了可以对3D模型进行基本属性的修改之外,还支持对模型原点重置以及模型材质纹理修改。对于3D开发者和设计师来说,GLTF编辑器是一个非常有用的工具,可以帮助他们更方便地处理3D模型数据。1、首先介绍

VR全景技术在教育中的应用:VR教学的“因材施教”

随着科技的不断进步和发展,VR全景技术在教育领域的应用,给传统教育模式带来了新的变革和机遇,同时也促进了教育的创新和进步。VR教学模式可以打破传统教育的限制,通过模拟各种场景,让学生身临其境地学习多样化知识,感受不同国家的风土人情、拓展自身视野,这种具备沉浸感的学习体验可以很好的激发学生的学习兴趣和动力。VR教学可以构

vr飞机驾驶舱模拟流程3D仿真演示加大航飞安全法码

众所周知,航空航天飞行是一项耗资大、变量参数很多、非常复杂的系统工程,因此可利用虚拟仿真技术经济、安全及可重复性等特点,进行飞行任务或操作的模拟,以代替某些费时、费力、费钱的真实试验或者真实试验无法开展的场合,从而获得提高航空航天员工作效率或航空航天器系统可靠性等的设计对策。飞机飞行操作要求严、风险大且成本高,因此在真

windows RocketMQ与可视化监控平台安装

windowsRocketMQ与可视化监控平台安装安装日期2023.09.21最新版RocketMQ是一个纯Java、分布式、队列模型的开源消息中间件,搭建RocketMQ需要先配置JAVA环境变量,需要有JAVA_HOME。下载安装包进入官网选择需要的版本下载安装包(以下以5.1.3为例)。官网下载地址:官网下载编译

中秋节听夜曲,Android OpenGL 呈现周董专属的玉兔主题音乐播放器

概述前几天发现QQ音乐有个好玩的功能,为用户提供了多种播放器主题,其中原神的主题让我眼前一亮:当然,诸如换肤、主题类的功能已经屡见不鲜,但这类沉浸式播放器的听歌体验确实不错。见猎心喜,正好中秋马上就到,我也尝试整个中秋主题音乐播放器试试水。整体思路有2点:首先是技术方面,纯粹的ImageView图层堆砌来实现,渲染效率

05预测识别-依托YOLO V8进行训练模型的识别——对视频中的图片进行识别

在前面的一些章节中,我们已经讲如何准备打标签的素材、如何制作标签、如何训练以及得到我们最终需要的用于YOLO目标识别的模型。那么现在我们就要正式开始,利用我们训练得到的best.pt,这个模型文件来对图片视频进行识别。1、基本思路公安交管场景中,我们经常会遇到需要对摄像头拍到的视频中的目标进行识别,比如识别识别非机动车

【C++】C++ 引用详解 ③ ( 函数返回值不能是 “ 局部变量 “ 的引用或指针 | 函数内的 “ 局部变量 “ 的引用或指针做函数返回值无意义 )

文章目录一、函数返回值不能是"局部变量"的引用或指针1、引用通常做右值2、函数返回值特点3、函数内的"局部变量"的引用或指针做函数返回值无意义二、代码示例-"局部变量"引用或指针做函数返回值测试一、函数返回值不能是"局部变量"的引用或指针1、引用通常做右值之前使用引用时,都是作为右值使用,引用只在声明的同时进行初始化时

ChatGPT可以取代搜索引擎吗?

目录ChatGPT可以取代搜索引擎吗?1、功能和应用场景2、处理的信息量3、实时性4、准确性5、使用习惯和依赖性未来发展趋势1、搜索引擎与ChatGPT的融合2、个性化搜索与自然语言处理3、搜索引擎作为对话平台4、增强现实与搜索引擎ChatGPT是一种大规模的预训练模型,旨在生成自然语言文本,以便在各种自然语言处理任务

热文推荐