我很喜欢阅读ServerFault一段时间,并且在Hadoop上遇到了很多话题。从全局的角度来看,我很难找到它的作用。
所以我的问题很简单:什么是Hadoop?它有什么作用 ?它是干什么用的 ?为什么会踢屁股?
编辑:如果有人碰巧有使用Hadoop的用例的演示/说明,那将是很棒的。
我很喜欢阅读ServerFault一段时间,并且在Hadoop上遇到了很多话题。从全局的角度来看,我很难找到它的作用。
所以我的问题很简单:什么是Hadoop?它有什么作用 ?它是干什么用的 ?为什么会踢屁股?
编辑:如果有人碰巧有使用Hadoop的用例的演示/说明,那将是很棒的。
Answers:
从马口直行:
Hadoop是一个框架,用于在由商品硬件构建的大型集群上运行应用程序。Hadoop框架透明地为应用程序提供可靠性和数据移动性。Hadoop实现了一个名为Map / Reduce的计算范例,该范例将应用程序分为许多小工作片段,每个小片段都可以在集群中的任何节点上执行或重新执行。此外,它提供了一个分布式文件系统(HDFS),可将数据存储在计算节点上,从而在整个群集中提供非常高的聚合带宽。Map / Reduce和分布式文件系统的设计都使该框架能够自动处理节点故障。
Google Map / Reduce是一种编程范例,已被Google广泛采用,其中将任务分为小部分,然后分配给大量节点进行处理(map),然后将结果汇总为最终答案(reduce )。Google和Yahoo将此用于他们的搜索引擎技术。
Hadoop是用于实现这种处理方案的通用框架。至于为什么要踢屁股,主要是因为它提供了诸如容错之类的简洁功能,并且使您几乎可以将任何种类的硬件整合在一起来进行处理。只要您的问题符合范式,它也可以很好地扩展。
您可以在网站上阅读所有内容。
对于某些示例,Paul给出了一些示例,但是您可以做的更多示例并不是那么以网络为中心的:
本质上,该模型对于一个可以很好地分解为完全独立的相似离散计算的问题非常有效,并且可以重新组合以产生最终结果。
Cloudera上有一些很棒的视频,它们解释了Map Reduce和Hadoop背后的原理。
http://www.cloudera.com/hadoop-training-basic
MapReduce背后的核心思想之一是,对于大型数据集,您将被绑定在磁盘上,因此在Hadoop HDFS中,您可以在多个节点之间进行拆分,从而实现并行处理。
系统管理员感兴趣的Hadoop的一些使用通常围绕处理大型日志文件集-我只能发布一个链接,但是其中包括,google应该找到这些链接:
最初,Hadoop是为OLAP环境中的大量数据集开发的。
通过在hadoop之上引入Hbase,甘蔗也可以用于OLAP处理。Hadoop是一个包含所有子组件的框架,例如map reduce,hdfs,hbase,pig。
首先介绍Hadoop为什么引入Hadoop的基础知识。
在Hadoop中,数据以文件的形式而不是表,列的形式存储。