Hadoop是什么?它的用途是什么?[关闭]


28

我很喜欢阅读ServerFault一段时间,并且在Hadoop上遇到了很多话题。从全局的角度来看,我很难找到它的作用。

所以我的问题很简单:什么是Hadoop?它有什么作用 ?它是干什么用的 ?为什么会踢屁股?

编辑:如果有人碰巧有使用Hadoop的用例的演示/说明,那将是很棒的。


Facebook大量使用了Hadoop(实际上是Hive,它是Hadoop之上的一层)。在Facebook工程页面上有很好的文章。 facebook.com/note.php?note_id=89508453919
John Meagher 2009年

Hadoop是一个框架,通过在节点/服务器之间分布数据集群并使流程并行运行,可以简化处理大量数据(大数据)的过程。该过程/算法称为MapReduce。
Mr_Green 2014年

Answers:


26

马口直行:

Hadoop是一个框架,用于在由商品硬件构建的大型集群上运行应用程序。Hadoop框架透明地为应用程序提供可靠性和数据移动性。Hadoop实现了一个名为Map / Reduce的计算范例,该范例将应用程序分为许多小工作片段,每个小片段都可以在集群中的任何节点上执行或重新执行。此外,它提供了一个分布式文件系统(HDFS),可将数据存储在计算节点上,从而在整个群集中提供非常高的聚合带宽。Map / Reduce和分布式文件系统的设计都使该框架能够自动处理节点故障。

Google Map / Reduce是一种编程范例,已被Google广泛采用,其中将任务分为小部分,然后分配给大量节点进行处理(map),然后将结果汇总为最终答案(reduce )。Google和Yahoo将此用于他们的搜索引擎技术。

Hadoop是用于实现这种处理方案的通用框架。至于为什么要踢屁股,主要是因为它提供了诸如容错之类的简洁功能,并且使您几乎可以将任何种类的硬件整合在一起来进行处理。只要您的问题符合范式,它也可以很好地扩展。

您可以在网站上阅读所有内容。

对于某些示例,Paul给出了一些示例,但是您可以做的更多示例并不是那么以网络为中心的:

  • 渲染3D电影。“贴图”步骤将每个帧的几何图形分配到不同的节点,节点将其渲染,然后在“缩小”步骤中将渲染的帧重新组合。
  • 以分子模型计算系统中的能量。系统轨迹的每一帧都在“地图”步骤中分配到一个节点。节点计算每一帧的能量,
    然后在“减少”步骤中汇总结果。

本质上,该模型对于一个可以很好地分解为完全独立的相似离散计算的问题非常有效,并且可以重新组合以产生最终结果。


谢谢您的回答。因此,从根本上讲,它需要应用程序(PHP,Java和Java)并将其分解,然后在一堆节点之间分派工作。至于HDFS,除了一堆节点外,它有点像OCFS。
Antoine Benkemoun

也对此感兴趣。我希望看到一些更具体的真实单词示例。
Karolis T.

那也是我一直在寻找的东西:-)
Antoine Benkemoun 2009年

10

Cloudera上有一些很棒的视频,它们解释了Map Reduce和Hadoop背后的原理。

http://www.cloudera.com/hadoop-training-basic

MapReduce背后的核心思想之一是,对于大型数据集,您将被绑定在磁盘上,因此在Hadoop HDFS中,您可以在多个节点之间进行拆分,从而实现并行处理。

系统管理员感兴趣的Hadoop的一些使用通常围绕处理大型日志文件集-我只能发布一个链接,但是其中包括,google应该找到这些链接:

  1. Rackspace邮件日志查询
  2. 使用Pig进行Apache日志分析-请参阅Cloudera博客
  3. 雅虎!打击垃圾邮件

看起来不错,我看一下:-)
Antoine Benkemoun

1

最初,Hadoop是为OLAP环境中的大量数据集开发的。

通过在hadoop之上引入Hbase,甘蔗也可以用于OLAP处理。Hadoop是一个包含所有子组件的框架,例如map reduce,hdfs,hbase,pig。

首先介绍Hadoop为什么引入Hadoop的基础知识。

在Hadoop中,数据以文件的形式而不是表,列的形式存储。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.