在Hadoop v1中,我为每个7个映射器和reducer插槽分配了1GB的大小,我的映射器和reducer运行良好。我的机器有8G内存,8个处理器。现在使用YARN,当在同一台计算机上运行同一应用程序时,出现容器错误。默认情况下,我有以下设置:
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>8192</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>8192</value>
</property>
它给了我错误:
Container [pid=28920,containerID=container_1389136889967_0001_01_000121] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.
然后,我尝试在mapred-site.xml中设置内存限制:
<property>
<name>mapreduce.map.memory.mb</name>
<value>4096</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>4096</value>
</property>
但仍然出现错误:
Container [pid=26783,containerID=container_1389136889967_0009_01_000002] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used; 5.2 GB of 8.4 GB virtual memory used. Killing container.
我很困惑为什么map任务需要这么多的内存。据我了解,1GB的内存足以完成我的地图/缩小任务。为什么当我为容器分配更多内存时,任务使用了更多内存?是因为每个任务都会得到更多分割吗?我觉得稍微减少容器的大小并创建更多的容器会更有效,以便更多的任务并行运行。问题是如何确定每个容器分配的拆分数量是否超过其处理能力?