我们正在使用巨大的hadoop集群。
我们有736个datanode机器,每个节点有16个核心X 2线程。
在某些计算机上,我们看到了平均CPU负载(98-128 5分钟)。
经过深入调查,我们发现:
no HW problem
no Disk proble
no network problem
no infra problem
我们仍然没有检查关于调整linux参数和调整内核参数。
有哪些参数或任何内核参数可以帮助机器在大多数CPU LOW负载平均下获得良好的CPU工作。
http://linuxrealtime.org/index.php/Improving_the_Real-Time_Properties
1
如果集群很大,那么您应该对可以在何处提高运行的软件负载的性能有所了解,这已经超出了一般调整建议的范围。
—
Bob Dole
这实际上是最终用户性能的问题吗?实际问题的症状包括更长的作业执行时间,减少的数据量或更长的交互式响应时间。
—
John Mahowald