对Elastic Search硬件的建议[关闭]


10

是否有关于硬件级别以支持ElasticSearch的良好指南?对Lucene或Solr的建议是一个不错的起点吗?我们正在考虑从以下时间开始部署

  • 2700万份文档,8TB数据
  • 每天添加30万个文档

然后将其放大约10倍,

  • 2.7亿文档,80TB数据
  • 每天增加300万份文档

这是一个奇怪的用例,其中查询将以每天数千次的速度进行,但是响应时间需要保持足够低的时间才能获得Ajaxy Webapp的良好体验。


@MarkHenderson:这是一个真实的(非玩具)有趣的问题。我认为您对它“太本地化”的评估是偏离目标的。
David J.

大卫,根据我们的常见问题解答,该问题已经关闭,我们不涉及购物问题
马克·亨德森

Answers:


11

有很多因素可以发挥作用,所以我认为没有很多通用准则。

您应该进行较小规模的评估,也许使用初始数据集的1/5进行评估,以查看当您在设置中投入预期的索引和搜索负载时情况如何。这样可以确保您了解您的数据在搜索引擎中实际会占用多少空间。对于elasticsearch,取决于您是否存储源json以及如何分析字段以及是否存储字段。

EC2是评估弹性搜索而不花费大量硬件的合理方法。

对于像Elasticsearch这样的基于集群的软件,在保持集群较小与较大之间需要权衡。大型集群是不错的选择,因为当服务器丢失时,需要重新分配较少的数据。较小的群集消耗较少的能量,更易于维护。

我们运行着一个集群,其中包含3500万个文档,总索引大小约为300GB x 2,因为所有索引都是可复制的。为了支持此操作以及大量搜索,我们有4个节点,每个节点具有24个内核,48GB RAM和1TB存储以及raid10中的10K磁盘。最近,我们增加了磁盘大小,以确保有更多的剩余空间。

对于您的情况,我建议更多的RAM和更多的磁盘。通过该搜索量,您可能可以节省CPU资金。

搜索量过低实际上会影响性能,因为缓存(包括在使用的软件和操作系统内部的缓存)将无法很好地预热。

希望这会有所帮助,保罗


您在谈论什么样的文件?日志?真实文件?
2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.