我必须使用Windows搜索索引相当大量的数据,所以我想估计索引大小。我已经索引了一个数据子集(大约60GB; 13e6页的文本数据,每个大约4-5KB)。
该索引已经增长到大约78GB,因此它现在比数据本身占用更多的空间。这些结果与我所读到的相矛盾 这里 :
指数的平均大小约为所有指数的10% 正在编制索引的内容。
这是指数的预期大小吗?可以做些什么来减少它?
我必须使用Windows搜索索引相当大量的数据,所以我想估计索引大小。我已经索引了一个数据子集(大约60GB; 13e6页的文本数据,每个大约4-5KB)。
该索引已经增长到大约78GB,因此它现在比数据本身占用更多的空间。这些结果与我所读到的相矛盾 这里 :
指数的平均大小约为所有指数的10% 正在编制索引的内容。
这是指数的预期大小吗?可以做些什么来减少它?
Answers:
平均指数大小并不代表您的目标。这可能是因为除了你的所有文件都被编入索引(并且由于你的文件都很小,这个文件大小已经很大),文本文件的内容也会被编入索引,从而进一步增加了索引的大小。
10%的规则依赖于许多假设:
数字3是因为索引是在磁盘上压缩的,假设经常重复单词。对于大多数文本都是如此(检查'索引中出现'的次数),但是对于代码来说,变量名中有许多独特的“单词”,它打破了这个假设。
在你的情况下,虽然我怀疑问题是2号,很多小文件。每个需要存储在索引中的文件都会有固定数量的元数据开销。例如,索引必须存储内容顶部的每个文件的完整路径,修改日期,创建日期等。每个文件最多可增加3K,如果平均文件大小为4-5K,则最有可能出现问题。
如果搜索很重要且您无法合并文件,我建议关闭索引您拥有大量文件类型的内容。它应该稍微减小大小,同时仍然可以搜索文件的元数据。
我禁用了我的Windows搜索服务。我使用替代搜索应用程序。 “Everything”只有900 KB大小,用于额外的快速文件搜索,“FileSeek Pro”用于搜索文件内容。