估计Windows搜索索引的大小


4

我必须使用Windows搜索索引相当大量的数据,所以我想估计索引大小。我已经索引了一个数据子集(大约60GB; 13e6页的文本数据,每个大约4-5KB)。

该索引已经增长到大约78GB,因此它现在比数据本身占用更多的空间。这些结果与我所读到的相矛盾 这里

指数的平均大小约为所有指数的10%   正在编制索引的内容。

这是指数的预期大小吗?可以做些什么来减少它?

Answers:


1

平均指数大小并不代表您的目标。这可能是因为除了你的所有文件都被编入索引(并且由于你的文件都很小,这个文件大小已经很大),文本文件的内容也会被编入索引,从而进一步增加了索引的大小。


“指数的平均规模约为所有指数的10% 内容 正在编制索引。“ - >”文本文件的内容也会被编入索引“ - >?
Mehrdad

是。对于某些文件类型。这允许您搜索文件中的文本。
soandos

内容已编入索引。我认为估计大约10%的原始内容假定内容已编入索引。否则,如果索引仅依赖于文件属性,则它不能依赖于内容大小。
Vladimir Nesterovsky

0

10%的规则依赖于许多假设:

  1. 语料库包含带有人类语言散文的文件
  2. 与元数据相比,文件平均相当大
  3. 语料库不包含代码文件(.cpp,.cs,ect)

数字3是因为索引是在磁盘上压缩的,假设经常重复单词。对于大多数文本都是如此(检查'索引中出现'的次数),但是对于代码来说,变量名中有许多独特的“单词”,它打破了这个假设。

在你的情况下,虽然我怀疑问题是2号,很多小文件。每个需要存储在索引中的文件都会有固定数量的元数据开销。例如,索引必须存储内容顶部的每个文件的完整路径,修改日期,创建日期等。每个文件最多可增加3K,如果平均文件大小为4-5K,则最有可能出现问题。

如果搜索很重要且您无法合并文件,我建议关闭索引您拥有大量文件类型的内容。它应该稍微减小大小,同时仍然可以搜索文件的元数据。

Indexing only the contents using Indexing Options control panel page


0

我禁用了我的Windows搜索服务。我使用替代搜索应用程序。 “Everything”只有900 KB大小,用于额外的快速文件搜索,“FileSeek Pro”用于搜索文件内容。


你是说你的搜索索引只有900KB?从帖子的措辞来看,这并不是很清楚。此外,您的总数据大小是多少,以及索引的文档和配置文件的数量是多少?
music2myear

不,我不是在谈论Windows搜索索引,因为我禁用了与Windows搜索相关的所有服务,而不是它我使用两种可选择的软件,它们可以比Windows搜索搜索越来越快。您可以在这里下载 https://www.voidtools.com/downloads/ 文件寻求亲 用于搜索文件内容。我认为Windows搜索很慢并且使用额外的源,通过禁用它,您可以体验更快的计算机
Nihan J Co.

好吧,你的答案仍然不清楚。没有迹象表明900KB所指的是“一切”是应用程序还是设置。请清理并澄清您的答案,以便不需要了解更多问题。
music2myear
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.