为什么Google在第一页上说有成千上万个结果,但在最后一页上却少于一百个?


11

为什么Google在第一页上说有成千上万个结果,但在最后一页上却少于一百个?

那种递归 Google搜索应该是不言而喻的。我花了一些时间来调整句子并试图找到一个准确对应的数字,这就是我将其改为“ 数百 ” 的原因!:P

如果您使用Google足够长的时间,那么您肯定会无意中发现类似的情况。每当它显示少于10页时,就很容易看到它。关键是:除最后一页外任何页面的结果数量似乎都是一个可怕的估计

甚至更奇怪的是,在某些随机时间,估算值突然变得好得多,并且所有页面上的估算值几乎与最后一页完全相同,这是唯一始终正确的页面。

所以,有人知道为什么吗?


1
现在,在该搜索的第一页上显示3200个结果,但在最后一页上显示75个(对于有兴趣进行更新的人)
dkuntz2 2011年

@DKuntz对我来说是2990和65(当我登录时),而如果我注销(这是我第一次这样做),它变成3120和77。也许以后我会稍作更改并构建问题建立更一致的递归查询-但也欢迎任何人这样做!:P
cregox

Google很奇怪。
dkuntz2

雷总说208个结果的最后一页无论是4页的结果或22日,它总是说208
mchid

Answers:


6

我不知道确切的答案-也许Google之外的人都不知道。但是我有两个可能有用的数据点。

首先是XKCD对这个问题的看法

因此,看起来确实有一定的结果量阈值,超过该阈值,Google显然会说“拧紧”并抛出一个巨大的数字。我想这可能是由于无能,而不是故意的欺骗;我敢肯定很难从许多来源快速生成页面,对于搜索结果很多的搜索,他们可能没有时间同步所有页面。因此他们捏造了数字。这似乎使他们看起来比他们有更多的结果,这可能只是意外的奖金。

第二个数据点来自我有一位计算机科学教授,他对这个问题非常好奇,并在Google上让一些朋友感到困扰。他们告诉他,有时找出一个搜索真正返回了多少结果会变得非常昂贵,因此他们只是做出最佳猜测并返回结果的第一页,而这正是大多数人关心的。只有当您真正开始深入浏览页面时,Google才会费心去完全计算剩余的页面。

因此,这些都不是一个明确的答案,但是希望它们对解释可能导致Google错误的问题有帮助。

编辑:

萨蒂亚(Sathya)在此页面上的答案来自Google网站站长KB 的答案。

执行搜索时,结果通常显示以下信息:结果1-10(共XXXX)。

Google对搜索结果总数的计算是一种估算。我们知道,大致数字很有价值,并且通过提供估算值而不是确切的帐户,我们可以更快地返回高质量的搜索结果。

此外,当您单击搜索结果的下一页时,搜索结果的总数可能会更改。在这种情况下,我们意识到某些查询结果是重复的,并将这些重复折叠起来,以便您可以更轻松地找到所需的特定结果。折叠重复项会减少估计的结果数以及结果页的总数。


虽然我爱XKCD和Deary前任老师,但您告诉我的是,我可能应该在stackoverflow.com上问这个问题:P
cregox 2011年

我认为stackoverflow上的任何人都不会给出明确的答案-如果您确实需要知道,则应询问Google。我只能传递几个月前问Google的人的答案。
dsolimano

而不是寻找明确的答案,而只是提供了合理的更深层次的解释,最好是有充分根据的。不要误会我的意思,但是说“因为它很难”,即使这是权威和合理的,对我来说也太少了。嗯...也许是怀疑论者
。se

好的编辑,现在这是很好的采购!尽管仍然在说“因为很难”,这意味着我仍然希望获得更多细节。:P
cregox

7

否-该数字只是一个近似值

执行搜索时,结果通常显示以下信息:结果1-10(共XXXX)。

Google对搜索结果总数的计算是一种估算。我们知道,大致数字很有价值,并且通过提供估算值而不是确切的帐户,我们可以更快地返回高质量的搜索结果。

此外,当您单击搜索结果的下一页时,搜索结果的总数可能会更改。在这种情况下,我们意识到某些查询结果是重复的,并将这些重复折叠起来,以便您可以更轻松地找到所需的特定结果。折叠重复项会减少估计的结果数以及结果页的总数。


我认为如果他们总是将结果数限制为大约1000左右,那将不是一个好习惯。如果用户想要更多,他们应该显示更多。以我的观点,一些常见的关键字应该返回大量的搜索结果(例如花,书...),我认为互联网上存在大量的不同图片!

@ user11656,您假设Google图片搜索的工作方式与您可能使用的标准应用程序中的搜索相同。事情通常工作非常那个的规模不同。对于“所有与花朵匹配的图像”,可能没有一个答案,因为澳大利亚的服务器可能有一个最近上传的图像,但尚未传播到美国的服务器。然后,您必须处理诸如如何显示重复项以及如何为数百万个用户即时在数百万个图像中进行所有操作的问题。它很难,您必须在架构上做出让步。
乔治·莫尔


2

以上答案均不正确。

Google的估计必须比实际结果更接近实际结果。

这可以通过一个简单的例子来说明。选择一个比较常见的单词,例如“ Russia”或“ michael”。实际上,互联网上必须有成千上万个(即使不是成千上万个)网站,这些网站的某个位置也包含这些词。但是Google的搜索结果可能只会显示700。

事实并非不是Google给出了高估,而是现在Google极大地限制了它将给您的结果数量。它严重限制了结果,对我们个人而言是最大的损害。不幸的是,在某些情况下,我确实想用我的术语阅读成千上万个网站。

我之所以知道这一点,是因为我使用Google已有很长的时间,也许是10到15年,并且已经注意到,一般而言,术语的搜索结果越来越短,而不是更长,即使使用相同术语的网站数量通常必须使用Google的时间有所增加。

过去几年前,某些条件下我可能会得到1000个结果,而现在我获得1000个结果所用的相同条件却能得到500个结果。


2
请注意,“上”没有答案的上下文,因为可以用几种不同的方式对其进行排序。即使您假定默认的“投票”排序方式,其位置也会随着添加的上下投票而改变。
ale

很有意思!俄罗斯目前仅给我322个结果,仅在最后34页显示。到那时为止,结果将是799 000 000!尽管这是一个很好的见解,但它似乎仍然不正确。我也不认为最初的估算也是正确的,其目的只是带来显示的结果,而不是“认为网络上存在多少”,因此,最后一页对其进行了修复。
cregox

1

Google(图片)搜索引擎存在的问题是,它旨在通过消除差异来实现相关性。首先,了解其工作原理很重要。上传到互联网的图像需要通过两种方式建立索引:

  • 基于独创性(图像将由“智能机器人”根据颜色,尺寸,图案,形状识别,类型等进行分析)
  • 基于相似度(图像将由“智能bot2”进行分析,并与数据库中已存在的图像进行交叉引用,并进一步用一两个类别标签进行标记:“图像匹配”和“图像类似于... ”)

索引完成后,图像将作为识别结果继承“关键字”,以避免向最终用户显示偏离主题的结果。关键在于,每个关键字都是一个独立的词组,并根据相关性的强弱分配了%的值(这就是为什么在搜索框中将更多的单词分组会产生较少的结果,并且当您通过上传图片或输入网址搜索图片时,Google只会分配带有最高关键字的“猜测”,这意味着搜索绝不会仅仅因为搜索的目的而不是向您显示所有图片)

因此,在一天结束时,当您执行图像搜索并在搜索框下方时,您会看到一个巨大的数字,上面写着“ 25,270,000,000个结果(0.55秒)”,该数字通常都是假数字,因为您将一无所获大于200(最多500,但仅在用户请求后)的结果,这些结果也被过滤以排除:

  • 外部重复(如果同一网站页面上同一张图片是2倍以上)
  • 相关性重复项(仅显示“最佳结果”-参见下图)
  • 有法律问题的图片(请参见下图)
  • 违反DMCA的图片(请参见下图)
  • 源自垃圾邮件,恶意软件,网络钓鱼的图像
  • 隐藏的图像(如果用户未禁用安全搜索)
  • Google列入黑名单的图片(文章
  • 具有不同AR的图像(基本上是所有长宽比与图像搜索参考均不同的图像。例如,如果按选择的图像进行搜索,则可能会错过所有期望的结果-假设比例为9:7,而所有索引在其中的图像Google的比例为3:4-这可能是该搜索引擎的最大缺点,因为它始终遵循“长宽比”作为首要条件)
  • 还有更多

概括起来:图像的搜索结果从不完全相关。有时,您会使用搜索词“门海报”获得最终的期望结果,否则可能是“门封面”,“门模糊”,“门dvd”,“门2015”甚至是“自卫队彼の地にて斯く戦えり”-您根本无法获得“ ALL”图像结果,因为没有什么是“ ALL”,这就是为什么需要使用它才能到达那里的原因。同样值得一提的是,还有其他图像搜索引擎可以以不同的方式完成这项工作,因为它们使用不同的标准和准则。不是,也从来没有“仅限Google” ... >> https://www.yandex.com/images/

重要扩展:


同样,将它们标记为重复项比发布每个问题的答案要有用得多。
jonsca

0

顶部显示 7000个结果中的 70 (示例)。它将给出页码和多少个结果。没有70个结果,但有70页。希望这可以帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.