为什么Google用?utm_campaign查询字符串将页面编入索引


9

最近,我注意到Google正在索引包含utm_campaign,utm_source和utm_medium查询字符串参数的URL。在结果中,Google显示带有以下查询字符串的URL,而不是规范的URL:

utm_campaign已添加到URL

我了解这可能是“重复内容”问题,但是我在link rel=canonical整个网站上一直使用该标签。举一个例子:

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

规范标签的屏幕截图

我的期望是Google应该使用规范的URL进行索引。我究竟做错了什么?


2
即使没有规范标记,Googlebot也会忽略UTM参数,因为它知道它们仅用于跟踪。我从未见过它们被索引过,特别是没有规范的索引。
Stephen Ostermiller

4
FWIW site:stackexchange.com inurl:utm_campaign也返回类似的结果(规模稍大)。另请注意,site:搜索结果中通常会返回非规范的URL,通常不会在“常规”搜索中返回。但是,上述URL似乎也在“常规”搜索中返回。
怀特先生(MrWhite)2013年

Answers:


3

现在检查您的网站,我不太确定这是否是/现在是否有问题。

问题不是您的网站上包含UTM参数的内部链接(如另一个问题所示)。

似乎您必须在社交媒体上共享网站内容的某些过程是将UTM参数保留在URL中并共享这些URL,从而在某些时候导致对它们进行索引。

这种情况很少发生,但以前在许多其他站点都发生过。只有三个页面使用这些参数编制索引这一事实表明,这既不是一个严重的问题,也不是站点范围的问题。

您可以采取以下步骤来消除这种情况:-

1.在页面上指定一个规范的URL

您已经在执行此操作,并且实现正确。这将确保在搜索引擎中仅赋予指定的规范URL权重。大概这一直存在,但是如果没有,那么这可以解释为什么有些旧的页面实例仍使用UTM参数索引。

正确实施规范的URL

2.指示Google不要在Search Console中为UTM参数编制索引

如果某些URL已使用UTM参数建立索引(例如您的情况),则该URL参数应作为您域的Google Search Console的“抓取> URL参数”部分中的被检测到的参数出现(请参阅下文)。

Google Search Console UTM URL参数

即使未显示UTM参数,也可以“添加参数”来创建它们。

只需选择No: Doesn't affect page content (ex: tracks usage)(称为“被动参数”),然后Google 通常只会仅抓取一个具有特定参数值的网址

3禁止robots.txt中的URL参数

这将阻止Google将这些URL的内容编入索引,但不会索引实际的URL本身(它们仍可以显示在搜索结果中,但仅会省略以下说明)。

robots.txt中不允许的索引页

只需添加类似以下内容的内容即可从robots.txt:- 处理此问题

Disallow: /*?utm=*

结论

出于预防和“最佳实践”的考虑,应该以任何方式执行步骤#1和#2,并且除了步骤#1和#2之外,还应该执行步骤#3(因为它本身不会有效)。

在Google Search Console中,还可以(临时)删除网址。如果仍有一些顽固的页面仍在编制索引,但您知道问题的根源已解决,并且此功能应足以从搜索结果中一劳永逸地删除它们,则此功能特别有用。

我没有将其作为上述步骤,因为尽管之前已经进行了研究,但我不记得它是否将支持带有参数[需要引用]的URL。我曾经知道答案,但在这种特殊情况下,我的记忆使我失望。

有关从Google删除URL的更多信息。


1
但是,如果您使用(#3)阻止这些URL进行爬网,robots.txt那么您是否也阻止了这些广告系列的跟踪?...并且还阻止读取页内规范标签(#1)?
怀特先生(MrWhite)2013年

我同意w3dk关于robots.txt的说法。如果noindex: /*?utm=*在robots.txt中使用任何内容。
Stephen Ostermiller

2

看来您是在网站内容内使用这些链接将页面链接在一起。

为确保Google不会编制索引,您可以rel="nofollow"在网站内添加以下链接,并从robots.txt文件中阻止以下参数:

Disallow : /*utm_campaign

很好的捕获,它们用于内部链接。这将解释与大多数网站通常仅用于入站链接的区别。
Stephen Ostermiller

实际上utm_campaign URL是由Buffer.com添加的-例如,它们看起来像“ utm_source = plus.google.com&utm_campaign = buffer”。我认为我不在网站上的任何位置使用这些链接。
布伦登

1

您是否检查过您的规范URL已被索引?如果已对规范的URL进行了索引,则无需担心。

您可以在此处尝试使用Google的网站站长工具并更改Google处理URL参数的方式。


1
对于某些URL,仅utm_campaign URL被索引。对于其他页面,两个URL都显示在索引中。昨天,我使用了Google抓取方式工具来抓取一个网址(带有utm_campaign查询字符串)-该网址现在似乎已消失,并且已为规范的网址建立了索引。
布伦登

此外,抓取统计信息(屏幕截图)似乎显示了需要较长时间抓取的页面(平均2.3秒)。我不确定这是否是一个普遍存在的问题,但也许Google在抓取该网站时遇到了一些问题。
布伦登

访问者登陆您的网站后,您还可以进行一些清理。从URL受益后,使用链接 Fresh URL脚本动态删除URL中的所有UTM参数。其次添加URL参数...
muhammad usman
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.