9

最近，我注意到Google正在索引包含utm_campaign，utm_source和utm_medium查询字符串参数的URL。在结果中，Google显示带有以下查询字符串的URL，而不是规范的URL：

我了解这可能是“重复内容”问题，但是我在link rel=canonical整个网站上一直使用该标签。举一个例子：

[snip]
<meta name="description" content="App store optimization helps discovery and rank on Google Play and the App Store. Publishers can use ASO by following these simple steps."/>
<meta name="robots" content="noodp"/>
<link rel="canonical" href="https://sweetpricing.com/blog/2016/11/app-store-optimization/" />
<meta property="og:locale" content="en_US" />
[snip]

我的期望是Google应该使用规范的URL进行索引。我究竟做错了什么？

google canonical-url serps

— 布伦登
source

2

即使没有规范标记，Googlebot也会忽略UTM参数，因为它知道它们仅用于跟踪。我从未见过它们被索引过，特别是没有规范的索引。

— Stephen Ostermiller

4

FWIW site:stackexchange.com inurl:utm_campaign也返回类似的结果（规模稍大）。另请注意，site:搜索结果中通常会返回非规范的URL，通常不会在“常规”搜索中返回。但是，上述URL似乎也在“常规”搜索中返回。

— 怀特先生（MrWhite）2013年

3

现在检查您的网站，我不太确定这是否是/现在是否有问题。

问题不是您的网站上包含UTM参数的内部链接（如另一个问题所示）。

似乎您必须在社交媒体上共享网站内容的某些过程是将UTM参数保留在URL中并共享这些URL，从而在某些时候导致对它们进行索引。

这种情况很少发生，但以前在许多其他站点都发生过。只有三个页面使用这些参数编制索引这一事实表明，这既不是一个严重的问题，也不是站点范围的问题。

您可以采取以下步骤来消除这种情况：-

1.在页面上指定一个规范的URL

您已经在执行此操作，并且实现正确。这将确保在搜索引擎中仅赋予指定的规范URL权重。大概这一直存在，但是如果没有，那么这可以解释为什么有些旧的页面实例仍使用UTM参数索引。

2.指示Google不要在Search Console中为UTM参数编制索引

如果某些URL已使用UTM参数建立索引（例如您的情况），则该URL参数应作为您域的Google Search Console的“抓取> URL参数”部分中的被检测到的参数出现（请参阅下文）。

即使未显示UTM参数，也可以“添加参数”来创建它们。

只需选择No: Doesn't affect page content (ex: tracks usage)（称为“被动参数”），然后Google 通常只会仅抓取一个具有特定参数值的网址。

3禁止robots.txt中的URL参数

这将阻止Google将这些URL的内容编入索引，但不会索引实际的URL本身（它们仍可以显示在搜索结果中，但仅会省略以下说明）。

只需添加类似以下内容的内容即可从robots.txt：- 处理此问题

Disallow: /*?utm=*

结论

出于预防和“最佳实践”的考虑，应该以任何方式执行步骤＃1和＃2，并且除了步骤＃1和＃2之外，还应该执行步骤＃3（因为它本身不会有效）。

在Google Search Console中，还可以（临时）删除网址。如果仍有一些顽固的页面仍在编制索引，但您知道问题的根源已解决，并且此功能应足以从搜索结果中一劳永逸地删除它们，则此功能特别有用。

我没有将其作为上述步骤，因为尽管之前已经进行了研究，但我不记得它是否将支持带有参数[需要引用]的URL。我曾经知道答案，但在这种特殊情况下，我的记忆使我失望。

有关从Google删除URL的更多信息。

— Zigojacko
source

1

但是，如果您使用（＃3）阻止这些URL进行爬网，robots.txt那么您是否也阻止了这些广告系列的跟踪？...并且还阻止读取页内规范标签（＃1）？

— 怀特先生（MrWhite）2013年

我同意w3dk关于robots.txt的说法。如果noindex: /*?utm=*在robots.txt中使用任何内容。

— Stephen Ostermiller

2

看来您是在网站内容内使用这些链接将页面链接在一起。

为确保Google不会编制索引，您可以rel="nofollow"在网站内添加以下链接，并从robots.txt文件中阻止以下参数：

Disallow : /*utm_campaign

— 纳迪姆·哈达登（Nadeem Haddadeen）
source

很好的捕获，它们用于内部链接。这将解释与大多数网站通常仅用于入站链接的区别。

— Stephen Ostermiller

实际上utm_campaign URL是由Buffer.com添加的-例如，它们看起来像“ utm_source = plus.google.com＆utm_campaign = buffer”。我认为我不在网站上的任何位置使用这些链接。

— 布伦登

1

您是否检查过您的规范URL已被索引？如果已对规范的URL进行了索引，则无需担心。

您可以在此处尝试使用Google的网站站长工具并更改Google处理URL参数的方式。

— 穆罕默德·乌斯曼
source

1

对于某些URL，仅utm_campaign URL被索引。对于其他页面，两个URL都显示在索引中。昨天，我使用了Google抓取方式工具来抓取一个网址（带有utm_campaign查询字符串）-该网址现在似乎已消失，并且已为规范的网址建立了索引。

— 布伦登

此外，抓取统计信息（屏幕截图）似乎显示了需要较长时间抓取的页面（平均2.3秒）。我不确定这是否是一个普遍存在的问题，但也许Google在抓取该网站时遇到了一些问题。

— 布伦登

访问者登陆您的网站后，您还可以进行一些清理。从URL受益后，使用链接 Fresh URL脚本动态删除URL中的所有UTM参数。其次添加URL参数...

— muhammad usman

为什么Google用？utm_campaign查询字符串将页面编入索引

1.在页面上指定一个规范的URL

2.指示Google不要在Search Console中为UTM参数编制索引

3禁止robots.txt中的URL参数

结论