Answers:
为了防止您的PDF文件(或任何非HTML文件)在搜索结果中列出,唯一的方法是使用HTTP X-Robots-Tag
响应标头,例如:
X-Robots-Tag: noindex
您可以通过将以下代码段添加到站点的根.htaccess文件或httpd.conf文件中来实现此目的:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
请注意,要使以上功能起作用,您必须能够修改所涉及文件的HTTP标头。因此,例如在GitHub Pages上,您可能无法执行此操作。
还要注意的是robots.txt的并没有阻止你的页面在搜索结果中被列。
它的作用是阻止bot爬网您的页面,但是如果第三方从其网站链接到您的PDF文件,您的页面仍将列出。
如果您阻止漫游器使用robots.txt抓取页面,则它将没有机会看到X-Robots-Tag: noindex
响应标签。因此,如果您使用标头,则永远不要禁止robots.txt中的页面X-Robots-Tag
。可以在Google Developers:Robots Meta Tag上找到更多信息。
有多种方法可以做到这一点(将它们组合起来显然是实现此目的的肯定方法):
1)使用robots.txt阻止来自搜索引擎搜寻器的文件:
User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf # Block pdf files. Non-standard but works for major search engines.
2)rel="nofollow"
在指向这些PDF的链接上使用
<a href="something.pdf" rel="nofollow">Download PDF</a>
3)使用x-robots-tag: noindex
HTTP标头来防止搜寻器将它们编入索引。将此代码放在您的.htaccess文件中:
<FilesMatch "\.pdf$">
header set x-robots-tag: noindex
</FilesMatch>
x-robots-tag
和robots.txt
同时使用不是一个好主意,并且可能仍然导致对内容建立索引。如果同时使用robots.txt
和x-robots-tag: noindex
,则搜寻器将永远不会搜寻或看到,x-robots-tag
因为它会优先使用robots.txt
。robots.txt
不会阻止对资源进行索引,而只能对爬网进行索引,因此最好的解决方案是使用x-robots-tag
标头,但允许搜索引擎通过不打扰自己robots.txt
来查找并找到该标头。
您可以使用robots.txt文件。您可以在这里阅读更多内容。
您可以使用robots.txt文件。支持该文件的搜索引擎不会为PDF编制索引。只需使用命令禁止对文件建立索引,并指定您不希望搜索引擎建立索引的文件夹或PDF文件。