首先,我将向所有专业网站管理员致以诚挚的歉意,但是对于此OP,我有一个金色的建议:
违反搜索引擎准则
我的意思是要做到这一点,重要的内容是使用复杂的javascript,而机器人可以抓取的内容却不是使用正确的HTML。这包括不正确的描述标签,不正确的标题标签等。哎呀,可能将整个内容变成仅用Flash制作的视频,或者将整个内容仅显示为一张图像。那确实会使搜索引擎爬虫畏缩。
我将通过示例显示代码:
这是获取索引内容的一种方法:
<!DOCTYPE html>
<html>
<head>
<title>Web page</title>
<meta name="description" content="This is a wonderful web page">
</head>
<body>
<h1>A wonderful web page</h1>
<h2>By John Smith</h2>
<p>This is a wonderful page. ya de ya de ya de ya de ya de ya de</p>
<p>This is wonderful. ya de ya de ya de ya de ya de ya de</p>
</body>
</html>
好的,我承认,文字并不完美,但您理解我的意思。
现在,如果您想对爬虫隐藏它并以简单的方式进行操作,则可以尝试以下操作:
<!DOCTYPE html>
<html>
<head>
<title>Private</title>
</head>
<body>
<img src="mywebsite.jpg" width=1024 height=768>
</body>
</html>
然后制作一个名为mywebsite.jpg的图像,并包含其中的所有文本,而不是上面显示的html。然后,您需要通过向未经授权的用户查看真实内容的用户制作水印版本来保护mywebsite.jpg。只需将用户代理字符串或IP地址与您允许/禁止使用的图像进行比较。可以使用一些重写规则在.htaccess中完成此类操作。
例如,要强制googlebot查看带有水印的图像而不是真实图像,请使用以下规则:
RewriteCond %{HTTP_USER_AGENT} ^googlebot$ [NC]
RewriteRule ^mywebsite.jpg$ specialrobotimage.jpg [L]
我在这里假设mywebsite.jpg是作为图像的您的真实网站,而specialrobotimage.jpg是作为水印或作为消息的图像,说明仅允许真实用户查看此信息。此外,规则假定所有内容都在同一文件夹中。