Questions tagged «google-search»

谷歌的搜索引擎

19
网站地图悖论
我们在Stack Overflow上使用了站点地图,但对此我有不同的感觉。 Web爬网程序通常从站点内的链接和其他站点发现页面。Sitemap补充了此数据,以使支持Sitemap的搜寻器可以拾取Sitemap中的所有URL,并使用关联的元数据来了解这些URL。使用Sitemaps 协议并不能保证搜索引擎中会包含网页,但是会为Web爬网程序提供提示,以更好地抓取您的网站。 根据我们两年的站点地图经验,该站点地图在本质上有些悖论: Sitemaps适用于难以正确爬网的网站。 如果Google无法成功抓取您的网站来找到链接,但能够在站点地图中找到它,则它不会赋予站点地图链接任何权重,也不会为它建立索引! 这就是站点地图悖论- 如果您的站点未得到适当的爬网(无论出于何种原因),那么使用站点地图将无济于事! Google竭尽全力不提供任何站点地图保证: “我们不能对何时或是否您的网址将被抓取或添加到我们的索引预测或保证” 引文 “我们不保证将对您的所有URL进行爬网或建立索引。例如,我们不会对您的站点地图中包含的图像URL进行爬网或建立索引。” 引文 “提交Sitemap并不能保证你的网站的所有网页将在搜索结果中被抓取或” 引文 鉴于在站点地图中找到的链接仅是建议,而在您自己的网站上找到的链接被认为是规范的...似乎唯一合乎逻辑的事情是避免拥有站点地图,并确保Google和任何其他搜索引擎可以正确访问使用其他所有人都能看到的普通旧标准网页来搜寻您的网站。 到时候你做的是,和越来越好的震垮,彻底使谷歌可以看到你自己的网站链接到这些网页,并愿意抓取的链接-呃,为什么我们需要一个网站地图,再?该站点地图可能会造成有害影响,因为它会使您无法确保搜索引擎蜘蛛能够成功抓取整个网站。“哦,抓取工具是否可以看到它都没关系,我们只需在站点地图中拍打那些链接!” 现实与我们的经验相反。 考虑到站点地图是针对链接或非常复杂的UI的站点而设计的,这似乎有点讽刺意味。根据我们的经验,该站点地图无济于事,因为如果Google在您的网站上找不到合适的链接,则无论如何它都不会从该站点地图建立索引。我们已经一次又一次地看到有关堆栈溢出问题的证明。 我错了吗?站点地图是否有意义,而我们却以某种方式不正确地使用了它们?

8
网站的跳出率是否会影响Google排名?
Google是否考虑跳出率或网站排名中的类似因素? 背景:在Stack Exchange上,我们注意到Google最新的算法更改导致到Server Fault的流量下降了大约20%(到Super User的流量下降了很多)。堆栈溢出流量不受影响。 在WebProNews上有一篇文章,假设跳出率可能是Google最新熊猫更新中的排名信号。 根据Google Analytics(分析),以下是我们上个月的跳出率: Site Bounce Rate Avg Time on Site ------------- ----------- ---------------- SuperUser 84.67% 01:16 ServerFault 83.76% 00:53 Stack Overflow 63.63% 04:12 现在,从技术上讲,Google无法知道跳出率。如果您访问Google,搜索一些内容,然后单击第一个结果,则Google无法分辨以下两者之间的区别: 关闭计算机的用户 转到完全不同的网站的用户 花费数小时在其登陆的网站上点击的用户 谷歌有什么不知道的是需要多长时间用户回来谷歌和做其他搜索。根据《The Plex》(第47页)中的书,Google区分了他们所谓的“短点击”和“长点击”: 一个短按一下是用户很快又回到谷歌和做其他搜索的搜索。Google将此解释为第一个搜索结果不令人满意的信号。 一个长按一个搜索中,用户不会很长一段时间重新搜索。 该书说Google会在内部使用此信息来判断自己算法的质量。它还说,有人重新输入搜索内容的细微变化的短点击数据会助长“您的意思是……?” 拼写检查算法。 因此,我的假设是Google最近决定使用长点击率作为高质量网站的信号。有人对此有任何证据吗?您是否看到过跳出率较高的网站却失去了流量(反之亦然)?


6
另一个网站正在镜像并且在搜索结果中位于我的网站之上
有一个名叫“肮脏”的不良网站,该网站已完全反映了我的网站,现在使用我的内容在Google网站上的链接出现在排名第一的位置。我检查了我的日志文件,发现该站点已经爬行了一段时间,并且从它们的站点到我的站点都有10,000个链接。 我已经阻止了从此站点引来的用户访问,并已将其作为网络垃圾报告给Google。我也拒绝了该域。 他们如何获得谷歌(甚至超越我的)这种邪恶策略的热门链接?完全消除此类问题的步骤是什么? 2014年8月28日更新: 我想我会提供最新信息,因为我现在有更多信息。因此,肮脏使他们的子域指向我的IP,这使他们的子域看起来像我的网站。 几天以来,这没什么大不了,因为使用htaccess,我将所有非我主机的HOSTS重定向回了我的域,这基本上意味着我正在Google上获得其子域的流量链接。几天后,dirty更改了其子域,使其指向其网站,这样我就不再从中受益。 因此,总的来说,他们利用我的内容在Google上获得了最高的排名,现在将这些链接指向他们的网站,以吸引更多访问量。 这是一个肮脏的网站的肮脏策略。我希望Google惩罚这种行为。


3
延迟加载图像和对SEO的影响
我们正在使用以下技术在我们的网站上延迟加载图像: 对于所有图像,我们在src属性中放置默认img的url(即加载程序),然后在data-src属性中放置实际的图像url 。像这样 <img src="loader.gif" data-src="img1.jpg" /> 当图像位于视口外部时,什么也不会发生,但是当图像进入视口内部时,将data-src加载来自属性的url,并且可以正确显示图像。 结果,谷歌认为页面(即搜索结果页面)中的所有图像都具有相同的src属性。因为Google bot当然会只解析带有默认值的'unloaded'img标签src。 我的问题是:具有相同src属性的许多img标签是否会影响页面的SEO?

4
结构良好的网址与针对SEO优化的网址
让我们以电影网站为例。因此,此网站的一组结构良好的URL可以是: 电影页面- example.com/movies/the-matrix 电影评论- example.com/movies/the-matrix/reviews 电影预告片- example.com/movies/the-matrix/trailers 电影专用预告片- example.com/movies/the-matrix/trailers/trailer1 甚至可以通过无缝地直接删除/添加资源名称来导航资源。 出于SEO的目的,我在某处阅读了两个给定的页面,Google将更喜欢在URL层次结构中具有搜索查询功能的页面。因此,对于给定的2个URL和查询“矩阵预告片” example.com/movies/the-matrix/trailers example.org/trailers/the-matrix/ ` Google可能更喜欢第二个URL,因为与第一个URL在第三个级别具有“ trailer”相比,它在第一个级别上具有关键字“ trailer”(URL层次结构中较深的资源可能不那么重要)。 如果是正确的话,可能会想创建URL层次结构,就像 电影页面- example.com/movies/the-matrix 电影评论- example.com/reviews/the-matrix/ 电影预告片- example.com/trailers/the-matrix/ 电影专用预告片- example.com/trailers/the-matrix/trailer1 这将打破无缝的层次结构。 我的问题是: 确实,与其他站点的URL相比,URL层次结构中更深的资源往往没有那么重要吗? 牺牲有意义的,无缝的层次结构值得此SEO优化吗?
23 seo  url  google-search 


2
为什么Google搜索结果中包含robots.txt中不允许的页面?
我的网站上有一些网页想要与搜索引擎保持距离,因此我在robots.txt文件中禁止这样的网页: User-Agent: * Disallow: /email 但是我最近注意到,Google有时仍会在搜索结果中返回指向这些页面的链接。为什么会发生这种情况,我该如何制止呢? 背景: 几年前,我为一个我的亲戚所涉及的俱乐部制作了一个简单的网站。他们想在其页面上添加电子邮件链接,因此,试图防止这些电子邮件地址以过多的形式出现垃圾邮件列表,不是使用直接mailto:链接,而是使这些链接指向在我自己的站点上运行的简单重定向器/ 地址收集器陷阱脚本。该脚本将返回到实际mailto:URL 的301重定向,或者,如果它检测到可疑的访问模式,则返回一个页面,该页面包含许多随机的虚假电子邮件地址以及指向更多此类页面的链接。为了使合法的搜索机器人远离陷阱,我设置了robots.txt上面显示的规则,不允许使用合法重定向程序链接和陷阱页面的全部空间。 然而,就在最近,该俱乐部中的一个人在Google上搜索了自己的名字,当第一页上的一个结果是指向重定向脚本的链接时,感到很惊讶,其标题由电子邮件地址组成以我的名字 当然,他们立即向我发送电子邮件,并想知道如何从Google的索引中删除其地址。我也很惊讶,因为我根本不知道Google会完全索引这样的URL,这似乎违反了我的robots.txt规则。 我确实向Google提交了删除请求,该请求似乎奏效了,但我想知道Google为什么和如何绕开我的robots.txt请求,以及如何确保不允许的页面不会显示在他们的网站上搜索结果。 附言 实际上,在准备此问题时,我实际上找到了可能的解释和解决方案,我将在下面发布该解释和解决方案,但是我认为无论如何,如果有人可能遇到相同的问题,我还是会提出来。请随时发布您自己的答案。我也想知道其他搜索引擎是否也这样做,以及相同的解决方案是否也适用于他们。

6
Google如何识别帖子的发布日期
当我在Google中搜索内容时,有时会在下面看到该帖子/文章的发布日期。我还搜索了自己的文章,这些文章在我的Wordpress支持的网站上都有,而Google也会识别其发布日期。 当我打开网站的源代码时,我看不到任何特殊标签或任何指示发布日期的内容。它仅在常规div中编写,没有特殊标记,不会告诉SE它是发布日期(页面周围也可以有其他日期的其他日期)。 那么,是将WordPress的发布日期在DOM树中的确切位置硬编码到Google中,还是我遗漏了什么? 我正在使用自己的CMS建立一个新网站,并且试图找出如何实现日期发布识别。

3
标题标签与Google中显示的标题不同吗?
我只是想知道IGN.com的标题标签中怎么可能这样: IGN上的视频游戏,秘籍,演练,游戏预告片,评论,新闻,预览和视频 而在Google上,其标题就是“ IGN”。 一个人怎么能做到这一点?它使用一些我看不到的特殊元标记吗?

4
网站被黑客入侵,需要从Google删除所有以+开头的网址,使用robots.txt吗?
您能否让我知道如何阻止此类网址,robots.txt以便Googlebots停止编制索引? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 我的网站已被黑客入侵,现已恢复,但黑客在Google中索引了5000个URL,现在我在随机生成的链接上收到错误404,尤其是从/+上述链接开始。 我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些网址? 我们可以将其阻止robots.txt到以+sign 开头的URL 吗?

2
关于我公司的Schema.org组织数据是否应该出现在每个页面上?
我们已将JSON-LD结构化数据添加到我们的网站,因此Google知道有关我们公司的信息(公司名称,URL,徽标,地址等)。我们使用了Google 文档中的模板。 我找不到答案的一件事是,该JSON-LD代码段应确切地包含在我们的网站中?现在,我只在我们的主页上显示它。我不知道搜索引擎在每个页面上都具有组织标记是否看起来不好。但是有什么建议吗? 应该在每页上还是仅在某些页面上包含关于我们公司的组织标记?

2
如何判断页面的年龄?
我认为Google在确定谁首先发布文本以及谁进行复制方面或多或少准确。但是,当我使用“搜索工具:自定义间隔”时,结果却很奇怪。我已经找到了一个网站,该页面可以追溯到2002年,而我已经拥有了几年时间。 因此,Google无法准确找出谁抄袭了谁以及谁撰写了原件。什么是? 如果stackexchange.com创建于2009年,那怎么可能?hermeneutics.se比堆栈溢出还旧!

4
Google意外将网站地址编入索引。现在我该怎么做?
我正在为我的一个朋友创建一个网站,他希望在我工作期间能够看到我的进度,因此我决定将该网站放在我计算机上的服务器上,并允许通过注册给我的域名进行访问。 原来,我忘记robots.txt了为该网站设置文件,而Google以某种方式索引了该网站。 我的问题是:我现在该怎么办? 据我了解,Google不喜欢重复的内容,当我将新网站上传到他的服务器时,我的朋友可能会遇到问题。 目前,他当前的网站(只有一个正在开发的页面)在搜索相关关键字时首先在Google上投放,我真的不想破坏它。 还有什么我需要关注的吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.