如何获得Google bot索引的数以千万计的页面?


12

我们目前正在开发一个网站,该网站目前拥有800万个唯一页面,该页面将立即增长到约2000万个,最终增长到约5000万个或更多。

在您批评之前... 是的,它提供了独特而有用的内容。我们不断处理来自公共记录的原始数据,并且通过进行一些数据清理,实体汇总和关系映射,我们能够生成高质量的内容,开发出一个非常有用且独特的网站,部分原因是数据。

它的PR是0(新域,没有链接),并且我们每天以大约500页的速度在爬行,到目前为止,我们的索引页数约为30,000。以这种速度,索引我们的所有数据将花费400多年。

我有两个问题:

  1. 索引的比率是否与PR直接相关,我的意思是它是否足够相关,以至于通过购买具有良好PR的旧域将使我们达到可行的索引比率(每天约100,000页)。
  2. 是否有任何SEO顾问专门研究索引过程本身。否则,我们在SEO方面的表现尤其出色,尤其是在页面上,此外,“长尾”关键字词组的竞争非常低,因此我们的成功主要取决于被索引的页面数。

我们的主要竞争对手在短短一年的时间内就完成了约20毫米的索引页面,并获得了Alexa 2000的排名。

我们拥有值得注意的品质:

  • 页面下载速度还不错(250-500毫秒)
  • 没有错误(抓取时没有404或500错误)
  • 我们使用Google网站管理员工具并每天登录
  • 友善的网址
  • 恐怕要提交站点地图。一些SEO社区发布的帖子暗示一个新网站的页面数百万,没有PR可疑。Google上有一个Matt MattsGoogle录像带,录像带也介绍了大型网站的分期启动过程,以避免进行更多的审查(在录像带中大约为2:30)。

  • 可点击的站点链接可交付所有页面,深度不超过四页,并且通常一个页面上的内部链接不超过250(-ish)。
  • 内部链接的锚文本是合乎逻辑的,并且会在详细信息页面上按层次结构向数据添加相关性。
  • 以前,我们已将网站管理员工具上的抓取速度设置为最高(最大每两秒钟仅一页)。我最近将其改回了“建议Google决定”的建议。


6
我真的很想看到5000万个页面提供独特的有用内容。Wikipedia与您的网站相比,缺乏知识,今天只有350万页。
zh.wikipedia.org/wiki/File:EnwikipediaArt.PNG

3
:)纵观讽刺……并不是页面的数量使Wikipedia成为了巨大的知识来源-显然,是的-更有用。我们的网站在数据库中为一个人的每条记录生成一个页面,并为公司的每条记录生成一个页面。我们使用数据分析和清理来动态生成业务伙伴之间的关系,以图形方式描绘相关人员和公司的业务网络。页数是我们拥有的数据量的函数。通过搜索使其可发现,这对所有人都更加有用。感谢您的评论。
克里斯·阿德拉尼亚

1
通过获取更多的链接获得更多的页面排名。从具有pagerank的页面链接到您的页面。
亚历克斯·布莱克

Answers:


20

一些潜在的策略:

  • Google网站管理员工具可让您请求提高的抓取速度。如果尚未尝试这样做。
  • 再看看您的导航架构,看是否无法改善对更多内容的访问。从用户的角度看待它:如果用户很难找到特定的信息,那么搜索引擎也可能会很难。
  • 确保您没有重复的内容,因为URL参数不一致或斜杠使用不当。通过消除重复的内容,您可以减少Googlebot用来抓取已经建立索引的内容的时间。
  • 尽可能使用相关的内容链接和内容中的站点内链接。
  • 随机化一些链接。内部内容随机的边栏是一个很好的使用模式。
  • 使用日期和其他微格式
  • 尽可能使用RSS feed。RSS Feed的功能与站点地图大致相同(实际上,网站站长工具允许您将Feed提交为站点地图)。
  • 关于站点地图,请参阅此问题
  • 寻找获取内容外部链接的方法。这可能会加速它被索引的过程。如果适合于内容类型,则使其易于社交或通过电子邮件共享将对此有所帮助。
  • 提供一个API,以鼓励您使用数据和数据的外部链接。您可以具有一个归因链接,作为数据使用的要求。
  • 拥抱社区。如果您以正确的方式与合适的人联系,您将通过博客和Twitter获得外部链接。
  • 寻找围绕数据创建社区的方法。寻找一种使其变得社交化的方法。API,混搭,社交小部件都可以提供帮助,但博客,社区展示,论坛和游戏机制也有帮助(另请参见此视频)。
  • 优先确定已编入索引的内容。有了这么多数据,并不是所有数据都绝对至关重要。针对最重要的内容做出战略决策,例如,它将最流行,具有最大投资回报率,将是最有用的等等,并确保首先对内容进行索引。
  • 对竞争对手正在做哪些工作以对其内容建立索引进行详细分析。查看他们的网站架构,导航,外部链接等。

最后,我应该这样说。SEO和索引编制只是经营业务站点的一小部分。不要为了搜索引擎优化而对投资回报率失去关注。即使您有来自Google的大量流量,也可以转换它。SEO很重要,但需要保持透视。

编辑

作为用例的附录:您可以考虑为每个人或每个企业提供评论或推荐。另外,发出用户徽章(如StackOverflow)确实可以吸引至少某些人链接到您网站上自己的个人资料。这将鼓励一些外部链接到您的深层页面,这可能意味着更快地建立索引。


1
+1-经常提及SEO是推广业务这一更大问题的缩影;这也是最容易迷失(至少对有技术专心的人来说)。现在看电视的人比历史上任何时候都多-根据您提供的内容,电视广告可能会更好ROI高于PPC ...
danlefree 2010年

微格式的好主意。这不是灵丹妙药,但是在很多地方,使用微格式标准的语义标记可能会有所帮助。
克里斯·阿德拉尼亚

1
我不知道是否有任何微格式(可能是时间戳记除外)都意味着索引编制得更快,但是使用它们可能还有其他SEO好处。至少,它使您的页面更易于爬网,并有助于使您的条目在搜索引擎结果页面上脱颖而出(取决于微格式)。
Virtuosi Media

5

如何获得Google bot索引的数以千万计的页面?

这不会在一夜之间发生,但是,我保证,如果从类似大型网站添加指向深层内容的入站链接(特别是指向深层内容的站点地图页面或目录索引),则您会更快看到更多页面已经有一段时间了。

一个较旧的域是否足以每天为100,000个页面建立索引?

令人怀疑的是,除非您所谈论的是一个较旧的域,多年来,该域上有大量活动(即,累积的内容和入站链接)。

是否有任何SEO顾问专门研究索引过程本身。

当您以这种方式提出问题时,我相信您会发现很多SEO都大声宣称“是!”。但是,归根结底,Virtuosi Media的建议就像从任何一个建议中得到的一样都是很好的建议(更不用说潜在的坏建议了)。

从它的声音来看,您现在应该考虑利用业务发展和公共关系渠道来建立您网站的排名-获得更多指向您内容的链接(最好是与现有的网站合作,该网站提供按区域定位的内容以链接到您的网站)例如,按区域划分的内容),可以吸引更多的人浏览您的网站(有些人会安装Google工具栏,以便他们的访问量可能有助于页面发现),并在可能的情况下,在新闻或社区中谈论您的公司有需要的人(如果您打算为某些服务收费,请考虑宣传免费试用期以引起兴趣)。


3

我知道有两种可能的方法可以帮助您。

一个:我在一个网站上尝试了一个小窍门,该网站有300万个页面,效果令人惊讶地很好,这是我的同事创造了一个爬网循环。您可能需要稍作修改以使其适合您的网站。

基本上,我们设置了一天,我们认为自己不会收到太多的流量(圣诞节),并且从字面上复制了网站上每个链接的列表,并将每个链接粘贴到了在每个网页上调用的php文件中。(侧边栏php文件)

然后,我们强迫进入Google搜索控制台(以前称为Google网站管理员工具),并告诉Google提取一个网址并抓取该网址页面上的每个链接。

由于您有许多链接,并且这些链接所指向的页面也具有大量链接,因此Google陷入了一个循环,以一种更快的方式抓取了该网站。一开始我很怀疑,但它像一个魅力。

在执行此操作之前,必须确保您具有非常高效的数据库设置和非常强大的服务器,否则由于页面加载时间缓慢,可能会导致服务器超载或损害SEO。

如果那不是您的选择,则可以随时查看Google的云控制台API。他们有一个Search Console API,因此您可以编写脚本以将每个网页添加为Search Console中自己的网站实例,或者让Google抓取您的每个网址。

这些api可能很快变得非常复杂,但是正确使用时是一个了不起的工具。

祝好运!


1
将页面链接在一起是使它们全部爬网的好策略。比尝试依赖XML网站地图要好得多。但是,我会一直将这些链接保留在原处,而不是在圣诞节那天。删除链接后,Google会立即注意到页面上丢失的链接并停止为其编制索引。
Stephen Ostermiller

2

如果您经营一家重视在线声誉的合法公司,那么对系统进行游戏永远不是一个好主意。另外,如果您的网站真正提供了价值,那么它存在的时间越长(我假设您正在进行某种形式的营销?),它将产生更多的反向链接,因此您的PR将会提高,爬网率也会上升。

另外,如果您的网站上具有良好的链接结构(所有页面都可以通过合理的点击次数/链接数找到),则只需通过站点地图提交主要索引。这些页面一旦被Google索引,便会被Google抓取,而Google会自行索引其余页面。


+1 RE:对系统进行游戏-尽管我认为应该指出,对系统进行游戏有很多替代方法,这些方法使网站管理员可以生成到其站点的合法反向链接(对访问者有用)。
danlefree 2010年

@danlefree:绝对可以。我只是指购买过期的域名以获取其剩余的PR /流量。但是,如果您可以为您的网站做广告,发布新闻稿以交易出版物,应用程序审查站点等,那么这些都是生成合法反向链接的好方法。
–Lèsemajesté10年

2

我注意到Google网站站长工具的一件事是,它们以允许每秒大约两个请求的最大爬网速度开始。然后大约一个星期左右,如果他们发现该网站经常被访问,那么他们将允许您增加限制。

我与他人共同经营一个网站,该网站托管着超过500,000张原始图片,有时,我的最大限制是每秒10个请求,因为如果我每天点击至少700到1000,则我的点击次数最多。

因此,您可能想每周检查一次网站站长工具,以查看是否可以提高抓取限制。当您更改抓取限制时,Google会在一天过后将其重置回其首选设置(界面将向您显示)。然后在那一天,再次提高限制。


2

我曾经有过这种网站的经验。多年前,我运行了一个文章目录,索引的页面百分比(实际上更重要的是实际执行的百分比)与引荐域的数量直接相关,例如,所链接的唯一网站的数量。一个拥有数百万个页面的大型网站需要几千个合理链接的域,以独立执行。

它肯定不会在一夜之间发生,但是您每天都会建立5-10条良好的链接,这样它就会开始发生,然后您便可以赚取收入,并用这笔钱来支付专业SEO费用以建立链接为了你。

目前,我正在建立一个类似的信息丰富的网站,但它存在同样的问题,涉及约400万页的内容,每天的爬网速度为700-1,000页。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.