使用GOOGLE搜索HTML源代码?


68

我有几个网站,我不记得我在哪里写了一些代码行。当我的页面被Google索引时,我想知道Google是否提供了一种在HTML源代码/标记本身进行搜索的功能,不仅仅是允许在页面的可视化,呈现部分中进行搜索?

谢谢


代码是在客户端还是在服务器上?
mjimcua

Answers:


40

有一个名为NerdyData的新搜索引擎,可让您搜索HTML / CSS / JS源代码

他们索引了1.6亿多个公共领域,我发现这些数据很有用。


1
就我而言,网站引擎正在从特定域泄漏私有URL (我确信它不是来自用户)。如何在单个域的源中进行搜索?(以便找到泄漏的来源)
user2284570 2015年

6
由于OP要求使用Google语法工具来搜索HTML,因此我假设他们正在寻找免费的工具。NerdyData现在不是或现在不再。
jj_

2
@jj_,感谢您指出。当我在2013
Noah Freitas

33

我在旅行中遇到了以下资源(上面已经提到了一些资源):

以HTML标记为重点的搜索引擎

我还想提出以下内容:

庞大的网站抓取数据档案

我们如何分析此爬网数据?

有关如何开始分析其中一些海量数据的想法,请看一下Big Data / Map-reduce-type框架

Google列出了有关使用Apache的Spark项目分析Common Crawl的转储的一些想法。要了解Common Crawl使用的文件格式,请参阅以下内容:

文章“在S3上访问通用爬网数据集”概述了以低成本方式访问Common Crawl的250TB +转储而不将数据负载转移到Amazon的AWS / S3网络之外的情况。当然,前提是假定你要使用一些组合AWS / EC2 / S3等来分析抓取数据。

最后,帕特里克·杜鲁索Patrick Durusau)维护了一些有趣的与通用爬虫用法相关的博客页面

就个人而言,我觉得这个主题很有趣,我建议我们趁热获取爬网数据!;-)


就我而言,网站引擎正在从特定域泄漏私有URL (我确信它不是来自用户)。如何在单个域的源中进行搜索?(以便找到泄漏的来源)
user2284570 2015年

假设您可以访问类似Unix的Bash控制台(在Windows上尝试“ Git Bash”,unxutils或cygwin),则可以使用基于wget / curl / xidel / grep / awk各种组合的多种解决方案。这篇SO帖子包含各种解决方案,这是我使用的Google搜索
大富翁

基本上,您将希望遍历域中的重要URL,以查找/存储哪些页面在“泄漏”。
大富翁2015年

该站点的大小为数PB,其中包含数十亿英镑。几乎所有页面都不是静态的。您有比自己爬网更好的解决方案吗?
user2284570 2015年

听起来您可能需要在高并发环境中运行爬网。诸如Scala / Java的Akka之类的集群参与者模式应该做到这一点,或者看看类似集群的map-reduce模式(将URL收集/标识工作反馈SparkHadoop上的子单元)。我在pastebin中包含了一些相关的资源URL。找出您的前进方向会很有趣,请告诉我们。
大富翁

10

您可以尝试PublicWWW在源代码/标记中进行搜索。它允许在167+百万个网站上的网页源代码中找到任何HTML,JavaScript,CSS和纯文本。

使用PublicWWW,您可以:

  • 通过它们共享的独特HTML代码查找相关网站,即小部件和发布者ID。

  • 使用某些图像或徽章识别站点。

  • 找出还有谁在使用您的主题。
  • 确定提及您的网站。
  • 查找您竞争对手的会员。
  • 确定您的竞争对手亲自合作或互动的网站。
  • 使用库或平台的参考。
  • 在网上找到代码示例。
  • 找出谁在他们的网站上使用哪些JS小部件。
  • ...

当然,您不仅可以找到使用某些代码/标记片段的网站。


3
值得注意的是,只有排名前100万的网站是免费显示的。注册后显示前三百万的结果。其余的都付了。另外,显示的结果仅显示域,而不显示完整的URL。
glebm

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.