使用GOOGLE搜索HTML源代码？

68

我有几个网站，我不记得我在哪里写了一些代码行。当我的页面被Google索引时，我想知道Google是否提供了一种在HTML源代码/标记本身中进行搜索的功能，而不仅仅是允许在页面的可视化，呈现部分中进行搜索？

谢谢

— 恩宠化
source

代码是在客户端还是在服务器上？

— mjimcua

nerdydata.com

— d -_- b

40

有一个名为NerdyData的新搜索引擎，可让您搜索HTML / CSS / JS源代码

他们索引了1.6亿多个公共领域，我发现这些数据很有用。

— 诺亚·弗雷塔斯（Noah Freitas）
source

1

就我而言，网站引擎正在从特定域泄漏私有URL （我确信它不是来自用户）。如何在单个域的源中进行搜索？（以便找到泄漏的来源）

— user2284570 2015年

6

由于OP要求使用Google语法工具来搜索HTML，因此我假设他们正在寻找免费的工具。NerdyData现在不是或现在不再。

— jj_

2

@jj_，感谢您指出。当我在2013

— Noah Freitas

33

我在旅行中遇到了以下资源（上面已经提到了一些资源）：

以HTML标记为重点的搜索引擎

Nerdydata

我还想提出以下内容：

庞大的网站抓取数据档案

Common Crawl-“多年免费的网页数据可帮助改变世界”（超过250TB以上）

我们如何分析此爬网数据？

有关如何开始分析其中一些海量数据的想法，请看一下Big Data / Map-reduce-type框架。

Google列出了有关使用Apache的Spark项目分析Common Crawl的转储的一些想法。要了解Common Crawl使用的文件格式，请参阅以下内容：

文章“在S3上访问通用爬网数据集”概述了以低成本方式访问Common Crawl的250TB +转储而不将数据负载转移到Amazon的AWS / S3网络之外的情况。当然，前提是假定你是要使用一些组合AWS / EC2 / S3等来分析抓取数据。

最后，帕特里克·杜鲁索（Patrick Durusau）维护了一些有趣的与通用爬虫用法相关的博客页面。

就个人而言，我觉得这个主题很有趣，我建议我们趁热获取爬网数据！;-)

— 大富翁
source

就我而言，网站引擎正在从特定域泄漏私有URL （我确信它不是来自用户）。如何在单个域的源中进行搜索？（以便找到泄漏的来源）

— user2284570 2015年

假设您可以访问类似Unix的Bash控制台（在Windows上尝试“ Git Bash”，unxutils或cygwin），则可以使用基于wget / curl / xidel / grep / awk各种组合的多种解决方案。这篇SO帖子包含各种解决方案，这是我使用的Google搜索。

— 大富翁

基本上，您将希望遍历域中的重要URL，以查找/存储哪些页面在“泄漏”。

— 大富翁2015年

该站点的大小为数PB，其中包含数十亿英镑。几乎所有页面都不是静态的。您有比自己爬网更好的解决方案吗？

— user2284570 2015年

听起来您可能需要在高并发环境中运行爬网。诸如Scala / Java的Akka之类的集群参与者模式应该做到这一点，或者看看类似集群的map-reduce模式（将URL收集/标识工作反馈给Spark或Hadoop上的子单元）。我在pastebin中包含了一些相关的资源URL。找出您的前进方向会很有趣，请告诉我们。

— 大富翁

10

您可以尝试PublicWWW在源代码/标记中进行搜索。它允许在167+百万个网站上的网页源代码中找到任何HTML，JavaScript，CSS和纯文本。

使用PublicWWW，您可以：

通过它们共享的独特HTML代码查找相关网站，即小部件和发布者ID。
使用某些图像或徽章识别站点。
找出还有谁在使用您的主题。
确定提及您的网站。
查找您竞争对手的会员。
确定您的竞争对手亲自合作或互动的网站。
使用库或平台的参考。
在网上找到代码示例。
找出谁在他们的网站上使用哪些JS小部件。
...

当然，您不仅可以找到使用某些代码/标记片段的网站。

— 詹姆斯·安德烈坚科
source

3

值得注意的是，只有排名前100万的网站是免费显示的。注册后显示前三百万的结果。其余的都付了。另外，显示的结果仅显示域，而不显示完整的URL。

— glebm

2

Google无法从站点上搜索您的代码。可以使用http://nerdydata.com/。这是我使用的最好的代码搜索引擎！我想您会从此站点获得准确的代码。

— 利蒙·佩尔维兹（Limon Pervez）
source