我有几个网站,我不记得我在哪里写了一些代码行。当我的页面被Google索引时,我想知道Google是否提供了一种在HTML源代码/标记本身中进行搜索的功能,而不仅仅是允许在页面的可视化,呈现部分中进行搜索?
谢谢
我有几个网站,我不记得我在哪里写了一些代码行。当我的页面被Google索引时,我想知道Google是否提供了一种在HTML源代码/标记本身中进行搜索的功能,而不仅仅是允许在页面的可视化,呈现部分中进行搜索?
谢谢
Answers:
有一个名为NerdyData的新搜索引擎,可让您搜索HTML / CSS / JS源代码
他们索引了1.6亿多个公共领域,我发现这些数据很有用。
我在旅行中遇到了以下资源(上面已经提到了一些资源):
以HTML标记为重点的搜索引擎
我还想提出以下内容:
庞大的网站抓取数据档案
我们如何分析此爬网数据?
有关如何开始分析其中一些海量数据的想法,请看一下Big Data / Map-reduce-type框架。
Google列出了有关使用Apache的Spark项目分析Common Crawl的转储的一些想法。要了解Common Crawl使用的文件格式,请参阅以下内容:
文章“在S3上访问通用爬网数据集”概述了以低成本方式访问Common Crawl的250TB +转储而不将数据负载转移到Amazon的AWS / S3网络之外的情况。当然,前提是假定你是要使用一些组合AWS / EC2 / S3等来分析抓取数据。
最后,帕特里克·杜鲁索(Patrick Durusau)维护了一些有趣的与通用爬虫用法相关的博客页面。
就个人而言,我觉得这个主题很有趣,我建议我们趁热获取爬网数据!;-)
您可以尝试PublicWWW在源代码/标记中进行搜索。它允许在167+百万个网站上的网页源代码中找到任何HTML,JavaScript,CSS和纯文本。
使用PublicWWW,您可以:
通过它们共享的独特HTML代码查找相关网站,即小部件和发布者ID。
使用某些图像或徽章识别站点。
当然,您不仅可以找到使用某些代码/标记片段的网站。
Google无法从站点上搜索您的代码。可以使用http://nerdydata.com/。这是我使用的最好的代码搜索引擎!我想您会从此站点获得准确的代码。