0 有一个运行HTTP服务的主机和端口(具有TCP支持)。简单 wget host:port 不返回任何东西。是否可以获取该主机(和给定端口)上所有可以查看的可访问文件(html或txt)的列表? 也许有一些像 wget host:port/*.[html|txt] 或者其他的东西 http ports — 谢尔盖 source
3 这个命令…… $ wget --spider DOWNLOAD-URL 将检查是否DOWNLOAD-URL可以下载。 您可以在以下链接上找到更多选项wget:Ultimate wget guide。另请查看手册,以获取wget更多有趣的选择。 — P3nT3ster source +1表示链接,但问题在于扫描树中是否有可以下载的所有公共文件-确切的URI未知 — Sergey 2012年 如果没有索引,并且您在主机上没有列表权限,则将不可能。否则,您需要链接的指南中的第10节(镜像模式)。 — EKW 2012年
1 尝试与site:运营商一起使用Google搜索。 示例:我想找出托管在的URL nlp.stanford.edu:8080。解决方案:我转到Google搜索并输入搜索词site:nlp.stanford.edu:8080。然后,我使用wget从搜索结果中找到的所有URL开始抓取。 — DW source