如何强制wget忽略某些重定向


0

我正在尝试获取URL(图像)的列表,其中一些不再存在,并且主机重定向到通用的“此图像不存在”页面,我知道其中的URL。我想获取文件,除非它是该域的302。

如果有任何带有--max-redirect=0标志的重定向,我可以停止获取文件,但是如果碰到镜子,这可能会停止获取真实图像


1
您能否阐明与https或htaccess有什么关系?
Shane Madden

@ShaneMadden哦,抱歉,标题似乎来自旧的一半编辑过的帖子,但出现了错误,我将对其进行更改
2015年

嗯好 不幸的是,我找不到一种方法(--exclude-domains显然是不起作用的302)-所有图像都来自特定主机,是否可能发生镜像重定向问题?
Shane Madden

@ShaneMadden来自flickr,它会将任何不存在的链接重定向到此特定的“找不到图像”图像
2015年

Answers:


0

我可以想象的唯一(非常hacky)的方法是在前面实现一个HTTP代理wget,该代理可以使用错误代码覆盖“找不到图片”,这样您就无需下载它。

任何可配置的代理都应该能够获得这种行为-例如,使用Apache,您可以执行以下操作:

ProxyRequests On
<Proxy http://example.com/path/to/image-not-found.jpg>
    Order allow,deny
    Deny from all
</Proxy>
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.