HTTP响应卷曲并获得不同的结果


4

为了检查HTTP响应标头中的一组URL,我使用curl发送了以下请求标头

foreach ( $urls as $url )
{
    // Setup headers - I used the same headers from Firefox version 2.0.0.6
    $header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
    $header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
    $header[ ] = "Cache-Control: max-age=0";
    $header[ ] = "Connection: keep-alive";
    $header[ ] = "Keep-Alive: 300";
    $header[ ] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $header[ ] = "Accept-Language: en-us,en;q=0.5";
    $header[ ] = "Pragma: "; // browsers keep this blank.

    curl_setopt( $ch, CURLOPT_URL, $url );
    curl_setopt( $ch, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)');
    curl_setopt( $ch, CURLOPT_HTTPHEADER, $header);
    curl_setopt( $ch, CURLOPT_REFERER, 'http://www.google.com');
    curl_setopt( $ch, CURLOPT_HEADER, true );
    curl_setopt( $ch, CURLOPT_NOBODY, true );
    curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
    curl_setopt( $ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY );
    curl_setopt( $ch, CURLOPT_TIMEOUT, 10 ); //timeout 10 seconds
}

有时我收到200 OK,这在其他时候也不错,在我认为还不错的301、302、307上,但是在其他时候,我收到的奇怪状态是406、500、504,它们应该标识无效的网址,但是当我在浏览器中打开它们时没事

例如脚本返回

http://www.awe.co.uk/ => HTTP/1.1 406 Not Acceptable

和wget返回

wget http://www.awe.co.uk/
--2011-06-23 15:26:26--  http://www.awe.co.uk/
Resolving www.awe.co.uk... 77.73.123.140
Connecting to www.awe.co.uk|77.73.123.140|:80... connected.
HTTP request sent, awaiting response... 200 OK

有人知道我缺少哪个请求标头或添加了过多的请求标头吗?

Answers:


5

您的请求中包含无效的HTTP标头:

$header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

在第一行中,列表以,-即空的内容类型- 结尾,这是导致406 不可接受的错误的原因。第二行甚至不是HTTP标头。

如果您正在查看带有数据包嗅探器的Firefox HTTP对话,则可能会看到以下内容:

Accept: text/xml,application/xml,application/xhtml+xml,
    text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5

由于第二行以空格开头,因此服务器将它们视为单个标头。还必须将它们作为一个标头传递以进行卷曲:

$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

您可以使用http://echo.opera.com比较发送的请求。


1

您没有Host:header[]数组中提供标题。在对内容服务器的HTTP 1.1请求中,Host:标头是必需的。非4xx响应是您碰巧遇到涉及此协议错误的某人的内容HTTP服务器的地方。


由于标头是强制性的,curl会自动包含它(如果不是,则响应为400 Bad request)。
grawity 2011年

1
在实践中不正确。如果没有提供一个,它有时只会发明一个,这取决于传递给其他选项和to的内容curl_init(),而我们没有被告知。而且,从问题中的数据可以明显看出,即使在实践中从未遇到过,并非所有人都能获得针对错误协议的错误响应。
JdeBP 2011年

0

以我的拙见,您的脚本看起来不错,并且由于有时您会获得正确的结果,因此它应该可以正常工作。

您是的所有者http://www.awe.co.uk/吗?
也许正在运行一个脚本,该脚本根据某些环境决定要做什么。例如,在您的脚本中,您以用户代理“ googlebot”的身份访问此站点,而您的wget用户代理将为“ wget”。网络服务器上的脚本可能会检查它是否是Google,并提供一些与您的浏览器可能看到的完全不同的内容。Web服务器可以相同的方式发送不同的返回码。
要测试此问题,您可能需要减少脚本或扩展wget命令以发送相同的请求并比较结果。

我可以想象的另一件事:您多久运行一次脚本?也许Web服务器注意到您脚本的巨大流量,如果您夸大其词,则会发送406(或其他内容);-)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.