Questions tagged «wget»

GNU Wget是一个免费软件包,可使用HTTP,HTTPS和FTP(最广泛使用的Internet协议)检索文件。它是一种非交互式命令行工具,因此可以轻松地从脚本,Cron作业,不支持X Window System(X11)的终端等中调用它。


2
如何使用wget发送POST数据?
我想使用wget向我的服务器发出以下POST请求: email=abc@abc.com&file1=@FILE_HERE&file2=@FILE_HERE 在上述要求,有三个POST参数叫email,file1和file2其中email包含的用户电子邮件和file1,file2包含文件。 如何使用发送wget?我不想用curl。
10 linux  bash  http  wget 

1
使用wget镜像博客
我想反映一个博客,例如www.example.com,用wget。 我将wget与以下选项一起使用(shell变量已正确替换): wget -m -p -H -k -E -np \ -w 1 \ --random-wait \ --restrict-file-names=windows \ -P $folder \ -Q${quota}m \ -t 3 \ --referer=$url \ -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \ -e robots=off \ -D $domains -- $url 该博客包含驻留在其他域上的图像。 即使我指定了-p选项(下载链接的页面资产),也不会下载这些图像,除非我在-D选项中明确指定了每个域。 如果我省略该-D选项,则wget将跟踪外部的每个链接www.example.com并下载整个Internet。 是否可以wget仅跟踪每个链接下的内容www.example.com并下载每个页面所需的资产,而无论这些资产是否驻留在同一域中,而无需我明确指定每个域?
9 wget  mirroring 

2
如何从GitHub下载无法访问本地计算机上的“ git”的私有存储库?
我想做的是从GitHub下载私有存储库归档文件,将其解压缩,删除归档文件并复制下载项目内部的某些目录。 我尝试使用,wget但无法授权自己: wget --header='Authorization: token MY_TOKEN_CREATED_ON_GITHUB' https://github.com/MY_USER/MY_REPO/archive/master.tar.gz -O - | tar xz 我也尝试过cURL: curl -i -H 'Authorization: token MY_TOKEN_CREATED_ON_GITHUB' https://github.com/MY_USER/MY_REPO/archive/master.tar.gz > file.tar.gz | tar xz 授权通过了,但是我无法解压缩文件。 怎么做?

1
如何恢复wget过程?
我在运行wget下载网站的过程时意外关闭了终端。从我开始wget流程到现在已有2天了,所以我不知道该流程的状态。 昨天的流量很高,今天的流量很低。看来wget进程已完成,但是在上top,它仍显示wget正在运行。这很混乱。 19133 root 15 0 751m 746m 1416 S 1.0 37.0 48:18.77 wget 如何恢复wget进程以查看状态?
9 wget 

2
使用wget从需要设置cookie的站点下载PDF文件
我想访问一个报纸网站,然后下载他们的电子报纸副本(PDF格式)。该网站要求我使用我的电子邮件地址和密码登录,然后它允许我访问这些PDF URL。 我在Wget中设置“会话”时遇到了麻烦。当我从浏览器登录网站时,它会设置两个cookie值: UserID=abc@gmail.com Password=12345 我试过了: wget --post-data "UserID=abc@gmail.com&Password=12345" http://epaper.abc.com/login.aspx 但是,刚刚下载了登录页面并将其保存在本地。 登录页面上的FORM有两个字段: txtUserID txtPassword 和radiobuttons像这样: <input id="rbtnManchester" type="radio" checked="checked" name="txtpub" value="44"> 另一个按钮: <input id="rbtnLondon" type="radio" name="txtpub" value="64"> 如果我将其发布到login.aspx页面,我会得到相同的输出 wget --post-data "txtUserID=abc@gmail.com&txtPassword=12345&txtpub=44" http://epaper.abc.com/login.aspx 如果我做: --save-cookies abc_cookies.txt 除了默认内容之外,它似乎没有任何其他内容。 最后,如果我这样做--debug,它说: ... Set-Cookie: ASP.NET_SessionId=05kphcn4hjmblq45qgnjoe41; path=/; HttpOnly ... Stored cookie epaper.abc.com -1 (ANY) / <session> …
8 pdf  wget 

3
为什么某些Tumblr页面上的图像无法加载,但在它们上使用wget可以正常工作?
因为“某些页面无法加载”而帮助朋友建立Internet连接,我注意到问题是某些博客的图像帖子的图像没有加载到浏览器中。我发现它很奇怪是因为以下原因: 只有属于帖子的图像将不会加载。用户头像,横幅,标题,各种主题和/或与页面相关的图像仍会出现。 适用于计算机上的任何浏览器(在带有和不带有广告/脚本阻止程序的Firefox和Chrome / ium上进行测试)。 使用wget图像的直接链接。 这不适用于所有的Tumblr页面。大多数都可以正确加载,但是在列出不包含图片的帖子的页面列表时,表明它们主要来自同一批用户。 从某种意义上说,问题似乎是特定于博客的,如果某个博客的图像帖子未加载到浏览器中,则改写同一帖子的其他博客(无论是否受影响)也不会在浏览器中加载该图像。相反,如果受影响的博客是来自未受影响的博客的博客,则图像加载良好。 这些图像来自用户创建的Tumblr帖子,用户在其中上传要发布的图像,并由Tumblr托管。例如(此示例不是受影响的博客之一),在此图像帖子(随机选择)中,这将是指向该帖子中图像的直接链接。图片帖子会使用(通常是)帖子中使用的图片的较大版本(通常更接近用户为该帖子上传的图片的大小)自动将图片链接到Tumblr中的另一个页面。 发生这种情况的原因可能是什么?真正让我着迷的部分是有效的事实wget,因此我认为我可以认为这与网络连接无关。 更新: 这是一个无法在浏览器上加载的重新发布帖子的示例。在博客主有正确加载其他图像的帖子。这是直接链接到在后的图像,并在这里是一个更大的版本(包括不加载这里)。wget两者都适用,但是在与Firefox进行任何直接链接时,都会出现此错误: This XML file does not appear to have any style information associated with it. The document tree is shown below. <Error> <Code>AccessDenied</Code> <Message>Access Denied</Message> <RequestId>A626307DF577B411</RequestId> <HostId>J9GxX1HY9vX3ElWjYf7M48ByvKXLRIwRBJ2al2voS3J/C+WhILWHyd3crFhhNtkXuvG0zaxBTxw=</HostId> </Error> RequestID并且HostId每次都会改变。我和我的朋友位于菲律宾。 更新[2014/03/08] 经过进一步测试并回复了Tumblr支持的电子邮件后,wget在某些情况下已停止工作(在直接链接上收到403错误)。 更新[2014/03/09] 关闭HTTPS-Everywhere的Tumblr规则似乎有时可以解决该问题。 注意: 在#6的示例中,直接链接都指向同一图像。不过,通常,图片发布中使用的图片(与可缩放图片页面相比)使用图片的较小版本以适合页面的主题。该示例使用为较大的屏幕制作的主题,因此不需要较小的版本。

2
Xargs和Wget一小时后停止工作
在Windows XP上使用Cygwin在双核和4GB Ram上运行脚本 cat url_list.txt | xargs -P50 wget -i 我正在尝试浏览4GB的URL进行下载(大约4300万) 大约一个小时就可以正常工作,然后Bash Shell和下载停止,即使通过URL列表仅获得2%的下载。 有什么想法可能是错的吗? 调试为什么一个小时后停止的最佳方法是什么?
8 wget  url  xargs  cat 



4
强制wget超时
如何在X秒后强制wget停止? 我有一个下载图像的脚本,并且不时会卡住并拒绝“超时”。 我尝试过的: --tries=3 --connect-timeout=30 来自ps aux: root 26543 0.0 0.0 38636 1656 ? S 20:40 0:00 wget -nc --tries=3 --connect-timeout=30 --restrict-file-names=nocontrol -O 18112012/image.jpg http://site/image.jpg
6 linux  ubuntu  wget 

3
产生多个并行wgets并将结果存储在bash数组中,以便在完成所有wgets时进行漂亮打印
我在自己的网站上列出了一个很长的网址列表,列在回车分隔的文本文件中。例如: HTTP:/www.mysite.com/url1.html HTTP:/www.mysite.com/url2.html HTTP:/www.mysite.com/url3.html 我需要生成许多并行wgets来命中每个URL两次,检查并检索特定的头,然后将结果保存在一个数组中,我想在一个漂亮的报告中输出。 我使用以下xargs命令获得了我想要的一部分: xargs -x -P 20 -n 1 wget --server-response -q -O - --delete-after<./urls.txt 2>&1 | grep Caching 问题是如何运行此命令两次并存储以下内容: 网址命中 grep对缓存头的第一个结果 grep对缓存头的第二个结果 所以输出应该类似于: ===================================================== http:/www.mysite.com/url1.html ===================================================== First Hit: Caching: MISS Second Hit: Caching: HIT ===================================================== http:/www.mysite.com/url2.html ===================================================== First Hit: Caching: MISS Second Hit: Caching: HIT 等等。 …
5 linux  bash  wget  xargs  array 

4
使用命令行/ wget自动下载一系列文件
我有一个案例,我想为每个读者触发一个114文件(朗诵)列表的自动下载, 例如,如果我想下载被叫的读者的朗诵 abkr,文件的网址将如下所示.. http://server6.mp3quran.net/abkr/001.mp3 http://server6.mp3quran.net/abkr/002.mp3 ... http://server6.mp3quran.net/abkr/113.mp3 http://server6.mp3quran.net/abkr/114.mp3 这些都是古兰经的背诵,所以他们总共有114个 是否有一种简单的方法来循环使用 command line 上 视窗 ?

3
HTTP响应卷曲并获得不同的结果
为了检查HTTP响应标头中的一组URL,我使用curl发送了以下请求标头 foreach ( $urls as $url ) { // Setup headers - I used the same headers from Firefox version 2.0.0.6 $header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,"; $header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5"; $header[ ] = "Cache-Control: max-age=0"; $header[ ] = "Connection: keep-alive"; $header[ ] = "Keep-Alive: 300"; $header[ ] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7"; …
4 php  http  wget  curl 

3
Linux wget,会话重新加载后如何显示进度百分比?
我在插入式计算机上以控制台方式运行debian Squeeze。我控制它从同一本地网络上的Windows计算机打开SSH会话。 我开始使用wget下载大文件。 我得到的是一个控制台进度条,其中显示了已下载数据的百分比,文件大小和下载速率。 当我关闭会话时,debian仍在运行并正在下载。精细。 但是,当我关闭并重新打开会话时,如何使用linux命令查看下载了多少数据? 谢谢。
4 linux  wget  progress 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.