使用Python请求模块下载并保存PDF文件

Question 1

我正在尝试从网站下载PDF文件并将其保存到磁盘。我的尝试由于编码错误而失败，或者导致PDF空白。

In [1]: import requests

In [2]: url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'

In [3]: response = requests.get(url)

In [4]: with open('/tmp/metadata.pdf', 'wb') as f:
   ...:     f.write(response.text)
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-4-4be915a4f032> in <module>()
      1 with open('/tmp/metadata.pdf', 'wb') as f:
----> 2     f.write(response.text)
      3 

UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-14: ordinal not in range(128)

In [5]: import codecs

In [6]: with codecs.open('/tmp/metadata.pdf', 'wb', encoding='utf8') as f:
   ...:     f.write(response.text)
   ...:

我知道这是某种编解码器问题，但我似乎无法使其正常工作。

Question 2

response.content在这种情况下，您应该使用：

with open('/tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

从文件：

对于非文本请求，您还可以字节形式访问响应主体：
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

因此，这意味着：response.text将输出作为字符串对象返回，在下载文本文件时使用它。如HTML文件等

并response.content以字节对象返回输出，在下载二进制文件时使用它。如PDF文件，音频文件，图像等。

您还可以使用response.raw代替。但是，当您要下载的文件很大时，请使用它。以下是一个基本示例，您也可以在文档中找到该示例：

import requests

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

chunk_size是您要使用的块大小。如果将其设置为2000，则请求将下载该文件的第一个2000字节，将其写入文件，然后一次又一次地执行，除非完成。

这样可以节省您的RAM。但是response.content在这种情况下，我宁愿使用它，因为您的文件很小。如您所见，使用response.raw非常复杂。

关联：

Question 3

在Python 3中，我发现pathlib是执行此操作的最简单方法。请求的response.content与pathlib的write_bytes很好地结合在一起。

from pathlib import Path
import requests
filename = Path('metadata.pdf')
url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
response = requests.get(url)
filename.write_bytes(response.content)

Question 4

您可以使用urllib：

import urllib.request
urllib.request.urlretrieve(url, "filename.pdf")

Question 5

通常，这应该在Python3中起作用：

import urllib.request 
..
urllib.request.get(url)

请记住，Python2之后urllib和urllib2无法正常工作。

如果在某些神秘情况下请求不起作用（发生在我身上），您也可以尝试使用

wget.download(url)

有关：

这是在网页上查找和下载所有pdf文件的不错的解释/解决方案：

https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

Question 6

请注意，我是初学者。如果我的解决方案有误，请随时进行纠正和/或让我知道。我可能也会学到新东西。

我的解决方案：

相应地将downloadPath更改为要保存文件的位置。您也可以随意使用绝对路径。

将以下内容另存为downloadFile.py。

用法： python downloadFile.py url-of-the-file-to-download new-file-name.extension

记住要添加扩展名！

用法示例： python downloadFile.py http://www.google.co.uk google.html

import requests
import sys
import os

def downloadFile(url, fileName):
    with open(fileName, "wb") as file:
        response = requests.get(url)
        file.write(response.content)


scriptPath = sys.path[0]
downloadPath = os.path.join(scriptPath, '../Downloads/')
url = sys.argv[1]
fileName = sys.argv[2]      
print('path of the script: ' + scriptPath)
print('downloading file to: ' + downloadPath)
downloadFile(url, downloadPath + fileName)
print('file downloaded...')
print('exiting program...')

Question 7

关于Kevin将答案写在一个文件夹中tmp，应该是这样的：

with open('./tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

他忘了.在地址和路线之前tmp应该已经创建了您的文件夹