在登录表单后镜像网站


10

简洁版本:

  • 我想捕捉一个包含完整HTML + CSS + JS + images的URL的脱机副本,并将其保存在本地,以保留原始站点的结构和文件内容。
  • 我在使用可以找到的工具(例如“保存完成” Firefox扩展,HTTrack,wget,Teleport Pro)时遇到了麻烦,部分原因是URL位于登录表单后面。

较长版本:

在使用我的应用程序时,我经常想捕捉一个脱机的完整HTML + CSS + JS + images版本,以发送给与我合作的设计师,后者会进行修改并将其发送回去。然后,我将更改应用于应用程序。

事实证明,这比让他/她使用实时应用程序浏览我们的代码要有效得多,但是有一个障碍-我找不到方便的镜像应用程序。

诸如“保存完成”之类的Firefox扩展已经具有登录cookie,因此不在乎它们是否位于登录表单的后面,但是它们会破坏本地保存的文件,因此无法使用它们。

wget或Teleport Pro等镜像工具不支持我们的登录表单。

HTTrack应该能够以代理模式运行以检测登录信息,但是我永远无法使它正常工作。作为后备,它可以接受我硬连接到它的cookies.txt文件中的cookie,但是要可靠地完成它总是要花费我几个小时。

任何工具,浏览器扩展等都可以做到这一点?开源,商业-任何东西。如果我一直在滥用HTTrack,并且这样做确实很简单,那么这也是一个很好的答案。

Answers:


7

使用HTTrack,您可以在下载时使用cookies.txt文件。我已使用它成功镜像了一个穆迪网站。


谢谢-之前我已经使用HTTrack完成了此操作,但是由于某种原因,尽管我看不出原因,但总是需要我多次尝试才能使其生效。您曾经获得过内置表单身份验证支持吗?它从来没有为我的网站。httrack.kauler.com/help/CatchURL_tutorial
orip

2
我所做的是使用浏览器登录并导出cookies.txt文件,将注销页面添加到黑名单中,然后运行它。由于
穆迪尔

5

我已经使用WinHTTrack成功做到了这一点。您可以按照以下常规过程来捕获网站,但需要进行两个小的设置:

  1. 在Chrome中,打开开发工具,然后登录到您需要捕获的网站。在“网络”选项卡中,单击您请求的HTML页面以找到会话cookie(其名称将根据所使用的后端框架而有所不同)。将其放入“其他HTTP标头”下的HTTrack中。

  2. 还要确保您的用户代理字符串匹配,因为如果更改了用户代理字符串,有时会阻止会话。

    会话cookie登录到HTTrack

  3. 开始下载该站点。结果应该就像您已登录一样。


3

您是否尝试过离线浏览器

我记得类似的东西可以让您登录,从而保存cookie来保存随后的请求,其余的工作都将做。不确定100%,因为我很久以前就使用它。


真棒,好像Pro版本支持POST到形式,我会检查出来
OriP的

我花了一些时间才弄清楚,文档还很少,但是我意识到我可以使用基于IE的嵌入式浏览器登录表单,然后选择“将下一个单击的链接添加为项目”。“自动保存”功能也很不错,尽管它偶尔会弄乱我的表单。评估30天,可能就是我想要的。
orip 2010年

2

Teleport Pro允许使用登录名和密码。

当您启动“新建项目向导”时,您将到达为它提供该选项的地步(我认为它在选项的第三个屏幕中)。

即使您错过它,也可以再次访问该选项。

在主窗口(经过“项目向导”之后)上,右键单击您的项目(在左侧窗格中显示您要下载的URL的小文件夹图标),然后选择最后一个选项Starting Address Properties,系统将显示一个选项屏幕您可以在其中指定要在该站点中使用的用户登录名和密码。


这是一个古老的问题,但是teleport pro支持http auth,而不是将数据输入POST形式。
假名称
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.