自动保存每日webarchive?


Answers:


2

下载&保存为webarchive

命名行工具命名 webarchiver 将下载URL并将其保存到 .webarchive 格式。您可以通过安装此工具 MacPorts的 (唉,不是自制软件!)或者用XCode编译它。我是一个XCode假人,但成功找到了指令 这里

如何操作:

webarchiver 0.5
Usage: webarchiver -url URL -output FILE 
Example: webarchiver -url http://www.google.com -output google.webarchive
-url    http:// or path to local file
-output File to write webarchive to

好文件名

这个lenghty one-liner for terminal允许您配置所需的URL并下载YYYY-MM-DD前缀的webarchive文件:

URL="www.nytimes.com"; ./webarchiver -url "http://$URL" -output "/Users/<your username>/Desktop/$(date +"%Y-%m-%d-$URL.webarchive")"

这会将webarchive保存到您的桌面:

2014-02-10-www.nytimes.com.webarchive

如果你不确定是什么 <your username> 是,进入 whoami 在Terminal.app中(当然按回车)。

克龙

我宁愿用 launchd,作为“ 不建议在OS X上使用cron “。有一个很棒的启动编辑器 Lingon 。玩得开心!


很棒的发现!非常感谢!我正计划使用Automator自动执行此操作(在“运行Shell脚本”选项中运行每个网站存档。事实上,有没有办法选择输出的位置?(现在默认区域似乎是〜/ user而不是〜/ user / desktop)谢谢。
JFW

别客气!请参阅更新的答案。
myhd

1
再次感谢您找到它。我已经将你的答案标记为已解决问题的答案(在275天前首次提出问题之后)。从那以后我一直在使用webarchiver,这真是令人难以置信。我没有勇气自动执行此操作,因此我所做的只是将代码行放入Automator中,并将其作为可点击文件输出到桌面上。到目前为止,这真是太棒了。不幸的是,输出的文件大小相当大(大约3MB,而不是通常的0.5MB),但它是自包含的这一事实意味着它更便携。
JFW

只是一个抬头:webarchiver也已通过自制软件提供(看看: brew info webarchiver )!
ƘɌỈSƬƠƑ

2

是的,这是一个简单的答案。

我在我的iPad上。但是你可以使用unix命令 卷曲 下载网页并将其传递给unix命令 textutil 可以将其输出到webarchive文件。

如果我有机会,我会发一个例子。


这是我想到的一个小例子(快速)。写在Applescript中运行do shell脚本命令。

  property agent : "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3"

property outPutFormat : "rtf"
property saveDIR : "/Users/USERNAME/Desktop/"
property fileName : "test2"

set theData to do shell script "curl " & " -A" & space & quoted form of agent & space & "http://weather.yahoo.com/france/auvergne/france-29332634/" as string


do shell script "echo " & quoted form of theData & "|textutil -format html -convert" & space & outPutFormat & space & "-stdin -output " & space & saveDIR & fileName & "." & outPutFormat

虽然这有效。我对结果不满意。这是由于curl和textutil只处理html代码而不是资源。

所以我正在开发其他能够以更好的方式保存webArchive的东西。那里90%,但我需要更长的时间来写


我真的很感激你跟进这个。你是否也可以在cron(工作)的背景下展示如何做到这一点?提前致谢!
JFW

什么是网页。另外在我急于帮助你的时候,我忘记这样做是有效的。但仅适用于前置页面。但是不会包含一些资源文件等,因此页面看起来会很糟糕。仍然在寻找解决这个问题的方法。但是,您能否从页面中提供更多关于原因和需求的信息。
markhunte

对。我希望捕获像ft.com,nytimes.com等新闻网站的页面,所以我能够看到整个月份和年份的标题趋势。我的记忆并不好,所以这将是一个很好的帮助。
JFW

因此,文本文件更好,而不是webarchive。也许格式化。我认为它会更好
markhunte

是的,不介意有格式化的文本文件。你有可能发表一个例子吗?
JFW
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.