我需要确保我的XML网站地图的垃圾少于(链接断开)。URL的列表是成百上千的,即使出于所有原因我也可能不愿意一一测试所有URL,但我还是不愿意这样做:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
所以我认为随机取一个子集就足够了,问题是我不知道概率。
我可以使用一个简单的功能吗?
如果有帮助的话,我们可以假设有一个先验信息,可了解链路在运行过程中断裂的可能性。假设在每次运行中,给定链接的断开为。
您有几个网址?(关于有限人口的推论与关于无限人口的通常推论有些不同。)
—
Kodiologist
?? 显然数量有限
—
gurghet
不用说,但是哪个有限数?
—
Kodiologist
在数十万中,每天都有所不同
—
gurghet
您的站点地图发生了什么变化?您每天是否有完全不同的站点地图,还是添加或删除了某些URL?如果是后者,您是否可以跟踪已添加或删除的内容,从而只需要检查新内容?
—
Kodiologist