1)为什么引入偏差造成的损害要比方差获得的损害少?
不必,通常是这样。权衡是否值得取决于损失函数。但是,我们在现实生活中关心的事情通常与平方误差相似(例如,我们关心的是一个大的错误,而不是两个大小的一半的错误)。
作为一个反例-想象一下,对于大学录取,我们将人们的SAT分数缩小到其人口统计学的SAT平均水平(无论如何定义)。如果做得正确,这会减少人的(某种)能力估计值的方差和均方误差,同时引入偏差。恕我直言,大多数人都会认为这样的权衡是不可接受的。
2)为什么它总是可以工作?
3)0(原点)有什么有趣的地方?显然,我们可以缩小到我们喜欢的任何位置(例如Stein估计器),但是它能像原始算法一样有效吗?
我认为这是因为我们通常会缩小系数或影响估计值。有理由相信大多数影响并不大(例如,参见安德鲁·盖尔曼的观点)。一种表达方式是,凡事都会对凡事产生重大影响的世界就是一个暴力的,无法预测的世界。由于我们的世界是可以预测的,足以让我们长寿并建立半稳定的文明,因此,大多数影响并不大。
由于大多数效果都不大,因此错误地缩小几个真正大的效果是有用的,同时也可以正确缩小可忽略的效果的负载。
我相信这只是我们这个世界的财产,您可能会构建收缩不切实际的自洽世界(最有可能通过使均方误差成为不切实际的损失函数)。只是我们生活的世界并非偶然。
另一方面,在贝叶斯分析中将收缩视为先验分布时,在某些情况下,收缩至0在实践中会非常有害。
一个例子是高斯过程中的长度标度(其中0是有问题的),Stan手册中的建议是使用先验,使可忽略的权重接近零,即有效地将较小的值“缩小”为零。同样,推荐的负二项式分布先验有效地缩小为零。最后但并非最不重要的一点是,每当对正态分布进行精确的参数设置时(如INLA中一样),使用反伽马或缩小到零的其他先验分布很有用。
4)为什么各种通用编码方案更喜欢原点周围的位数较少?这些假设是否更有可能?
P(我)≥ P(我+ 1 )一世