如果“ .632规则”中的概率不相等怎么办?


11

此问题源于有关“ .632规则”的问题。我在编写时特别参考了user603的回答/表示,以简化事情。

该答案以大小为的样本开始并从集合(称为)N的不同项中进行替换。第样本与N 的特定元素不同的概率为n,nithsim(11/n).

在该答案中,N的所有元素都有被随机抽取的同等机会。

我的问题是:假设在上面的问题中要绘制的项目是按正态分布的。也就是说,我们将标准正态曲线从细分为,细分为(例如)100个等长子区间。N中的100个项目中的每一个都有被绘制的概率,该概率等于曲线在其相应间隔中所占的面积。Z=4Z=4

我的想法如下:

我的推理与链接答案中的推理类似。的概率,与 N的元素,是其中是绘制的概率simmP(sim)=(1Fi)Fisi.

特定元素m在大小为n的样本S中的概率为

P(mS)=1P(mS)=11nP(sim)
=11n(1Fi).

计算似乎表明,随着子间隔的长度变小,答案收敛到与第一种情况相同的数字(概率都相等)。si

(对我而言)这似乎是违反直觉的,因为该构造似乎会抛出N的元素,而这些元素很少见,因此我希望数字小于.632。

而且,如果这是正确的,我想我们会

limn1n(1Fi)=lim(11/n)n=1/e,

我还不知道是对还是错。

编辑:如果是真的,可能会概括一些。

感谢您的任何见解。


我刚刚问了关于数学SE的最后一个方程式(问题791114),因为我也对它的概括(如果有的话)感兴趣。
丹尼尔(Daniel)2014年

...简短的答案是,最后的等式对于行为良好的PDF是正确的,因此问题的答案是.632规则适用于各种基础分布。
丹尼尔(Daniel)2014年

我可以从其他站点获取其他人的答案并将其发布为我的吗?这就是为什么我发表简短评论。如果可以的话,也许有一种公认的方法可以做到这一点。
丹尼尔(Daniel)

当然可以,只需在某些时候提及源代码即可:)
Firebug

@Firebug:您可以指向一个完成此操作的实例,以便了解您的意思吗?谢谢。
丹尼尔(Daniel)

Answers:


2

这个问题问关于

(1)=1i=1n(1Fi)

随着增长和均匀收缩,使得(a)全部为非负数,并且(b)它们加总为1。(这些来自的构造和概率公理。)nFi Fi

根据定义,该乘积是其对数的指数:

i=1n(1Fi)=exp(i=1nlog(1Fi)).

应用于泰勒定理(具有余数的拉格朗日形式)确定log

log(1Fi)=Fi12ϕi2Fi12Fi2

对于一些在区间。换句话说,这些对数等于至多是一些术语至多倍。但是,当足够大以确保所有都小于给定的(由的均匀收缩确保的条件)时,则(b)表示因此ϕi[0,Fi]Fi 1/2Fi2nFiϵ>0Finϵ>Fi=1

i=1nFi2i=1nϵ2<i=1n(1n)2=1n.

所以

1=i=1nFii=1nlog(1Fi)i=1nFi121n=112n

压缩两个收敛到序列之间的对数。由于是连续的,因此乘积收敛到该限制的指数。所以1expi=1n(1Fi)exp(1)

limn(1i=1n(1Fi))=1exp(1)0.632,

QED


仔细查看此分析,该近似值中的误差(始终为下界)不会大于 例如,将标准正态分布划分为和之间的切片会在模式附近产生一个最大,它将近似等于该矩形的面积。前述界限确定式的值将在其极限值的以内。实际误差要小一个数量级,

(exp((n/2)max(Fi2))1)exp(1).
n=40044Fi0exp(1/2)/500.012(1)0.0110.001041。这是其中的计算R(我们可以信任,因为相对于都不小):fi1
f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

实际上,1 - prod(1-f)是而是。0.63316151exp(1)0.6321206


2
错误分析是此答案的非常有用的方面。
丹尼尔(Daniel)2013年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.