我尝试将matlab代码转换为numpy,并发现numpy与std函数的结果不同。
在matlab中
std([1,3,4,6])
ans = 2.0817
在numpy中
np.std([1,3,4,6])
1.8027756377319946
这正常吗?我应该如何处理呢?
Answers:
NumPy函数np.std
采用一个可选参数ddof
:“自由度增量”。默认情况下是0
。对其进行设置1
以获取MATLAB结果:
>>> np.std([1,3,4,6], ddof=1)
2.0816659994661326
要添加更多上下文,在计算方差(标准偏差为平方根)时,通常将其除以我们拥有的值的数量。
但是,如果我们N
从较大的分布中选择元素的随机样本并计算方差,则除以N
可能导致实际方差的低估。为了解决这个问题,我们可以将除以(自由度)的数字降低为小于N
(通常为N-1
)的数字。该ddof
参数允许我们按指定的数量更改除数。
除非另有说明,否则NumPy将计算方差(,除以)的有偏估计量。如果要使用整个分布(而不是从较大的分布中随机选择的值的子集),这就是您想要的。如果给定参数,则NumPy除以。ddof=0
N
ddof
N - ddof
MATLAB的默认行为std
是通过除以校正样本方差的偏差N-1
。这消除了标准偏差中的某些(但可能不是全部)偏差。如果您在较大分布的随机样本上使用该函数,则可能正是您想要的。
@hbaderts的不错回答给出了进一步的数学细节。
标准偏差是方差的平方根。随机变量的方差X
定义为
因此,方差的估算器为
其中表示样本均值。对于随机选择,可以证明该估计量不收敛于实际方差,而是收敛于
如果您随机选择样本并估计样本均值和方差,则必须使用校正后的(无偏)估计量
会收敛到。校正项也称为贝塞尔校正。
现在默认情况下,MATLAB std
使用校正项来计算无偏估计量n-1
。但是,NumPy(如@ajcr所述)默认情况下计算不带校正项的有偏估计量。该参数ddof
允许设置任何校正项n-ddof
。通过将其设置为1,您将获得与MATLAB中相同的结果。
同样,MATLAB允许添加第二个参数 w
,该指定“称重方案”。默认值,w=0
产生校正项n-1
(无偏估计量),而对于w=1
,只有n用作校正项(有偏估计量)。
n
放在求和符号的顶部,而是放在求和中。
std([1 3 4 6],1)
它等效于NumPy的defaultnp.std([1,3,4,6])
。所有这些在Matlab和NumPy的文档中都已清楚解释,因此,我强烈建议OP将来一定要阅读这些内容。