2
估计正态分布的参数:中位数而不是均值?
估计正态分布参数的常用方法是使用均值和样本标准差/方差。 但是,如果存在一些离群值,则中位数和与中位数的中位数偏差应该更健壮,对吗? 在某些数据集我想,通过估计正态分布N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)似乎产生更好的配合比经典N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)用平均值和RMS偏差。 如果您假设数据集中存在一些离群值,是否有任何理由不使用中位数?您知道这种方法的参考吗?在Google上进行快速搜索并没有发现有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索字词)。 中位数偏差,是否有偏差?我应该乘它n−1nn−1n\frac{n-1}{n}减少偏见? 您是否知道其他分布(例如Gamma分布或指数修改的高斯分布)(在参数估计中需要偏度,而离群值确实弄乱了该值)的相似鲁棒参数估计方法吗?