Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。


9
从底部到顶部解释马氏距离?
我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :) 这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗? 我还阅读了有关该主题的以下先前问题: 什么是马氏距离,如何将其用于模式识别? 高斯分布函数和马哈拉诺比斯距离(Math.SE)的直观解释 我也读过这个解释。 答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么? 更新: 以下是有助于理解Mahalanobis公式的内容: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

9
数值示例,以了解期望最大化
我试图很好地掌握EM算法,以便能够实现和使用它。我花了一整天的时间阅读该理论和一篇论文,其中使用EM使用来自雷达的位置信息来跟踪飞机。老实说,我认为我不完全理解基本思想。有人可以给我指出一个数值示例,该示例显示EM的几次迭代(3-4),以解决一个更简单的问题(例如估算高斯分布的参数或正弦序列的序列或拟合直线)。 即使有人可以将我指向一段代码(带有合成数据),我也可以尝试单步执行代码。



12
谁是贝叶斯主义者?
随着人们对统计数据产生兴趣,二分法“ Frequentist”与“ Bayesian”很快就变得司空见惯了(谁还没有读过Nate Silver的《信号与噪声》?)。在讲座和入门课程中,观点绝大多数是常客(MLE,值),但往往只花很少的时间来欣赏贝叶斯公式并触及先验分布的想法,通常是切向的。ppp 讨论贝叶斯统计的语气在对概念基础的尊重与对崇高目标之间的鸿沟的怀疑以及暗示对先验分布的选择的任意性或最终使用频数数学之间摇摆不定。 诸如“如果您是贝叶斯人的核心...”之类的句子比比皆是。 问题是,今天的贝叶斯是谁?他们是某些精选的学术机构,您知道如果您去那里会成为贝叶斯主义者?如果是这样,他们是否受到特别追捧?我们仅指的是一些受人尊敬的统计学家和数学家,如果是的话,他们是谁? 它们甚至以纯正的“贝叶斯”形式存在吗?他们会愉快地接受标签吗?它总是一个讨人喜欢的区别吗?他们是在会议上有奇特幻灯片的数学家,没有任何值和置信区间,容易在小册子上发现吗?ppp “贝叶斯”成为一个利基市场?我们是指少数统计学家吗? 还是当前的贝叶斯主义等于机器学习应用程序? ...或者甚至更有可能是,贝叶斯统计不是仅仅是统计的一个分支,而是一种超越了概率计算范围而成为科学哲学的认识论运动吗?在这方面,所有科学家都将是贝叶斯的内心……但是就不会有纯粹的贝叶斯统计学家无法渗透到频繁主义者的技术(或矛盾)中。


14
在线检测一般时间序列的异常值的简单算法
我正在处理大量时间序列。这些时间序列基本上是每10分钟进行一次网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量)。 我想要一种用于进行在线“异常值检测”的简单算法。基本上,我想将每个时间序列的整个历史数据保存在内存中(或保存在磁盘上),并且我想检测实时场景中的任何异常值(每次捕获一个新样本)。实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但是接下来呢?对整个数据集而言,诸如标准差,疯狂……之类的简单事情无法很好地工作(我不能假设时间序列是固定的),我想要更“准确”的东西,最好是一个黑匣子,例如: double outlier_detection(double *向量,double值); 其中vector是包含历史数据的double数组,返回值是新样本“ value”的异常得分。



8
贝叶斯:似然函数的奴隶?
拉里·瓦瑟曼(Larry Wasserman)教授在他的《所有统计》一书中提出了以下示例(11.10,第188页)。假设我们有一个密度,使得,其中是已知的(负,可积)函数,而归一化常数是未知的。ffff(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)c > 0gggc>0c>0c>0 我们对无法计算情况感兴趣。例如,在非常高维的样本空间上,可能是pdf。c=1/∫g(x)dxc=1/∫g(x)dxc=1/\int g(x)\,dxfff 众所周知,即使未知,也有一些模拟技术可让我们从采样。因此,难题是:我们如何从这样的样本中估算?fffcccccc Wasserman教授描述了以下贝叶斯解决方案:让为先验条件。可能性为 因此,后 不依赖于样本值。因此,贝叶斯不能使用样本中包含的信息来推断。ππ\picccLx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn.Lx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn. L_x(c) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n \left(c\,g(x_i)\right) = c^n \prod_{i=1}^n g(x_i) \propto c^n \, . X 1,... ,X Ñ Çπ(c∣x)∝cnπ(c)π(c∣x)∝cnπ(c) \pi(c\mid x) \propto c^n \pi(c) x1,…,xnx1,…,xnx_1,\dots,x_nccc 瓦瑟曼教授指出:“贝叶斯是似然函数的奴隶。当似然出错时,贝叶斯推论也将如此”。 我对其他堆垛机的问题是:关于这个特定示例,贝叶斯方法有什么问题(如果有)? PS正如Wasserman教授在回答中所解释的那样,该示例归因于Ed George。




13
过去15年的统计领域有哪些突破?
我仍然记得Friedman-Hastie-Tibshirani撰写的《统计年鉴》中关于提振的文章,以及其他作者(包括Freund和Schapire)对相同问题的评论。那时,显然Boosting在许多方面都被视为突破:计算上可行,一种集成方法,具有出色而神秘的性能。大约在同一时间,SVM逐渐成熟,它提供了以坚实的理论为基础并具有大量变体和应用程序的框架。 那是在奇妙的90年代。在过去的15年中,在我看来,很多统计工作都是清理和细化工作,但很少有真正新的观点。 所以我会问两个问题: 我错过了一些革命性的论文吗? 如果没有,您认为有没有新方法可以改变统计推断的观点? 规则: 每个帖子一个答案; 欢迎参考或链接。 PS:我有几个候选人有望取得突破。我稍后再发布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.