Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。

3
为什么是最大可能性而不是预期可能性?
为什么获得参数的最大似然估计如此常见,但实际上您从未听说过预期似然参数估计(即,基于期望值而不是似然函数的模式)?这主要是出于历史原因,还是出于实质性的技术或理论原因? 使用预期似然估计而不是最大似然估计是否有明显的优势和/或劣势? 有没有在预期的似然估计一些地区的常规使用?

3
具有共轭先验:深性质还是数学事故?
有些分布具有共轭先验,有些则没有。这种区别仅仅是偶然吗?就是说,您进行数学运算,它可以以一种方式或另一种方式进行计算,但是除了事实本身之外,它没有真正告诉您关于分布的任何重要信息吗? 还是共轭先验的存在与否反映了分布的某些更深层次的性质?具有共轭先验的分布是否共享一些其他有趣的特性,或者其他分布所缺少的特性导致那些分布(而不是其他)具有共轭先验?

5
通过R学习(不仅仅是运行)统计/数学的来源
我对通过R(可以通过其他语言学习统计和数学概念)的来源示例(R代码,R包,书籍,书籍章节,文章,链接等)感兴趣。 面临的挑战是,材料的学习依赖于编程,而不仅取决于如何运行执行算法的代码。 因此,(例如)像R的线性模型这样的书(这是一本好书)不是我想要的。这是因为这本书主要显示了如何在R中实现线性模型,但是并没有围绕使用R来讲授线性模型。 (很棒的)TeachingDemos软件包的帮助文件是我正在寻找的一个很好的例子。它是一个R软件包,其中包括通过各种R小程序和模拟来学习统计概念的功能。随附的帮助文件很好。当然,这两种方法都不足够,并且需要一本外部教科书才能掌握许多确切的细节来学习它们(帮助文件也是如此)。 所有线索将不胜感激。

1
马尔可夫随机场何时
在他们的教科书,图形模型,指数族和变推理,M.乔丹和M.温赖特讨论之间的联系指数家属和马尔可夫随机场(无向图模型)。 我试图通过以下问题更好地理解它们之间的关系: 所有MRF都是指数家族的成员吗? 指数族的所有成员都可以代表MRF吗? 如果MRF指数族,那么其中一种不包含在另一种类型中的分布的良好示例是什么?≠≠\neq 根据我在他们的教科书(第3章)中的理解,乔丹和温赖特提出了下一个论点: 说,我们有如下一些分布AA标随机变量X,并得出独立同分布的观测,我们要找出。n X 1,… X n ppppñnnX1个,… XñX1,…XnX^1, \ldots X^nppp 我们计算某些函数的经验期望ϕαϕα\phi_\alpha% μ^α= 1ñ∑ñ我= 1ϕα(X一世),μ^α=1n∑i=1nϕα(Xi),\hat{\mu}_\alpha= \frac{1}{n}\sum^n_{i=1}\phi_\alpha(X^i), 对于所有α ∈ 我α∈I\alpha \in \mathcal{I} 其中某个中的每个索引一个函数我φ α:X → řαα\alpha一世I\mathcal{I}ϕα:X→ Rϕα:X→R\phi_\alpha: \mathcal{X} \rightarrow R 然后,如果我们强制以下两组数量是一致的,即匹配(以标识):ppp 分布的充分统计的期望值φ pËp[ (ϕα(X)] = ∫Xϕα(x )p (x )ν(dX )Ep[(ϕα(X)]=∫Xϕα(x)p(x)ν(dx)E_p[(\phi_\alpha(X)]=\int_\mathcal{X}\phi_\alpha(x)p(x)\nu(dx)ϕϕ\phippp 经验分布下的期望 在存在 与观察值一致的许多分布的意义上,我们得到了一个不确定的问题。因此,我们需要一个在它们之间进行选择的原则(以标识)。ppppppp 如果我们使用最大熵的原理消除这种不确定性,我们可以得到一个:ppp p∗= 一个ř 克中号一个Xp …


4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
在统计中定义完整性是不可能从其形成无偏估计
在经典统计中,有一个定义是将一组数据的统计量定义为对于参数是完整的,因此不可能从中简单地形成的无偏估计量。也就是说,使所有的唯一方法是几乎肯定地使为。TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 这背后有直觉吗?似乎这是一种比较机械的定义方式,我知道以前已经有人问过这个问题,但是我想知道是否存在一种非常容易理解的直觉,这会使入门级学生更容易地消化材料。

4
非负离散分布的示例,其中均值(或另一个矩)不存在?
我在scipy中进行一些工作,并且与核心scipy组的成员进行了交谈,以确定非负离散随机变量是否可以具有不确定的时刻。我认为他是正确的,但没有证明。任何人都可以显示/证明此声明吗?(或如果此主张不成立,则不予支持) 如果离散随机变量在上受支持,我没有方便的示例,但似乎柯西分布的某些离散版本应作为获得不确定时刻的示例。非负数的条件(可能包括)似乎使这个问题具有挑战性(至少对我而言)。ZZ\mathbb{Z}000

5
可能性原则“确实”重要的示例?
是否有一个例子,两个具有成比例可能性的不同可辩证检验会导致一个明显不同(且同样可辩驳)的推论,例如,p值相差一个数量级,但替代方法的功效却相似? 我看到的所有示例都是非常愚蠢的,将二项式与否定二项式进行比较,第一个的p值为7%,第二个3%的p值是“不同的”,仅在对任意阈值做出二元决策的范围内显着性(例如5%)(顺便说一句,这是一个相当低的推论标准),甚至不用费心去看能力。例如,如果我将阈值更改为1%,则两者都会得出相同的结论。 我从未见过一个示例,它会导致明显不同且可辩驳的推断。有这样的例子吗? 我之所以问是因为,我已经在这个主题上花了很多笔墨,好像“可能性原则”是统计推断基础中的基本要素。但是,如果最好的例子是像上面的例子那样愚蠢的例子,则该原理似乎完全无关紧要。 因此,我正在寻找一个非常有说服力的示例,其中如果不遵循LP,则证据权重将在给定一项检验的情况下绝大多数指向一个方向,而在另一种具有成比例可能性的检验中,证据权重将压倒性地指向相反的方向,这两个结论看起来都是明智的。 理想情况下,一个能证明我们可以有任意相距甚远,但是合理的,解答,诸如与测试p=0.1p=0.1p =0.1与p=10−10p=10−10p= 10^{-10}具有比例似然和等效功率,以检测相同的替代。 PS:布鲁斯的答案根本没有解决这个问题。

7
为什么对称正定(SPD)矩阵如此重要?
我知道对称正定(SPD)矩阵的定义,但想了解更多。 从直觉上为什么它们如此重要? 这就是我所知道的。还有什么? 对于给定的数据,协方差矩阵为SPD。协方差矩阵是一项重要的指标,有关直观说明,请参见这篇出色的文章。 如果是SPD ,则二次形式是凸的。凸性对于可以确保本地解决方案是全局解决方案的函数是很好的属性。对于凸问题,有很多好的算法可以解决,但对于非凸问题则没有。甲12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA 当为SPD时,二次形式的优化解与线性系统的解相同。因此,我们可以在两个经典问题之间进行转换。这很重要,因为它使我们能够使用在另一个域中发现的技巧。例如,我们可以使用共轭梯度法求解线性系统。减少1AAA甲X=bminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b 有许多很好的算法(快速,数值稳定)对SPD矩阵更有效,例如Cholesky分解。 编辑:我不是想问一下SPD矩阵的身份,而是属性背后的直觉来显示重要性。例如,正如@Matthew Drury所提到的,如果矩阵是SPD,则特征值都是正实数,但是为什么所有正数都重要。@Matthew Drury对流动有一个很好的答案,这就是我想要的。

8
统计不是数学吗?
统计是数学吗? 鉴于所有数字都是由数学系教授的,并且您获得了数学学分,我想知道人们说这些数字时只是半开玩笑,比如说这只是数学的一小部分,还是只是应用数学。 我想知道像统计之类的不能在基本公理上构建所有内容的东西是否可以算作数学。例如,值是为了理解数据而出现的概念,但这不是更基本的原理的逻辑结果。ppp


3
Fisher度量与相对熵之间的联系
有人能以纯粹的数学严格方式证明 Fisher信息量度与相对熵(或KL散度)之间的以下联系吗? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) 其中a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n),gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx和gi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j是爱因斯坦求和约定。 我在John Baez的漂亮博客中找到了上述内容,Vasileios Anagnostopoulos在评论中谈到了这一点。


2
k-均值收敛的证明
对于一项作业,我被要求提供证明k均值收敛于有限数量的步骤。 这是我写的: 在下文中,CCC是所有群集中心的集合。定义一个“能量”函数 能量函数为非负。我们看到算法的步骤(2)和(3)都减少了能量。由于能量是从下方限制并不断减少的,因此必须收敛到局部最小值。当E(C)的 变化率低于某个阈值时,可以停止迭代。E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) 步骤2是通过每个数据点的最近聚类中心标记每个数据点的步骤,而步骤3是通过平均值对中心进行更新的步骤。 这不足以证明在有限数量的步骤中收敛。能量可以不断变小,但不排除在不改变能量的情况下中心点跳动的可能性。换句话说,可能存在多个能量最小值,并且算法可以在它们之间跳跃,不是吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.