Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。

2
指数族为什么不包括所有分布?
我正在读这本书: 主教,模式识别和机器学习(2006年) 将指数族定义为以下形式的分布(方程2.194): p(x|η)=h(x)g(η)exp{ηTu(x)}p(x|η)=h(x)g(η)exp⁡{ηTu(x)}p(\mathbf x|\boldsymbol \eta) = h(\mathbf x) g(\boldsymbol \eta) \exp \{\boldsymbol \eta^\mathrm T \mathbf u(\mathbf x)\} 但是我没有看到对h(x)h(x)h(\mathbf x)或u(x)u(x)\mathbf u(\mathbf x)。这是否意味着通过适当选择h(\ mathbf x)和\ mathbf u(\ mathbf x)(实际上只有其中一个必须正确选择!),任何分布都可以采用这种形式?那么,指数族为何不包括所有概率分布呢?我想念什么?h(x)h(x)h(\mathbf x)u(x)u(x)\mathbf u(\mathbf x) 最后,我感兴趣的一个更具体的问题是:伯努利分布在指数族中吗?维基百科声称是这样,但是由于我对这里的某些事情显然感到困惑,所以我想知道为什么。


7
“正态分布”是否需要均值=中位数=众数?
我一直在与我的研究生统计教授就“正态分布”进行辩论。我认为,要真正获得正态分布,必须具有均值=中位数=模式,所有数据必须包含在钟形曲线下,并且均值周围完全对称。因此,从技术上讲,实际研究中实际上没有正态分布,我们应该称其为其他值,也许是“接近正态”。 她说我太挑剔了,如果偏斜度/峰度小于1.0,则它是正态分布,会降低考试分数。该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。有见识吗? 问题: 问题:3.计算该数据的偏度和峰度的量度。包括具有正态曲线的直方图。讨论您的发现。数据是否正态分布? Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a 一种。存在多种模式。显示最小值 Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650 我的答案: 数据是platykurtic的,并且只有轻微的正偏斜,并且它不是正态分布,因为均值,中位数和众数不相等,并且数据在均值附近分布不均匀。实际上,尽管我们可以讨论“近似正态分布”,例如身高,体重,体温或成年无名指长度,但实际上没有数据是完美的正态分布。 教授的回答: 您是正确的,没有完美的正态分布。但是,我们并不是在寻求完美。除了直方图和集中趋势的度量外,我们还需要查看数据。关于分布的偏度和峰度统计信息告诉您什么?因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。

1
最大似然和矩量法何时会产生相同的估计量?
前几天有人问我这个问题,以前从未考虑过。 我的直觉来自每个估算器的优势。最大似然最好是在我们对数据生成过程充满信心时进行,因为与矩量方法不同,它最大程度地利用了整个分布的知识。由于MoM估算器仅使用时刻中包含的信息,因此当我们尝试估算的参数的足够统计量恰好是数据时刻时,这两种方法似乎应产生相同的估算。 (0 ,θ )(0,θ)(0,\theta)θθ\theta最大(X1个,⋯ ,Xñ)最高(X1个,⋯,Xñ)\max(X_1,\cdots,X_N) 我以为这可能是指数族的怪癖,但是对于已知均值的拉普拉斯来说,足够的统计量是且方差的MLE和MoM估计量不相等。1个ñ∑ | X一世|1个ñ∑|X一世|\frac{1}{n} \sum |X_i| 到目前为止,我一般无法显示任何结果。有人知道一般情况吗?甚至是一个反例也可以帮助我改善直觉。

2
聚类—克莱因伯格不可能定理的直觉
我一直在考虑写一篇有关Kleinberg(2002)的有趣分析的博客文章,该文章探讨了聚类的困难。克莱伯格(Kleinberg)概述了三个看似直观的聚类功能,然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是,没有一个功能可以同时满足这三个条件。 简要和非正式地,他概述了三个愿望: Scale-Invariance:如果我们对数据进行转换以使所有内容在各个方向上均等地伸展,则聚类结果不应更改。 一致性:如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小,则聚类结果不应更改。 丰富性:理论上,聚类函数应该能够产生任意的数据点分区/聚类(在不知道任何两点之间的成对距离的情况下) 问题: (1)是否有一个良好的直觉,几何图形可以显示这三个标准之间的不一致? (2)这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。 在本文中,定理3.1的证明对于我而言有些困难。我被困在:“让是一个满足一致性的聚类函数。我们声称,对于中的任何分区,都存在正实数,从而该对是强制。”Γ &Element; 范围(˚F )一个&lt; b (一,b )ΓfffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 我不知道这是怎么回事...下面的分区不是(例如,群集之间的最小距离大于群集内的最大距离)的反例吗?a&gt;ba&gt;ba > b 编辑:这显然不是一个反例,我使自己感到困惑(请参阅答案)。 其他论文: Ackerman和Ben-David(2009)。聚类质量的度量:聚类的公理集 指出“一致性”公理的一些问题

1
套袋的理论保证是什么
我(大约)听说: 套袋是一种减少预测器/估计器/学习算法的方差的技术。 但是,我从未见过这种说法的正式数学证明。有谁知道为什么这在数学上是正确的?似乎这是一个广为接受/已知的事实,我希望直接引用它。如果没有,我会感到惊讶。另外,有人知道这对偏差有什么影响吗? 是否有任何其他理论上的保证可以保证任何人都知道并认为很重要并想分享的方法?

2
与Jeffreys不同,先验的示例导致后验不变
我将在两周前在这里提出的问题重新发布“答案”:为什么Jeffreys事前有用?不过,这确实是一个问题(我当时也无权发表评论),所以我希望可以这样做: 在上面的链接中,讨论了Jeffreys Prior的有趣特征是,在重新参数化模型时,所得后验分布给出了服从变换施加的约束的后验概率。比方说,如那里所讨论的,从所述成功概率移动时θθ\theta在Beta-伯努利例如赔率ψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta),它应该是的情况下,该后验满足P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x)。 我想创建一个将θθ\theta转换为奇数ψψ\psi的Jeffreys先验不变性的数值示例,更有趣的是,缺少其他先验(例如Haldane,均等或任意先验)。 现在,如果成功概率的后验是Beta(对于任何Beta先验,不仅是Jeffreys),则赔率的后验遵循具有相同参数的第二种Beta分布(请参阅Wikipedia)。然后,正如下面的数字示例中突出显示的那样(至少对我来说),对于Beta优先级的任何选择(与alpha0_U和一起玩)都是不变的beta0_U,这不仅是Jeffreys,参见。程序的输出。 library(GB2) # has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta) theta_1 = 2/3 # a numerical example as in the above post theta_2 = 1/3 odds_1 = theta_1/(1-theta_1) # the corresponding odds odds_2 = theta_2/(1-theta_2) …

3
在进行PCA之前,为什么要除以标准偏差而不是其他一些标准化因子?
我在阅读以下理由(来自cs229课程注释),说明为什么我们将原始数据除以其标准偏差: 即使我理解解释的意思,但我仍不清楚为什么除以标准偏差才能实现这一目标。它说的是,每个人都处于相同的“规模”。但是,尚不完全清楚为什么除以标准偏差才能达到目标。例如,除以方差有什么问题?为什么不另加一些呢?像...绝对值的总和?或其他一些规范...选择性病是否有数学依据? 本声明中的主张是可以通过数学(和/或统计)得出/证明的理论陈述,还是因为它似乎在“实践”中起作用而做的其中一项陈述? 基本上,可以提供一种关于为什么直觉是正确的严格数学解释吗?还是仅凭经验观察,为什么我们认为在进行PCA之前总体上可行? 另外,在PCA中,这是标准化还是标准化的过程? 我的其他一些想法可能会“解释”性病的原因: 由于可以通过最大化方差来得出PCA,因此我猜测除以相关数量(例如STD)可能是我们除以STD的原因之一。但后来我认为,如果我们将其他任何规范定义为“方差”,,那么我们将用该标准的STD除以(取pth根或某物)。虽然,这只是一个猜测,我对此不是100%,因此是个问题。我想知道是否有人对此有任何了解。1n∑ni=1(xi−μ)p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p 我确实看到可能存在一个相关的问题: PCA是相关性还是协方差? 但是似乎更多地讨论了何时使用“相关”或“协方差”,但缺乏严格,令人信服或详尽的理由,这是我主要感兴趣的。 同样适用于: 为什么我们需要在分析之前对数据进行标准化 有关: SVD / PCA的“规范化”变量

4
关于统计的数学基础的良好资源(在线或书籍)
在我提出问题之前,让我给您一些有关统计知识的背景知识,以便您对我正在寻找的资源类型有更好的了解。 我是心理学的研究生,因此,我几乎每天都使用统计数据。到目前为止,我已经熟悉了各种各样的技术,主要是因为它们是在通用结构方程建模框架中实现的。但是,我的培训是使用这些技术和结果的解释-我对这些技术的正式数学基础了解不多。 但是,越来越多的我不得不从统计数据中正确地阅读论文。我发现这些论文经常假定我对数学概念不了解,例如线性代数。因此,我变得坚信,如果我希望做的不仅仅是盲目使用所教的工具,那对我了解一些统计学的数学基础将是有用的。 因此,我有两个相关的问题: 如果我想重新掌握统计学的数学基础,哪种数学技术对我有用?我经常遇到线性代数,而且我相信对概率论的学习将是有用的,但是还有其他数学领域对我来说是有用的吗? 作为想进一步了解统计学的数学基础的人,您可以向我推荐哪些资源(在线或书本形式)?

4
为什么独立意味着零相关?
首先,我不是在问这个: 为什么零相关性并不意味着独立? 这在这里得到解决(相当好):https : //math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence 我要问的是相反的意思...说两个变量完全相互独立。 难道他们偶然之间没有一点联系吗? 不应该...独立意味着非常少的相关性吗?

4
贝叶斯统计如何处理先验缺失?
这个问题的灵感来自于我最近的两次互动,一次是在简历中,另一次是在Economics.se。 在那里,我已经发布了一个答案,以著名的“信封悖论”(请注意,不是在 “正确答案”,而是从具体的假设,流程约情况的结构的答案)。一段时间后,一个用户发表了评论,我进行了交谈,试图了解他的观点。很明显,他在思考贝叶斯方法,并不停地谈论先验-然后我恍然大悟,我对我自己说:“等一下,谁说过任何事先什么吗?在路上,我已经制定了问题,这里没有先验条件,他们只是不需要输入图片,也不需要”。 最近,我在简历中看到了关于统计独立性的答案。我向作者评论说他的判决 “ ...如果事件在统计上是独立的,那么(根据定义)我们不能从观察另一个事件中学到任何事情。” 是公然的错误。在评论交流中,他一直回头谈(他的话) ““学习”是否意味着基于对另一个事物的观察来改变我们对事物的信念? 再一次,很明显,他正在思考贝叶斯方法,并且他认为不言而喻,我们是从某种信念(即先验)开始的,然后是我们如何更改/更新它们的问题。但是,如何建立第一至第一的信念? 由于科学必须符合现实,因此我注意到存在这样的情况,即所涉及的人类没有先例(一件事,我一直都没有任何先例地进入情况,并且请不要争辩说我确实有先例,但是我只是不了解而已,让我们在此处进行虚假的精神分析)。 因为我碰巧听到过“无信息先验”一词,所以我将问题分为两个部分,并且我可以肯定,在贝叶斯理论中精通的用户确切知道我要问的问题: 问题1:是否没有先验等价物(从严格的理论意义上讲)与没有信息的先验相提并论? 如果对Q1的回答是“是”(请作详细说明),则意味着贝叶斯方法是普遍适用的,并且从一开始就适用,因为在任何情况下,涉案人员都宣称“我没有先验”,我们可以补充一下。它所处的先验地位对于手头的案件没有多大意义。 但是,如果对Q1的回答为“否”,那么Q2就会出现: 问题2:如果问题1的答案为“否”,是否表示在没有先验条件的情况下,贝叶斯方法从一开始就不适用,我们必须首先通过某种非贝叶斯方法形成先验条件,这样我们就可以随后应用贝叶斯方法了?

1
离散均匀分布中未替换的样本之间的最大间隙
这个问题与我实验室对机器人覆盖率的研究有关: 随机绘制Ñnn从组数字{ 1 ,2 ,... ,米}{1,2,…,m}\{1,2,\ldots,m\}无需更换,并以升序排序的数字。 。1 ≤ Ñ ≤ 米1≤n≤m1\le n\le m 从此排序的数字,生成连续数字和边界之间的差:。这给出了间隙。{ 一(1 ),一个(2 ),... ,一个(Ñ ) } {a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\}克= { 一(1 ),一个(2 ) - 一(1 ),... ,一个(Ñ ) - 一(ñ - 1 ),m + 1 - a (n ) } g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\}n +1个n+1n+1 最大差距的分布是什么? P (max (g …

2
中心极限定理的动力学系统观点?
(最初发布于MSE。) 我已经看到许多关于经典中心极限定理的启发式讨论,都把正态分布(或任何稳定分布)说成是概率密度空间中的“吸引子”。例如,在Wikipedia的治疗方法顶部考虑以下句子: 在更一般的用法中,中心极限定理是概率论中一组弱收敛定理中的任何一个。他们都表达了这样一个事实,即许多独立且均匀分布的(iid)随机变量的总和,或者具有特定依赖类型的随机变量将倾向于根据一小部分吸引子分布进行分布。当iid变量的方差是有限的时,吸引子分布为正态分布。 这种动态系统语言很有启发性。费勒在第二卷中对CLT的处理中也提到了“吸引力”(我想知道这是否是该语言的来源),而本笔记中的尤瓦尔·弗利姆斯(Yuval Flimus)甚至谈到了“吸引力盆地”。(我不认为他的意思是“ 事先可以推断出吸引盆的确切形式”,而是“ 事先可以推断出吸引子的确切形式”;但是,语言在那里。)我的问题是:这些可以吗?动态类比可以精确吗?我不知道它们在哪本书中-尽管许多书确实强调了正态分布对于卷积下的稳定性(以及傅立叶变换下的稳定性)是特殊的。这基本上告诉我们,法线很重要,因为它是一个固定点。CLT进一步发展,告诉我们这不仅是一个固定点,而且是吸引子。 为了使此几何图形精确,我假设将相空间作为一个合适的无限维函数空间(概率密度的空间),并将演化算子与初始条件重复卷积。但是我不知道使这张照片起作用的技术性或是否值得追求。 我猜想,因为我找不到确实可以明确采用这种方法的治疗方法,所以我认为这是可以做的或者很有趣,这肯定存在一些错误。如果是这样,我想听听为什么。 编辑:在整个Math Stack Exchange和MathOverflow中,读者可能会对三个类似的问题感兴趣: 高斯分布作为某些分布空间(MO)中的固定点 通过最大熵(MO)的中心极限定理 是否有通过某些不动点定理证明中心极限定理?(MSE)

2
对于哪种分布,有一个标准差的封闭形式的无偏估计量?
对于正态分布,存在以下标准偏差的无偏估计量: σ^无偏见的= Γ (n − 12)Γ (n2)1个2∑k = 1ñ(x一世− x¯)2------------√σ^unbiased=Γ(n−12)Γ(n2)12∑k=1n(xi−x¯)2\hat{\sigma}_\text{unbiased} = \frac{\Gamma(\frac{n-1}{2})}{\Gamma(\frac{n}{2})} \sqrt{\frac{1}{2}\sum_{k=1}^n(x_i-\bar{x})^2} 这个结果之所以不太为人所知的原因似乎是,它很大程度上是一个古玩,而不是任何重要的事项。证明覆盖在这个线程上 ; 它利用了正态分布的关键属性: 1个σ2∑k = 1ñ(x一世− x¯)2〜χ2n − 11σ2∑k=1n(xi−x¯)2∼χn−12 \frac{1}{\sigma^2} \sum_{k=1}^n(x_i-\bar{x})^2 \sim \chi^{2}_{n-1} 从那里开始,只需做一些工作,就可以期望,并通过将此答案识别为的倍数,我们可以得出。σ σ无偏E (∑ñk = 1(x一世− x¯)2------------√)E(∑k=1n(xi−x¯)2)\mathbb{E}\left( \sqrt{\sum_{k=1}^n(x_i-\bar{x})^2} \right)σσ\sigmaσ^无偏见的σ^unbiased\hat{\sigma}_\text{unbiased} 这让我很好奇,哪些其他分布具有标准差的闭合形式的无偏估计量。与方差的无偏估计器不同,这显然是特定于分布的。此外,要适应证明以找到其他分布的估计量,并非易事。 偏态正态分布的二次形式具有良好的分布特性,我们使用的正态分布特性实际上是一种特殊情况(因为正态是偏态正态的一种特殊类型),因此也许很难将此方法扩展到他们。但是对于其他分配,似乎需要一种完全不同的方法。 是否存在其他已知此类估计量的分布?

1
足够的统计,细节/直觉问题
我在自学一些有趣的统计数据,并且对足够的统计数据有些困惑。我将以列表格式列出我的困惑: 如果分布具有nnn参数,那么它将具有nnn足够的统计量吗? 足够的统计量和参数之间是否存在某种直接对应关系?还是将足够的统计信息用作“信息”库,以便我们可以重新创建设置,以便可以为基础分布的参数计算相同的估计值。 所有发行版都有足够的统计信息吗?即。分解定理会失败吗? 使用我们的数据样本,我们假设数据最有可能来自该分布,然后可以为该分布的参数计算估计值(例如MLE)。足够的统计数据是一种能够对参数计算相同估计值而不必依赖数据本身的方法,对吗? 所有足够的统计信息集都会具有最小的统计信息吗? 这是我用来尝试理解主题的材料:https : //onlinecourses.science.psu.edu/stat414/node/283 据我了解,我们有一个分解定理,它将联合分布分解为两个函数,但是我不明白在将分布分解为函数后,我们如何能够提取足够的统计量。 本例中给出的泊松问题具有明确的因式分解,但随后指出,足够的统计量是样本均值和样本和。仅通过看第一个方程的形式,我们怎么知道这些才足够? 如果因式分解结果的第二个方程有时取决于数据值XiXiX_i本身,那么如何使用足够的统计量进行相同的MLE估计呢?例如在泊松案例中,第二个函数取决于数据阶乘乘积的倒数,因此我们将不再拥有数据! 相对于网页上的Poisson示例,为什么样本量nnn不够统计?我们将要求n重构第一个函数的某些部分,所以为什么它也不足够统计呢?nnn

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.