Questions tagged «intuition»

寻求对统计数据进行概念或非数学理解的问题。

5
关于Kullback-Leibler(KL)分歧的直觉
我了解了KL散度背后的直觉,因为模型分布函数与数据的理论/真实分布有多大差异。我正在阅读的资料继续说,这两个分布之间的“距离”的直观理解是有帮助的,但不应从字面上理解,因为对于两个分布和,KL散度在和不是对称的。PPP问QQPPP问QQ 我不确定如何理解最后的陈述,还是“距离”的直觉被打破了? 我希望看到一个简单但有见地的例子。

3
条件高斯分布背后的直觉是什么?
假设X〜 Ñ2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:X1个X1X_1X2= x2X2=x2X_2 = x_2 Ë[ P(X1个| X2= x2)] = μ1个+ σ12σ22(x2- μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) 和方差:V 一- [R [P(X1个| X2= x2)] = σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} 由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?X1X1X_1和之间的协方差如何X2X2X_2影响条件均值?

2
为什么斯坦因悖论只适用于尺寸直觉
Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测的经验贝叶斯方法》的第一章。nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 我的问题是:缺少\ mathbb {R} ^ 2的nnn维空间(对于n≥3n≥3n\ge 3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2R2\mathbb{R}^2nnn 换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2R2\mathbb{R}^2? 编辑1:响应@mpiktas对1.30之后的1.31的关注: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i所以Eμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).因此,我们有: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2N=2N=2。


13
蒙蒂·霍尔问题-我们的直觉会使我们失败吗?
从维基百科: 假设您正在一场游戏节目中,并且可以选择三扇门:一扇门后面是一辆汽车;在其他人之后,是山羊。您选择一扇门,说一号,然后知道门后有什么的主人打开另一扇门,说三号,它有一只山羊。然后,他对您说:“您要选择2号门吗?” 切换选择对您有利吗? 答案是肯定的-但这是极不明智的。大多数人对导致我们挠头甚至更好的机会的可能性有误解。我们可以从这个难题中走出什么一般规则,以便将来更好地训练我们的直觉?

3
转换变量密度的直观解释?
假设是pdf的随机变量。然后,随机变量具有pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} 我了解背后的原因。但我正在尝试寻找一种方法来向不了解微积分的人进行解释。特别是,我试图解释为什么出现在前面。我会刺一下它:1y√1y\frac{1}{\sqrt{y}} 假设具有高斯分布。pdf的几乎所有权重都在值之间,例如和但是对于,它映射到0到9 。因此,在将转换为的pdf中,权重已扩展到更大范围的值。因此,为真正的pdf,必须通过乘数来降低额外的权重XXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} 听上去怎么样? 如果有人能提供更好的解释或链接到文档或教科书中的内容,我将不胜感激。我在几本数学概论/统计入门书籍中找到了这个变量转换示例。但是我从来没有找到一个直观的解释:(

6
为什么“解释”具有直观意义?
我最近了解了一种概率推理原理,称为“ 解释 ”,并且我正试图抓住它的直觉。 让我设置一个方案。假设一种AA是发生地震的事件。让事件乙BB 作为欢乐的绿色巨人在城中漫步的事件。令CCC为地面震动的情况。让一个⊥⊥ 乙A⊥⊥BA \perp\!\!\!\perp B。正如你看到的,无论是一种AA或乙BB可引起CCC。 我使用“解释”推理,如果发生CCC,则P(一)P(A)P(A)或P(B )P(B)P(B)增加,但是另一个减少,因为我不需要其他理由来解释CCC发生的原因。但是,我现在的直觉告诉我,这两个P(一)P(A)P(A)和P(B )P(B)P(B)是否应该增加CCC发生,因为CCC发生更可能是任何原因的品牌CCC发生。 我该如何将目前的直觉与“解释”的想法相协调?我该如何使用解释来证明AAA和BBB有条件地依赖CCC?

4
哪里来自于中心极限定理(CLT)?
中央受限定理的一个非常简单的版本,如下 ,这是Lindeberg–Lévy CLT。我不明白为什么在左侧有。Lyapunov CLT说 但是为什么不是?谁能告诉我这些因素是什么,例如和?我们如何在定理中得到它们?n−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}

2
人为全球变暖的证据达到“黄金标准”:他们是如何做到的?
Reuter在2019年2月25日发表的文章中的这一消息目前已成为新闻: 人为全球变暖的证据达到“黄金标准” [科学家]说,人们对人类活动正在升高地球表面的热量的信心达到了“五西格玛”水平,这是一个统计量表,这意味着只有在这种情况下,如果存在没有变暖。 我相信这是指本文“庆祝气候变化科学三大关键事件的周年纪念日”,其中包含一个图,如下图所示(这是一个草图,因为我找不到原始的,类似的开源图像免费图片在这里找到)。来自同一研究小组的另一篇文章似乎是更原始的来源(此处使用1%的有效度而不是)。5个σ5σ5\sigma 该图显示了三个不同研究组的测量结果:遥感系统,卫星应用和研究中心以及位于汉斯维尔的阿拉巴马大学。 该图显示了信噪比随趋势长度变化的三个上升曲线。 所以,在某种程度上科学家在测量了全球变暖(或气候变化?)的人为信号水平,这显然是一些证据的科学标准。5个σ5σ5\sigma 对我来说,这样的图具有很高的抽象水平,它引发了许多问题,并且总的来说,我对“他们是如何做到的?”这个问题感到好奇。。我们如何用简单的单词(不是那么抽象)来解释这个实验,又如何解释级别的含义?††^{\dagger}5个σ5σ5\sigma 我在这里问这个问题是因为我不想讨论气候。相反,我想要有关统计内容的答案,尤其是要弄清楚使用/声明的语句的含义。5个σ5σ5 \sigma ††^\dagger什么是原假设?他们如何设置实验以获得人为信号?信号的影响大小是多少?只是一个很小的信号,而我们现在只是因为噪声在减小而测量,还是信号在增大?为创建统计模型做出什么样的假设,通过它们它们可以确定5 sigma阈值的交叉点(独立性,随机效应等)?为什么不同研究组的三个曲线不同,它们具有不同的噪声还是具有不同的信号?对于后者,对于概率和外部有效性的解释意味着什么?


13
条件概率公式背后的直觉是什么?
给定发生的情况下发生条件概率的公式为: P \ left(\ text {A}〜\ middle |〜\ text {B} \ right)= \ frac { P \ left(\ text {A} \ cap \ text {B} \ right)} {P \ left(\ text {B} \ right)}。 乙AA\text{A}BB\text{B}P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. 我的教科书以维恩图的形式解释了其背后的直觉。 给定BB\text{B}已经发生,\ text {A}发生的唯一方法AA\text{A}是使事件落在AA\text{A}和\ text {B}的交集处BB\text{B}。 在那种情况下,P(A|B)P(A|B)P\left(\text{A} \middle| …

1
GAM中的张量积交互作用的直觉(R中的MGCV程序包)
广义加性模型是例如 的模型。功能是平稳的,并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包,作者(Simon Wood)用R实例写了一本关于他的软件包的书。Ruppert等。(2003年)写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作: 如果我们在OLS地(只是一个beta) ,解释不会有问题。如果我们通过罚样条进行估计,那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”,然后立即注视着试图阅读我所发现的解释。我不够聪明,或者数学解释得不好,或者两者兼而有之。 代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te(),也不知道如何解释上述很酷的输出。就在前一天晚上,我做了一场噩梦,正在开会。我给大家看了一个很酷的图表,他们问我这是什么意思,我不知道。然后我发现我没有衣服。 任何人都可以通过一些机械和直觉来帮助我和后代,以了解这里引擎盖下面的情况吗?理想情况下,要说说正常的加性相互作用情况与张量情况之间的区别?在继续学习数学之前,用简单的英语说所有东西的好处是。

3
Fisher信息是什么信息?
假设我们有一个随机变量X〜˚F(x | θ )X〜F(X|θ)X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数,则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。 据我了解,费舍尔信息被定义为 一世(θ )= E [ (∂∂θF(X| θ))2]一世(θ)=Ë[(∂∂θF(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此,如果θ0θ0\theta_0是真实参数,一世(θ )= 0一世(θ)=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数,那么我们将有费希尔信息量更大。 我的问题 Fisher信息是否衡量给定MLE的“错误”?换句话说,是否存在积极的Fisher信息并不意味着我的MLE不够理想? “信息”的定义与Shannon使用的定义有何不同?我们为什么称其为信息?


2
零假设下线性回归中的分布是什么?为什么当时其模式不为零?
在原假设下,线性单变量多元回归中的确定系数或R平方的分布是什么?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 它如何取决于预测变量数量和样本数量?此分布方式是否有封闭形式的表达式?kkkn&gt;kn&gt;kn>k 特别是,我有一种感觉,对于简单回归(具有一个预测变量),此分布的众数为零,但对于多重回归,其众数为非零正值。如果确实是这样,是否对这种“相变”有直观的解释?xxx 更新资料 如下@Alecos所示,当和时,分布确实在零处达到峰值,而当时,分布则不在零处。我觉得应该对这种相变有一个几何的看法。考虑OLS的几何视图:是的向量,在此处定义一个维子空间。OLS等于将投影到该子空间上,并且是和其投影之间的角度的平方余弦。k=2k=2k=2k=3k=3k=3k&gt;3k&gt;3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2ÿyy\mathbf yy^y^\hat{\mathbf y} 现在,从@Alecos的答案可以得出结论,如果所有向量都是随机的,则对于和,该角度的概率分布将在处达到峰值,但在对于。为什么?!90∘90∘90^\circk=2k=2k=2k=3k=3k=3&lt;90∘&lt;90∘<90^\circk&gt;3k&gt;3k>3 更新2:我接受@Alecos的回答,但仍然感觉我在这里缺少一些重要的见解。如果有人对这种现象提出任何其他(无论是几何还是非几何)观点,使它变得“显而易见”,我将很乐意提供悬赏。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.