Questions tagged «intuition»

寻求对统计数据进行概念或非数学理解的问题。

1
对主题(双)空间中PCA的几何理解
我试图对主成分分析(PCA)在主题(双)空间中的工作方式有一个直观的了解。 考虑具有两个变量x1x1x_1和x2x2x_2以及nnn数据点的2D数据集(数据矩阵XX\mathbf X为n×2n×2n\times 2并假定为居中)。PCA的通常表示是,我们考虑R 2中的nnn个点,记下2 × 2协方差矩阵,并找到其特征向量和特征值。第一个PC对应于最大方差的方向,等等。这是协方差矩阵C = (4 2 2 2)的示例R2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)。红线表示按各自特征值平方根缩放的特征向量。 \hskip 1in 现在考虑一下主题空间中发生了什么(我从@ttnphns学到了这个术语),也称为对偶空间(机器学习中使用的术语)。这是一个nnn维空间,其中两个变量(两列XX\mathbf X)的样本形成两个向量x1x1\mathbf x_1和x2x2\mathbf x_2。每个变量向量的平方长度等于其方差,两个向量之间的夹角余弦等于它们之间的相关性。顺便说一下,这种表示在多元回归的治疗中非常标准。在我的示例中,主题空间如下所示(我只显示了由两个变量向量跨越的2D平面): \hskip 1in 主成分是两个变量的线性组合,将在同一平面上形成两个向量和p 2。我的问题是:如何在这样的图形上使用原始变量矢量来形成主成分变量矢量的几何理解/直觉是什么?给定x 1和x 2,什么几何过程将产生p 1?p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下是我目前对此的部分理解。 首先,我可以通过标准方法计算主要成分/轴并将其绘制在同一图上: \hskip 1in 此外,我们可以注意到,选择要使x i(蓝色矢量)与其在p 1上的投影之间的距离的平方和最小。这些距离是重建误差,并且用黑色虚线显示。等效地,p 1使两个投影的平方长度的总和最大化。这完全指定了p 1,并且当然完全类似于主空间中的类似描述(请参见我对“理解主成分分析,特征向量和特征值”的回答中的动画)。另请参阅@ttnphns答案的第一部分。p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf p_1p1p1\mathbf p_1 但是,这还不够几何!它没有告诉我如何找到这样的,也没有指定其长度。p1p1\mathbf …

2
了解独立成分分析
我已经看到并喜欢了“ 使主成分分析有意义”这个问题,现在对于独立成分分析也有相同的问题。我的意思是我想对理解ICA的直观方式提出一个全面的问题? 我想了解。我想达到目的。我想得到它的感觉。我坚信: 除非您可以向祖母解释,否则您并不会真正理解。 - 艾尔伯特爱因斯坦 好吧,我无法向外行或奶奶解释这个概念 为什么选择ICA?这个概念有什么需要? 您将如何向外行解释?
18 intuition  ica 

2
聚类—克莱因伯格不可能定理的直觉
我一直在考虑写一篇有关Kleinberg(2002)的有趣分析的博客文章,该文章探讨了聚类的困难。克莱伯格(Kleinberg)概述了三个看似直观的聚类功能,然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是,没有一个功能可以同时满足这三个条件。 简要和非正式地,他概述了三个愿望: Scale-Invariance:如果我们对数据进行转换以使所有内容在各个方向上均等地伸展,则聚类结果不应更改。 一致性:如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小,则聚类结果不应更改。 丰富性:理论上,聚类函数应该能够产生任意的数据点分区/聚类(在不知道任何两点之间的成对距离的情况下) 问题: (1)是否有一个良好的直觉,几何图形可以显示这三个标准之间的不一致? (2)这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。 在本文中,定理3.1的证明对于我而言有些困难。我被困在:“让是一个满足一致性的聚类函数。我们声称,对于中的任何分区,都存在正实数,从而该对是强制。”Γ &Element; 范围(˚F )一个&lt; b (一,b )ΓfffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 我不知道这是怎么回事...下面的分区不是(例如,群集之间的最小距离大于群集内的最大距离)的反例吗?a&gt;ba&gt;ba > b 编辑:这显然不是一个反例,我使自己感到困惑(请参阅答案)。 其他论文: Ackerman和Ben-David(2009)。聚类质量的度量:聚类的公理集 指出“一致性”公理的一些问题

2
为什么样本的CDF均匀分布
我在这里读到,给定样本来自cdf的连续分布,该样本对应于X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) 遵循标准均匀分布。 我已经使用Python中的定性模拟对此进行了验证,并且我很容易就能验证这种关系。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 结果如下图: 我无法理解为什么会这样。我认为这与CDF的定义及其与PDF的关系有关,但是我缺少一些东西... 如果有人可以指点我阅读有关该主题的文章或帮助我获得对该主题的直觉,我将不胜感激。 编辑:CDF看起来像这样:
17 pdf  uniform  cdf  intuition 

2
对于什么(对称)分布,样本意味着比样本中位数更有效的估计器?
我一直认为,样本中位数比样本均值对集中趋势的度量更为可靠,因为它忽略了离群值。因此,我很惊讶地得知(在另一个问题中),对于从正态分布中抽取的样本,样本均值的方差小于样本中位数的方差(至少对于大)。nñn 我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点,从而有助于直觉何时使用中位数而不是其他分布的均值? 是否有数学工具可以帮助快速回答特定分布的问题?

3
拟最大似然估计(QMLE)背后的想法和直觉
问题:拟最大似然估计(QMLE;又称伪最大似然估计,PMLE)背后的思想和直觉是什么?当实际误差分布与假定误差分布不匹配时,使估算器工作的原因是什么? QMLE 的Wikipedia站点很好(简要,直观),但是我可以使用更多的直觉和细节,也许还可以作为例证。其他参考文献也很受欢迎。(我记得翻阅了很多计量经济学教科书,以寻找有关QMLE的资料,而令我惊讶的是,QMLE仅涵盖其中一到两个,例如Wooldridge “横截面和面板数据的计量经济学分析”(2010年),第13章第11节,第502-517页。)

3
危险率背后的直觉
我对危险率的定义方程感到困惑。我知道了危险率是多少,但我只是不明白方程式如何表达这种直觉。 如果是一个随机变量,表示某个时间间隔上某人的死亡时间。那么危险率是:xxx[0,T][0,T][0,T] h(x)=f(x)1−F(x)h(x)=f(x)1−F(x)h(x)=\frac{f(x)}{1-F(x)} 其中F(x)F(x)F(x)表示直到时间点x \ in [0,T]的死亡概率x∈[0,T]x∈[0,T]x\in[0,T], 1−F(x)1−F(x)1-F(x)表示直到时间点x \ in [0,T]都存活的概率x∈[0,T]x∈[0,T]x\in[0,T], 而f(x)f(x)f(x)是在x点死亡的概率xxx。 用f(x)除以f(x)f(x)f(x)生存率如何解释下一个\ Delta t中瞬时死亡概率的直觉ΔtΔt\Delta t?难道不是f(x)f(x)f(x),使危险率的计算变得微不足道吗?

2
为什么将标准偏差定义为方差的平方根而不是N的平方和的平方根?
今天我教了一门统计学入门课,一个学生问我一个问题,在这里我改写为:“为什么标准偏差定义为方差的平方根而不是N的平方和的平方根?” 我们定义总体方差:σ2=1N∑(xi−μ)2σ2=1N∑(xi−μ)2\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2} 和标准差:。σ=σ2−−√=1N√∑(xi−μ)2−−−−−−−−−−√σ=σ2=1N∑(xi−μ)2\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}} 我们可能对的解释是,它给出了总体中单位与的总体平均值的平均偏差。σσ\sigmaXXX 但是,在sd的定义中,我们将平方和的平方根除以。学生提出的问题是,为什么我们不划分平方庙的开方代替。因此,我们得出了竞争公式:学生认为,这种公式看起来更像由平均通过时分割比一个“平均”偏差如在。N−−√N\sqrt{N}NNNσnew=1N∑(xi−μ)2−−−−−−−−−−√.σnew=1N∑(xi−μ)2.\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.N−−√N\sqrt{N}σσ\sigma 我认为这个问题并不愚蠢。我想给学生一个答案,那就是说sd 定义为方差的平方根,即均方根偏差。换句话说,为什么学生应该使用正确的公式而不遵循她的想法? 该问题与此处提供的旧主题和答案有关。那里的答案有三个方向: σσ\sigma是均方根(RMS)偏差,而不是与平均值的“典型”偏差(即)。因此,它的定义有所不同。σnewσnew\sigma_{new} 它具有良好的数学特性。 此外,sqrt将使“单位”恢复到原始大小。但是,也是如此,它被N除以。σnewσnew\sigma_{new}NNN 第1点和第2点都是支持sd作为RMS的参数,但是我看不到反对使用σnewσnew\sigma_{new}。怎样说服入门级学生使用均方根平均距离σσ\sigma与均值?

1
EM,有一个直观的解释吗?
EM程序对初学者来说或多或少是黑魔法。使用监督数据估计HMM的参数(例如)。然后解码未加标签的数据,使用向前或向后“计数”事件,就好像该数据已被加标签一样。为什么这会使模型更好?我确实对数学有所了解,但我一直希望对数学有所了解。

2
关于混合模型中参数估计的直觉(方差参数与条件模式)
我已经读过很多次了,随机效应(例如,对象的BLUP /条件模式)不是线性混合效应模型的参数,而是可以从估计的方差/协方差参数中得出的。例如Reinhold Kliegl等。(2011)状态: 随机效应是受试者与总体均值RT的偏差以及受试者与固定效应参数的偏差。假定它们是独立且均值为0的正态分布。重要的是要认识到,这些随机效应不是 LMM的参数-只有它们的方差和协方差才是。LMM参数与受试者的数据结合可用于为每个受试者生成随机效果的“预测”(条件模式)。 有人可以给出直观的解释,如何在不实际使用/估计随机效应的情况下估计随机效应的(协)方差参数吗?

4
如何发展条件概率的直觉?
在可以在iTunes和YouTube上找到的哈佛大学统计110:概率课程的视频讲座中,我遇到了这个问题。 我试图在这里总结一下: 假设我们从标准牌组中随机获得两张牌。 如果我们至少有一张王牌,那么两张牌都是王牌的概率是多少? P(both aces|have ace)=P(both aces,have ace)P(have ace)P(both aces|have ace)=P(both aces,have ace)P(have ace) P(both\ aces | have\ ace) = \frac{P(both\ aces, have\ ace)}{P(have\ ace)} 由于如果您同时拥有两个A,则意味着至少要有一个A,因此可以将交集减少为P(both aces)P(both aces)P(both\ aces) P(both aces|have ace)=P(both aces)P(have ace)P(both aces|have ace)=P(both aces)P(have ace) P(both\ aces | have\ ace) = \frac{P(both\ aces)}{P(have\ ace)} 这就是 P(both …

4
典型设定概念
我认为典型集合的概念非常直观:如果序列出现的可能性很高,则长度为的序列将属于典型集合A (n ) ϵ。因此,任何可能的序列都将在A (n ) ϵ中。(我避免了与熵有关的形式定义,因为我试图从质上理解它。)nnnA(n)ϵAϵ(n)A_\epsilon ^{(n)}A(n)ϵAϵ(n)A_\epsilon ^{(n)} 但是,我读到,一般而言,最可能的序列不属于典型集合。这让我很困惑。 有典型集合的直观定义吗?还是仅仅是一个与常识无关的数学工具?

2
了解距离相关计算
据我了解,距离相关是一种健壮且通用的方法,用于检查两个数字变量之间是否存在关系。例如,如果我们有一组数字对: (x1, y1) (x2, y2) ... (xn, yn) 我们可以使用距离相关来检查两个变量(x和y)之间是否存在任何(不一定是线性的)关系。而且,x并且y可以是不同维度的向量。 计算距离相关性相对容易。首先,我们使用计算距离矩阵。然后我们使用计算距离矩阵。这两个距离矩阵的维数相同,因为x_i和y_i的数目相同(因为它们成对出现)。ÿ 我X 我ÿ 我xixix_iyiyiy_ixixix_iyiyiy_i 现在我们有很多距离可以配对。例如,(2,3)来自第一距离矩阵的元素(2,3)与来自第二距离矩阵的元素配对。因此,我们有一组成对的距离,我们可以用它来计算相关性(距离之间的相关性)。 如果两种类型的距离相关,则意味着接近Xs通常意味着接近Ys。例如,如果接近,则意味着y_7可能接近y_ {13}。因此,我们可以得出结论,Xs和Ys是相关的。x 13 y 7 y 13x7x7x_7x13x13x_{13}y7y7y_7y13y13y_{13} 听起来很合理,但是我不了解两个方面。 首先,要计算距离相关性,我们不直接使用两个距离矩阵。我们对其应用双重居中过程(以便任何行(或列)中所有元素的总和等于零)。我不明白为什么我们需要这样做。此步骤背后的逻辑(或直觉)是什么? 其次,在原始距离矩阵中,对角线上有零。因此,如果我们计算距离之间的相关性,则将具有统计上显着的相关性,因为第一矩阵中的许多零与第二矩阵中的对应零成对。该问题如何解决?

4
确定性世界中的机会运作
在史蒂文·平克(Steven Pinker)的书《我们的天性更好的天使》中,他指出 概率是一个透视问题。在足够近的范围内观察,个别事件具有确定的原因。甚至可以从起始条件和物理定律预测出掷硬币的情况,熟练的魔术师每次都可以利用这些定律投头。但是,当我们进行放大以对大量此类事件进行广角观察时,我们会看到大量原因的总和,这些原因有时相互抵消,有时沿同一方向排列。物理学家和哲学家亨利·庞加莱(Henri Poincare)解释说,当大量的微不足道的原因加在一起产生可怕的影响,或者当一个小的原因未能引起我们注意时,我们便会在确定性世界中看到机会的运作,而​​我们无法错过。如果是有组织的暴力,可能有人会发动战争;他等待机会的时刻,可能会或可能不会到来;他的敌人决定参与或撤退;子弹飞 炸弹爆炸;人们死了。每个事件都可以由神经科学,物理学和生理学定律确定。但是,总的来说,进入此矩阵的许多原因有时可以改组为极端组合。(第209页) 我对加粗的句子特别感兴趣,但其余内容供我参考。我的问题是:是否有统计学方法描述Poincare描述的两个过程?这是我的猜测: 1)“大量微不足道的影响加起来令人震惊。” 我听到的“大量原因”和“累加”就像中心极限定理。但是,在CLT(的经典定义)中,原因需要是随机变量,而不是确定性影响。这里的标准方法是将这些确定性效应近似为某种随机变量吗? 2)“忽略我们的一个小原因决定了我们不能错过的一个大影响。” 在我看来,您可以将其视为某种隐藏的马尔可夫模型。但是,HMM中的(不可观察到的)状态转换概率就是那个概率,根据定义,它还是不确定的。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.