Questions tagged «intuition»

寻求对统计数据进行概念或非数学理解的问题。

2
罚线性回归的几何解释
我知道线性回归可以认为是“垂直上最接近所有点的线”: 但是,通过可视化列空间,还有另一种查看方式,即“在系数矩阵的列所跨越的空间上的投影”: 我的问题是:在这两种解释中,当我们使用惩罚线性回归(如岭回归和 LASSO)时会发生什么?在第一个解释中该行会发生什么?在第二种解释中,投影会发生什么? 更新: @JohnSmith在评论中提到了惩罚发生在系数空间中的事实。在这个领域也有解释吗?


4
标准差背后的直觉
我试图更好地直观了解标准差。 据我所知,它代表着数据集中的一组观测值与该数据集的平均值之差的平均值。但是,它实际上并不等于差的平均值,因为它使平均值之外的观测值更具权重。 假设我有以下几种值-{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} 平均值是。555 如果我根据绝对值来衡量点差,我会得到 ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 如果我使用标准偏差对价差进行度量,我会得到 ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 如预期的那样,使用标准偏差的结果更大,因为它赋予了远离平均值的额外权重。 但是,如果仅告诉我我正在处理一个均值为且标准偏差为的总体,那么我如何推断该总体是由诸如?似乎的数字非常武断...我看不出您应该如何解释它。难道意味着该值是传播很广或者是他们都紧紧围绕均值聚类...2.83 { 1 ,3 ,5 ,7 ,9 } 2.83 2.835552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 当您看到一个陈述,即您正在处理一个均值为且标准偏差为的总体时,这将告诉您有关总体的什么信息?2.835552.832.832.83

1
如何直观地理解SARIMAX?
我正在尝试阅读有关电力负荷预测的论文,但我在内部概念(特别是SARIMAX模型)中苦苦挣扎。该模型用于预测负载,并使用许多我不了解的统计概念(我是本科计算机科学专业的学生,​​您可以认为我是统计学的外行)。我没有必要完全了解它是如何工作的,但是我至少想直观地了解正在发生的事情。 我一直在尝试将SARIMAX分成较小的部分,并试图分别理解每个部分,然后将它们组合在一起。你们能帮我吗?到目前为止,这就是我所拥有的。 我从AR和MA开始。 AR:自回归。我已经了解了回归是什么,并且据我所知,它只是回答了这个问题:给定一组值/点,如何找到一个解释这些值的模型?因此,例如,我们有线性回归,它试图找到一条可以解释所有这些点的线。自回归是一种试图使用先前的值解释值的回归。 MA:移动平均线。我实际上在这里很迷路。我知道什么是移动平均线,但是移动平均线模型似乎与“正常”移动平均线没有任何关系。该模型的公式似乎与AR很尴尬,我似乎无法理解我在互联网上找到的任何概念。MA的目的是什么?MA和AR有什么区别? 所以现在有了ARMA。然后,我来自Integrated,据我所知,它仅是为了使ARMA模型具有增加或减少的趋势。(这是否等于说ARIMA允许它是非平稳的?) 现在是来自季节性的S,这增加了ARIMA的周期性,例如,在负载预测的情况下,该参数基本上表示每天6 PM的负载看起来非常相似。 最后,来自外生变量的X基本上允许在模型中考虑外部变量,例如天气预报。 所以我们终于有了SARIMAX!我的解释可以吗?认识到这些解释并不需要严格正确。有人可以直观地解释我的意思吗?

7
概率和比例之间有什么区别?
假设我多年来每个星期二都吃汉堡包。您可以说我有14%的时间吃汉堡包,或者在给定的一周内我有汉堡包的概率为14%。 概率和比例之间的主要区别是什么? 概率是预期的比例吗? 概率是否不确定且比例是否得到保证?

5
寻求某种类型的ARIMA解释
这可能很难找到,但是我想阅读一个很好解释的ARIMA示例, 使用最少的数学 将讨论从构建模型扩展到使用该模型预测特定案例 使用图形和数值结果来表征预测值和实际值之间的拟合度。

2
您能用外行的术语解释Parzen窗口(内核)密度估计吗?
Parzen窗口密度估计被描述为 p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) 其中nnn是在向量元素的数目,是一个向量,被的概率密度,是Parzen窗的尺寸,和是窗口函数。xxxp(x)p(x)p(x)xxxhhhϕϕ\phi 我的问题是: Parzen窗口函数和其他密度函数(例如高斯函数)之间的基本区别是什么? 窗口函数()在查找的密度中的作用是什么?ϕϕ\phixxx 为什么我们可以插入其他密度函数来代替窗口函数? 在求密度中的作用是什么?hhhxxx

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。


5
贝叶斯定理直觉
我一直在尝试根据先验,后验,似然和边际概率对贝叶斯定理进行基于直觉的理解。为此,我使用以下等式: 其中代表假设或信念,代表数据或证据。 我已经了解了后验的概念-它是一个结合了先验信念和事件可能性的统一实体。我不明白的是什么呢的可能性,意味着什么?为什么边际 ABP(B | A )= P(A | B )P(B )P(一)P(乙|一种)=P(一种|乙)P(乙)P(一种)P(B|A) = \frac{P(A|B)P(B)}{P(A)}一种一种A乙乙B分母中的概率? 在回顾了一些资源之后,我发现了这句话: 的似然性是事件的重量通过的发生给定 ...是后验事件的概率,假定事件已经发生。A P (B | A )B A乙乙B一种一种AP(B | A )P(乙|一种)P(B|A)乙乙B一种一种A 以上2句话对我来说似乎是相同的,只是写法不同。谁能解释一下两者之间的区别?

2
在统计中定义完整性是不可能从其形成无偏估计
在经典统计中,有一个定义是将一组数据的统计量定义为对于参数是完整的,因此不可能从中简单地形成的无偏估计量。也就是说,使所有的唯一方法是几乎肯定地使为。TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 这背后有直觉吗?似乎这是一种比较机械的定义方式,我知道以前已经有人问过这个问题,但是我想知道是否存在一种非常容易理解的直觉,这会使入门级学生更容易地消化材料。

1
是否有逻辑上的解释说明为什么逻辑回归不适用于完美分离的情况?以及为什么添加正则化将解决此问题?
关于逻辑回归中的完美分离,我们有很多很好的讨论。例如,R中的逻辑回归导致完美的分离(Hauck-Donner现象)。怎么办?和Logistic回归模型不收敛。 我个人仍然觉得这为什么会是一个问题以及为什么添加正则化可以解决这个问题并不直观。我制作了一些动画,并认为这会有所帮助。因此,请亲自发布他的问题并回答,以便与社区分享。

7
为什么对称正定(SPD)矩阵如此重要?
我知道对称正定(SPD)矩阵的定义,但想了解更多。 从直觉上为什么它们如此重要? 这就是我所知道的。还有什么? 对于给定的数据,协方差矩阵为SPD。协方差矩阵是一项重要的指标,有关直观说明,请参见这篇出色的文章。 如果是SPD ,则二次形式是凸的。凸性对于可以确保本地解决方案是全局解决方案的函数是很好的属性。对于凸问题,有很多好的算法可以解决,但对于非凸问题则没有。甲12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA 当为SPD时,二次形式的优化解与线性系统的解相同。因此,我们可以在两个经典问题之间进行转换。这很重要,因为它使我们能够使用在另一个域中发现的技巧。例如,我们可以使用共轭梯度法求解线性系统。减少1AAA甲X=bminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b 有许多很好的算法(快速,数值稳定)对SPD矩阵更有效,例如Cholesky分解。 编辑:我不是想问一下SPD矩阵的身份,而是属性背后的直觉来显示重要性。例如,正如@Matthew Drury所提到的,如果矩阵是SPD,则特征值都是正实数,但是为什么所有正数都重要。@Matthew Drury对流动有一个很好的答案,这就是我想要的。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.