Questions tagged «intuition»

寻求对统计数据进行概念或非数学理解的问题。

9
有直观的解释为什么多重共线性是线性回归中的问题吗?
Wiki讨论了当多重共线性是线性回归中的一个问题时出现的问题。基本问题是多重共线性会导致参数估计不稳定,这使得很难评估自变量对因变量的影响。 我理解的问题背后的技术原因(可能无法反转,病态等),但我正在寻找这个问题的一个比较直观的(也许是几何?)的解释。X ' XX′XX′XX' XX′XX′XX' X 关于在线性回归的背景下多重共线性为什么有问题,是否存在一种几何的或也许其他易于理解的解释形式?

8
最合适的线看起来不太合适。为什么?
看看这个Excel图: “常识”的最佳拟合线将是一条垂直于点中心的几乎垂直的线(用红色手工编辑)。但是,由Excel确定的线性趋势线是所示的对角黑色线。 为什么Excel产生了(在人眼中)看来是错误的东西? 如何生成看起来更直观的最佳拟合线(即类似红线的东西)? 更新1.此处提供带有数据和图形的Excel电子表格: 示例数据,Pastebin中的CSV。type1和type2回归技术可以用作excel函数吗? 更新2。数据表示滑翔伞在热中攀爬,随风漂移。最终目标是研究风的强度和方向如何随高度变化。我是工程师,而不是数学家或统计学家,因此这些回复中的信息为我提供了更多的研究领域。

10
直观地理解“差异”
解释某人方差概念的最干净,最简单的方法是什么?直觉上是什么意思?如果要向他们的孩子解释这一点,那该怎么办? 这是我很难阐明的概念,尤其是在将差异与风险相关时。我在数学上理解它,也可以用这种方式解释它。但是,在解释现实世界现象时,可以这么说,您如何理解方差及其在“现实世界”中的适用性。 假设我们正在使用随机数来模拟对股票的投资(滚动骰子或使用Excel表格都没关系)。通过将随机变量的每个实例与回报中的“某些变化”相关联,我们可以获得“投资回报”。例如。: 滚动1意味着0.8%的变化$ 1的投入,5 1.1%的变化$ 1等。 现在,如果此模拟运行大约50次(或20或100),我们将获得一些价值和最终投资价值。那么,“方差”实际上告诉我们是否要根据上述数据集进行计算?一个“看到”的是什么-如果方差变成1.7654或0.88765或5.2342,这甚至意味着什么?我对这项投资有何看法?我可以得出一些结论-用外行的话来说。 请也随意增加标准偏差的问题!尽管我觉得理解起来“更容易”,但是将有助于使它也“直观地”变得清晰起来,这一点将不胜感激!



18
统计面试题
我正在寻找一些统计信息(从可能性到概率),从最基本的到更高级的。答案不是必需的(尽管指向本网站上特定问题的链接会很好)。

4
概率分布的“矩”又是什么“矩”?
我知道什么是矩,如何计算矩,以及如何使用矩生成函数获取高阶矩。是的,我知道数学。 现在,我需要润滑工作中的统计知识,我想我也应该问这个问题-困扰我大约几年了,回到大学后,没有教授知道答案,或者只是拒绝回答这个问题(诚实地) 。 那么“矩”一词在这种情况下是什么意思?为什么选择这个词?对我来说,这听起来不直观(或者我从没在大学时就这么听过:)想到它,我同样对它在“惯性矩”中的用法感到好奇;)但让我们暂时不关注它。 因此,分布的“时刻”是什么意思,它试图做什么,以及为什么要这样说!:)为什么有人在乎时刻?在这一刻,我对那一刻感到不舒服;) PS:是的,我可能也曾问过类似的方差问题,但我确实很重视直观的理解,而不是“在书中查找以找出问题” :)


13
连续10个头是否增加了下一次折腾成为尾巴的机会?
我假设以下情况是正确的:假设硬币是公平的,则抛硬币时连续获得10个正面,这并不会增加下一个抛硬币成为尾巴的机会,无论周围扔了多少概率和/或统计术语(打扰) 假设情况是这样,我的问题是:我该如何说服某人呢? 他们很聪明,受过良好教育,但似乎决心不考虑我在这个问题上的正确性。


5
关于PCA如何从几何问题(具有距离)转变为线性代数问题(具有特征向量)的直观解释是什么?
我读过很多关于PCA,包括各种教程和问题(如这一个,这一个,这一个,而这一个)。 PCA试图优化的几何问题对我来说很清楚:PCA试图通过最小化重建(投影)误差来找到第一个主成分,这同时使投影数据的方差最大化。 当我第一次阅读该书时,我立即想到了线性回归之类的东西。也许您可以根据需要使用梯度下降法解决它。 但是,当我看到通过使用线性代数并找到特征向量和特征值来解决优化问题时,我的想法震惊了。我根本不了解线性代数的这种用法如何发挥作用。 所以我的问题是:PCA如何从几何优化问题变成线性代数问题?有人可以提供直观的解释吗? 我不是在寻找像一个回答这一个,说:“当你解决PCA的数学问题,它最终被等同于找到协方差矩阵的特征值和特征向量。” 请解释为什么特征向量出来是主要成分,为什么特征值出来是投影到它们上的数据的方差 顺便说一句,我是软件工程师,而不是数学家。 注意:上图是从本PCA教程中获取并修改的。

3
SVD背后的直觉是什么?
我已经读过关于奇异值分解(SVD)的文章。在几乎所有的教科书中都提到将矩阵分解为具有给定规格的三个矩阵。 但是,以这种形式拆分矩阵背后的直觉是什么?PCA和其他用于降维的算法在算法具有良好的可视化特性的意义上是直观的,但使用SVD并非如此。

4
为什么X和XY随机变量之间的相关系数趋于0.7
摘自道格拉斯·奥特曼(Douglas Altman)在第285页上写的《医学研究实用统计》: ...对于任意两个X和Y,X将与XY相关。确实,即使X和Y是随机数的样本,我们也希望X和XY的相关性为0.7 我在R中尝试过这种情况,似乎是这样的: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu) 这是为什么?这背后的理论是什么?


11
是否可以在不使用绘图和线性代数的情况下完成简单的线性回归?
我完全是盲人,来自编程背景。 我想做的是学习机器学习,为此,我首先需要学习线性回归。我在互联网上找到的有关该主题的所有说明都首先绘制了数据。我正在寻找不依赖于图和图的线性回归的实用解释。 这是我对简单线性回归的目标的理解: 简单的线性回归试图找到一旦给出的公式,即可X为您提供最接近的估算值Y。 因此,据我所知,需要做的是将预测变量(例如,以平方英尺为单位的房屋面积)与自变量(价格)进行比较。在我的示例中,您可能可以创建一种非可视的方法,以获取最佳公式以从房屋面积计算房屋价格。例如,也许您会得到附近一千套房屋的面积和价格,然后将价格除以面积?结果(至少在我所居住的伊朗)差异很小。因此,您可能会得到以下信息: Price = 2333 Rials * Area of the house 当然,您将需要遍历数据集中的所有1000栋房屋,将面积放在上面的公式中,将估算值与实际价格进行比较,对结果求平方(我想防止差异互相抵消)然后获取一个数字,然后继续使用2333来减少错误。 当然,这是蛮力选择,可能需要花费很多时间才能计算出错误并得出最佳选择,但是您明白我的意思了吗?我没有说任何关于图形,线条,情节上的点的信息,也不是将线条拟合到现有数据的最佳方法。 那么,为什么要为此需要散点图和线性代数呢?有没有非视觉的方式? 首先,我的假设正确吗?如果没有,我希望得到纠正。我是否可以在不使用线性代数的情况下提出公式? 如果能得到一个带有解释的示例,我将不胜感激,以便我可以将其与文字一起使用以检验我的理解。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.