统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
为什么在GAM中包含纬度和经度会引起空间自相关?
我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。 我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。 如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?

8
如何帮助确保测试数据不会泄漏到训练数据中?
假设我们有一个人建立了预测模型,但是不一定有人对适当的统计或机器学习原理很精通。也许我们正在帮助那个人在学习中,或者那个人正在使用某种需要最少知识的软件包。 现在,这个人可能会很好地认识到真正的测试来自样本外数据的准确性(或其他任何度量标准)。但是,我担心的是,这里有很多微妙的问题要担心。在简单的情况下,他们建立模型并根据训练数据对其进行评估,并根据保留的测试数据对其进行评估。不幸的是,有时返回该位置并调整一些建模参数并检查相同“测试”数据的结果有时太容易了。此时,数据不再是真正的样本外数据,过拟合可能会成为问题。 解决此问题的一种可能方法是建议创建许多样本外数据集,以使每个测试数据集在使用后都可以丢弃,而根本无法再使用。但是,这需要大量的数据管理,尤其是必须在分析之前完成拆分(因此,您需要事先知道有多少拆分)。 也许更常规的方法是k倍交叉验证。但是,从某种意义上讲,我认为“训练”和“测试”数据集之间的区别会消失,特别是对于那些仍在学习的人。同样,我也不认为这对所有类型的预测模型都有意义。 有什么方法可以被我忽略,以帮助克服过度安装和测试泄漏的问题,同时仍然对没有经验的用户保持一定的了解?



6
在哪里切割树状图?
层次聚类可以用树状图表示。在一定水平上切割树状图可得到一组簇。切割到另一个级别将提供另一组群集。您将如何选择在哪里切割树状图?有什么可以考虑的最佳点吗?如果我查看随时间变化的树状图,是否应该在同一时间剪切?


5
k均值聚类和PCA之间有什么关系?
通常的做法是在聚类算法(例如k均值)之前应用PCA(主要成分分析)。据信,它在实践中改善了聚类结果(降噪)。 但是,我有兴趣对PCA和k-means之间的关系进行比较和深入的研究。例如,Chris Ding和Hexiaofeng He,2004年,通过主成分分析进行的K-means聚类分析表明:“主要成分是K-means聚类离散聚类成员指标的连续解”。但是,我很难理解本文,而Wikipedia实际上声称这是错误的。 同样,从PCA有助于减少“特征”数量而又保留方差的角度来看,这两种方法的结果有些不同,而聚类通过根据期望/均值汇总几个点来减少“数据点”的数量。 (对于k均值)。因此,如果数据集由每个具有特征的个点组成,则PCA旨在压缩特征,而聚类旨在压缩数据点。NNNŤ ÑTTTTTTNNN 我正在寻找关于这两种技术之间关系的外行解释,以及更多有关这两种技术的技术论文。

7
成本函数评估缓慢时的优化
梯度下降和许多其他方法可用于在成本函数中找到局部最小值。当可以在数字或分析上快速评估成本函数时,它们会非常有效。 我觉得这是一种不寻常的情况。我的成本函数的每次评估都很昂贵。我正在尝试找到一组参数,以将3D表面相对于地面真实表面最小化。每当我更改参数时,都需要针对整个样本队列运行算法以衡量其效果。为了计算梯度,我需要独立更改所有15个参数,这意味着我必须重新生成所有曲面并与样本同类进行比较,每个梯度的次数太多,并且在优化过程中肯定也进行了太多次。 我已经开发出一种方法来解决此问题,并且目前正在对其进行评估,但令我感到惊讶的是,我在文献中并未发现太多有关昂贵的成本函数评估的内容。这使我想知道我是否正在使问题变得更加棘手,并且可能已经有了更好的方法。 所以我的问题基本上是这样的:当评估缓慢时,有人知道优化成本函数的方法吗?或者,我是否首先通过重新运行算法并与样本组进行多次比较来做一些愚蠢的事情?

3
为什么通过向对角线添加一个常数来使岭估计比OLS更好?
据我所知,岭回归估计是ββ\beta最小化上的大小的平方残余总和和惩罚ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] 但是,我不完全理解与不同的事实的重要性,因为它仅向的对角线添加一个小常数。确实,β OLS X ' Xβridgeβridge\beta_\text{ridge}βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 我的书中提到,这使估算值在数值上更稳定-为什么? 数值稳定性与向岭估计值的趋近于0的收缩有关还是仅仅是巧合?

12
两尾测试……我只是不服气。重点是什么?
以下摘录摘自条目:一尾测试和二尾测试之间有何区别?,位于UCLA的统计信息帮助网站上。 ...考虑在另一个方向上失去效果的后果。想象您已经开发了一种新药,您认为这是对现有药物的改进。您希望最大程度地发现改进的能力,因此选择单尾测试。这样,您将无法测试新药是否比现有药物有效的可能性。 在学习了假设测试的绝对基础并了解了关于一个尾巴测试与两个尾巴测试的那一部分之后...我了解了一个尾巴测试的基本数学和增加的检测能力,等等​​。。。但是我只是无法缠住我的头一件事...有什么意义?我真的不明白为什么当样本结果只能是一个或另一个,或者两者都不是时,为什么要在两个极端之间分配alpha值。 以上面引用的文本为例。您怎么可能在相反方向上“无法测试”结果?您有样本均值。你有人口平均数。简单的算术告诉您哪个更高。在相反的方向上有哪些测试或失败测试?如果您清楚地看到样本均值偏离了另一个方向,是什么使您从头开始却有了相反的假设呢? 同一页上的另一句话: 在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的,无论二尾检验与显着性有多“接近”。 我认为这也适用于切换单尾测试的极性。但是,与您只选择了正确的单尾测试一开始相比,这种“医生化”结果的有效性如何呢? 显然,我在这里错过了大部分图片。这一切似乎太武断了。从某种意义上说,这是什么意思,即“具有统计意义的意义”-95%,99%,99.9%...首先是任意的。


3
解释xkcd软糖漫画:是什么使它有趣?
我看到一个超时它们运行的20次总的测试,,所以他们错误地认为,二十测试之一中,其结果是显著(0.05 = 1 / 20)。p&lt;0.05p&lt;0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd果冻豆漫画-“重要” 标题:重要 悬停文字:“所以,呃,我们再次进行了绿色研究,但没有任何联系。这可能是-''研究发现冲突于绿色果冻豆/痤疮链接;建议进行更多研究!”


2
ZCA美白和PCA美白有什么区别?
我对ZCA增白和普通增白感到困惑(通过将主成分除以PCA特征值的平方根获得)。我所知道的, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},其中是PCA特征向量。UU\mathbf U ZCA美白有什么用途?普通美白和ZCA美白有什么区别?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.