统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
在线性回归中使用循环预测变量
我正在尝试使用风速数据(0,359)和一天中的时间(0,23)拟合模型,但是我担心它们不能很好地拟合线性回归,因为它们本身不是线性参数。我想使用Python对其进行转换。我看到有人提到过至少在风速情况下通过取度的正弦和余弦来计算向量均值的方法,但不是很多。 有没有可能有用的Python库或相关方法?

3
偏置节点在神经网络中的重要性
我很好奇知道偏置节点对于现代神经网络的有效性有多重要。我很容易理解,在只有几个输入变量的浅层网络中,它很重要。但是,诸如深度学习之类的现代神经网络通常具有大量的输入变量来决定是否触发某个神经元。仅仅从LeNet5或ImageNet中删除它们是否会产生真正的影响?

5
如何使用Cholesky分解或其他方法进行关联数据模拟
给定相关矩阵,我使用Cholesky分解来模拟相关的随机变量。问题是,结果永远不会像给出的那样重现相关结构。这是Python中的一个小例子来说明这种情况。 import numpy as np n_obs = 10000 means = [1, 2, 3] sds = [1, 2, 3] # standard deviations # generating random independent variables observations = np.vstack([np.random.normal(loc=mean, scale=sd, size=n_obs) for mean, sd in zip(means, sds)]) # observations, a row per variable cor_matrix = np.array([[1.0, 0.6, 0.9], [0.6, 1.0, …

3
朱莉娅(Julia):回顾过去的表现
这篇文章与一个快速变化的事件有关。 我遇到了一个2012年的问题,该问题对朱莉娅进行了很好的讨论,关于朱莉娅是R / Python的替代品,用于各种类型的统计工作。 这是2012年关于朱莉娅的诺言的原始问题 不幸的是,朱莉娅那时还很新,而统计工作所需的工具包有些原始。错误正在被消除。发行版很难安装。等等。 有人对此问题发表了非常恰当的评论: 这就是说,事后才可能回答这个问题还需要5年。到目前为止,Julia缺少统计编程系统的以下关键方面,这些系统可能与R竞争日常用户: 那是在2012年。现在已经到了2015年,并且已经过去了三年,我想知道人们如何看待Julia的成就? 语言本身和整个Julia生态系统是否有更丰富的经验?我会很高兴知道。 特别: 您会建议统计工具的新用户学习R上的Julia吗? 您会建议某人使用哪种Statistics统计用例? 如果R在执行某项任务时很慢,切换到Julia或Python是否有意义? 注意:2015年6月14日首次发布。
19 r  python  computing  julia 

1
从该套索图得出的结论(glmnet)
以下是使用mtcarsR中设置的数据mpg作为DV以及其他变量作为预测变量的具有默认alpha(1,因此为lasso)的glmnet的图。 glmnet(as.matrix(mtcars[-1]), mtcars[,1]) 我们可以从这个图得出什么结论对于不同的变量,尤其是am,cyl和wt(红色,黑色和淡蓝色线)?我们将如何用输出表达要发布的报告中的内容? 我想到了以下几点: wt是的最重要的预测指标mpg。它对产品产生负面影响mpg。 cyl是的弱否定指标mpg。 am可能是的积极预测指标mpg。 其他变量不是的可靠预测指标mpg。 感谢您对此的想法。 (注意:cyl是黑线,直到非常接近它才达到0。) 编辑:以下是plot(mod,xvar ='lambda'),它按与上图相反的顺序显示x轴: (附言:如果您发现此问题有趣/重要,请对其进行投票;)

3
为什么Pearson是参数化的,而Spearman是非参数化的
显然,皮尔逊的相关系数是参数性的,而斯皮尔曼的rho是非参数性的。 我很难理解这一点。据我了解,Pearson的计算公式为 而Spearman的计算方法相同,不同之处在于,我们将所有值替换为其等级。[RX ÿ= c o v (X,Y)σXσÿ[RXÿ=CØv(X,ÿ)σXσÿ r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} 维基百科说 参数模型与非参数模型的区别在于,前者具有固定数量的参数,而后者随着训练数据量的增加而增加。 但是除了样本本身,我看不到任何参数。有人说参数测试假设服从正态分布,接着说皮尔逊确实假设服从正态分布数据,但是我看不出为什么皮尔逊会要求这样做。 所以我的问题是,在统计中,参数和非参数是什么意思?培生和斯皮尔曼如何融入其中?

1
对主题(双)空间中PCA的几何理解
我试图对主成分分析(PCA)在主题(双)空间中的工作方式有一个直观的了解。 考虑具有两个变量x1x1x_1和x2x2x_2以及nnn数据点的2D数据集(数据矩阵XX\mathbf X为n×2n×2n\times 2并假定为居中)。PCA的通常表示是,我们考虑R 2中的nnn个点,记下2 × 2协方差矩阵,并找到其特征向量和特征值。第一个PC对应于最大方差的方向,等等。这是协方差矩阵C = (4 2 2 2)的示例R2R2\mathbb R^22×22×22\times 2C=(4222)C=(4222)\mathbf C = \left(\begin{array}{cc}4&2\\2&2\end{array}\right)。红线表示按各自特征值平方根缩放的特征向量。 \hskip 1in 现在考虑一下主题空间中发生了什么(我从@ttnphns学到了这个术语),也称为对偶空间(机器学习中使用的术语)。这是一个nnn维空间,其中两个变量(两列XX\mathbf X)的样本形成两个向量x1x1\mathbf x_1和x2x2\mathbf x_2。每个变量向量的平方长度等于其方差,两个向量之间的夹角余弦等于它们之间的相关性。顺便说一下,这种表示在多元回归的治疗中非常标准。在我的示例中,主题空间如下所示(我只显示了由两个变量向量跨越的2D平面): \hskip 1in 主成分是两个变量的线性组合,将在同一平面上形成两个向量和p 2。我的问题是:如何在这样的图形上使用原始变量矢量来形成主成分变量矢量的几何理解/直觉是什么?给定x 1和x 2,什么几何过程将产生p 1?p1p1\mathbf p_1p2p2\mathbf p_2x1x1\mathbf x_1x2x2\mathbf x_2p1p1\mathbf p_1 以下是我目前对此的部分理解。 首先,我可以通过标准方法计算主要成分/轴并将其绘制在同一图上: \hskip 1in 此外,我们可以注意到,选择要使x i(蓝色矢量)与其在p 1上的投影之间的距离的平方和最小。这些距离是重建误差,并且用黑色虚线显示。等效地,p 1使两个投影的平方长度的总和最大化。这完全指定了p 1,并且当然完全类似于主空间中的类似描述(请参见我对“理解主成分分析,特征向量和特征值”的回答中的动画)。另请参阅@ttnphns答案的第一部分。p1p1\mathbf p_1xixi\mathbf x_ip1p1\mathbf p_1p1p1\mathbf p_1p1p1\mathbf p_1 但是,这还不够几何!它没有告诉我如何找到这样的,也没有指定其长度。p1p1\mathbf …


3
与错误发现率和多重测试相混淆(在Colquhoun上,2014年)
我读过David Colquhoun的这篇出色论文:对错误发现率和对p值的误解的调查(2014年)。从本质上讲,他解释了为什么即使我们将I型错误控制在,错误发现率(FDR)仍可以高达。30%30%30\%α=0.05α=0.05\alpha=0.05 但是,对于在多次测试中应用FDR控制会发生什么,我仍然感到困惑。 说,我已经对许多变量中的每一个进行了测试,并使用Benjamini-Hochberg过程计算了。我得到一个对有意义的变量。我问这个发现是什么FDR?qqqq=0.049q=0.049q=0.049 我可以安全地假设,从长远来看,如果我定期进行此类分析,则FDR不是,而是低于,因为我使用了Benjamini-Hochberg?这感觉是错误的,我想说值对应于Colquhoun论文中的值,并且他的推理也适用于此,因此使用阈值可能会“ 冒充自己”(如在的案件中,Colquhoun表示。但是,我试图更正式地解释它,但失败了。30%30%30\%5%5%5\%qqqpppqqq0.050.050.0530%30%30\%


5
是否有用于流数据的t-SNE版本?
我对t-SNE和Barnes-Hut近似的理解是,需要所有数据点,以便可以同时计算所有力的相互作用,并且可以在2d(或更低维)图中调整每个点。 是否有任何版本的t-sne可以有效处理流数据?因此,如果我的观测一次到达一个观测,它将在2d地图上找到最佳位置以放置新观测,或者连续更新2d地图上的所有点以解决新观测。 这甚至有意义还是与t-sne的设置背道而驰?

1
基于交叉验证(CV)的预测间隔
在课本和youtube讲座中,我学到了很多关于诸如boosting之类的迭代模型的知识,但是我从未见过关于推导预测间隔的任何知识。 交叉验证用于以下目的: 型号选择:尝试不同的型号,然后选择最合适的型号。如果是升压,请使用CV选择调整参数。 模型评估:估算所选模型的性能 几个参数对于模型评估很重要,其中之一是预期的预测误差。交叉验证可以很好地估计预测误差,正如《统计学习的要素》一书中所述。 但是,我们如何使用预期的预测误差来建立预测间隔? 例如,如果您预测房屋价格,则500.000欧元房屋的预测间隔将比200.000欧元房屋的预测间隔高。我们如何使用交叉验证来估计这些预测间隔?

4
到底是什么时刻?它们是如何衍生的?
通常,我们通过“使总体矩等于其样本对等体”来介绍矩估计器的方法,直到我们估算出总体的所有参数为止。这样,在正态分布的情况下,我们只需要第一刻和第二刻,因为它们可以完全描述这种分布。 Ë(X)= μ⟹∑ñ我= 1X一世/ n= X¯Ë(X)=μ⟹∑一世=1个ñX一世/ñ=X¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} Ë(X2)= μ2+ σ2⟹∑ñ我= 1X2一世/ nË(X2)=μ2+σ2⟹∑一世=1个ñX一世2/ñE(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n 从理论上讲,我们最多可以将额外时刻计算为:ññn Ë(X[R)⟹∑ñ我= 1X[R一世/ nË(X[R)⟹∑一世=1个ñX一世[R/ñE(X^r) \implies \sum_{i=1}^nX_i^r /n 我该如何为真正的时刻建立直觉?我知道它们作为一个概念存在于物理学和数学中,但是我发现它们都不直接适用,特别是因为我不知道如何将抽象概念从质量概念扩展到数据点。该术语似乎在统计学中以特定方式使用,这与其他学科中的用法不同。 我的数据的什么特征决定了总共有多少()个力矩?[R[Rr

2
弹性/脊线/套索分析,然后呢?
我对预测器收缩/选择的弹性网程序真的很感兴趣。似乎非常强大。 但是从科学的角度来看,我不知道一旦获得系数该怎么办。我在回答什么问题?这些是对结果有最大影响的变量,并且是在验证过程中提供最佳方差/偏差比的系数吗? 与经典的p值/置信区间方法相比,这当然是一种非常具有描述性/预测性的方法。Tibshirani&Co.现在正在研究推论估计,但仍处于实验阶段。 某些人正在使用弹性网选择的变量来进行经典的推理分析,但这将消除该技术带来的方差限制。 另一个问题是,由于通过交叉验证选择了弹性网的lambda和alpha参数,因此它们具有随机可变性。因此,每次运行(例如)cv.glmnet()时,您将选择系数始终略有不同的预测变量子集。 我通过考虑将正确的lambda和alpha作为随机变量来解决此问题,然后重新运行交叉验证步骤n次以获取这些参数的分布。这样,对于每个预测变量,我将具有出现的次数,对于每个系数,我将具有结果的分布。这应该为我提供范围统计信息(如系数的sd)更通用的结果。观察以这种方式选择的lambda和alpha是否渐近地近似也很有趣,因为这将为进行推理测试开辟道路(但我不是统计学家,所以我不应该谈论我不喜欢的事情完全不了解)。 所以最后我的问题是:一旦从具有基于交叉验证的alpha和lambda的弹性网中获得了预测变量和系数,应该如何显示这些结果?您应该如何讨论它们?我们学到了什么?我们可以混淆哪个假设/概括?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.