统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?


2
截距和斜率的OLS估计量之间的相关性
在简单的回归模型中 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS估计量和是相关的。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 两个估计量之间的相关性公式为(如果我正确推导得出的话): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 问题: 关于相关性的直观解释是什么? 相关性的存在是否有任何重要含义? 编辑了该帖子,并删除了相关性随样本大小消失的断言。(感谢@whuber和@ChristophHanck。)


2
结合PCA和LDA是否有意义?
假设我有一个监督统计分类任务的数据集,例如通过贝叶斯分类器。该数据集包含20个特征,我想通过降维技术将其简化为2个特征,例如主成分分析(PCA)和/或线性判别分析(LDA)。 两种技术都将数据投影到较小的特征子空间上:使用PCA,我将找到使数据集中方差最大化的方向(分量)(不考虑类标签),而使用LDA,我将具有使两者之间的最大化的分量。级分离。 现在,我想知道是否可以,如何以及为什么可以结合使用这些技术,以及是否有意义。 例如: 通过PCA转换数据集并将其投影到新的2D子空间中 通过LDA转换(已经PCA转换的)数据集,最大 班级分离 要么 跳过PCA步骤并使用LDA的前2个组件。 或任何其他有意义的组合。

3
回归中岭正则化的解释
关于最小二乘背景下的岭罚,我有几个问题: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗? 2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λλ\lambda 4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)? 5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着βridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) 较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγγ\gammaββ\beta

3
有偏最大似然估计量背后的直觉推理
我对有偏的最大似然(ML)估计量感到困惑。整个概念的数学知识对我来说很清楚,但我无法弄清其背后的直观原因。 给定某个数据集具有来自分布的样本,而该样本集本身是我们要估计的参数的函数,则ML估计器会得出最有可能产生该数据集的参数值。 我不能从以下角度直观地理解偏差ML估计器:参数的最可能值如何在偏向错误值的情况下预测参数的实际值?

7
机器学习科学家的日常工作是什么?
我是德国大学的CS学硕士,现在写论文。如果要继续攻读博士学位或在该行业找到工作,我将在两个月内做出非常艰难的决定。 我做博士学位的原因: 我是一个非常好奇的人,我觉得我仍然缺乏太多知识。我想学很多东西,博士学位会为我提供帮助,因为我可以做更多的好课程并阅读大量论文,并成为数据挖掘和机器学习方面的专家。我喜欢数学,但是在本科(不好的大学)里并不擅长数学。现在在这个德国大学,我觉得我发展了很多很棒的数学技能,我想提高它,因为我真的很喜欢数学!(在本科生和一生中,我的数学真的很糟糕,但是现在我发现我的数学很好!) 我将处理具有智力挑战性的工作。 我需要说实话,我也不想看到其他人 比我更高学位的人。因此,如果我走进街上去见有博士学位的人,我不必说“哦,这个家伙比我聪明”。我宁愿站在另一边。;) 我不做博士学位的原因: 我在互联网上读过关于做博士学位还是不做博士学位的信息。我发现,在大多数情况下,拥有博士学位的人所做的工作与拥有硕士学位的人所做的工作相同。(这是计算机科学的普遍观察,而不是关于ML / DM)。 我可以开始职业生涯并在1或2年内赚很多钱,然后我可能可以创办自己的公司。 还不清楚的是: 我仍然不知道最终我的最终目标是什么。有一家著名的小公司吗?还是成为著名科学家?我仍然没有这个问题的答案。 为了帮助我做出决定,我想知道两件事: 拥有行业硕士学位的数据科学家/机器学习者的工作感觉如何?你做什么样的工作?尤其是当我以机器学习科学家的身份在亚马逊上阅读这些广告时,我总是想知道它们的作用。 与以前相同的问题,但有博士学位。您做的事情与大师不同吗? 我要应对具有挑战性的有趣问题吗?还是一些无聊的东西? 稍微说明一下:我见过一个拥有机器学习博士学位的人(在德国),并且在一家致力于推广机器学习软件的公司中工作。据我了解,他的大部分工作是训练人们使用方法和软件(决策树等)。 如果我能从一些著名的优秀公司中获得有关德国/瑞士的经验的答案,那就太好了。

3
如何解释层次聚类分析的树状图
考虑下面的R示例: plot( hclust(dist(USArrests), "ave") ) y轴的“高度”到底是什么意思? 查看北卡罗来纳州和加利福尼亚州(位于左侧)。加利福尼亚在北卡罗来纳州比在亚利桑那州“更近”吗?我可以做出这种解释吗? 夏威夷(右)加入集群很晚。我可以看到它,因为它比其他州“更高”。通常,我如何正确解释树状图中标签“较高”或“较低”的事实?

5
如何测试和避免混合线性模型中的多重共线性?
我目前正在运行一些混合效果线性模型。 我在R中使用软件包“ lme4”。 我的模型采用以下形式: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) 在运行模型之前,我检查了预测变量之间可能的多重共线性。 我这样做是: 建立预测变量的数据框 dummy_df <- data.frame(predictor1, predictor2) 使用“ cor”功能来计算预测变量之间的Pearson相关性。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 如果“ correl_dummy_df”大于0.80,则我认为预测变量1和预测变量2的相关性太高,因此它们未包含在我的模型中。 在阅读时,将出现更多客观的方法来检查多重共线性。 有人对此有任何建议吗? “方差通胀因子(VIF)”似乎是一种有效方法。 可以使用AED程序包中的函数“ corvif”(非cran)来计算VIF。可以在http://www.highstat.com/book2.htm上找到该软件包。该软件包支持以下书籍: Zuur,AF,Ieno,EN,Walker,N.,Saveliev,AA和Smith,GM2009。《混合效应模型和生态学扩展》 R,第1版。纽约斯普林格。 似乎一般的经验法则是,如果VIF> 5,则预测变量之间的多重共线性较高。 使用VIF是否比简单的Pearson相关性更强大? 更新资料 我在以下位置找到了一个有趣的博客: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ 博主提供了一些有用的代码,可为来自lme4软件包的模型计算VIF。 我已经测试了代码,并且效果很好。在随后的分析中,我发现模型的多重共线性不是一个问题(所有VIF值均小于3)。鉴于我之前已经发现某些预测变量之间存在较高的皮尔逊相关性,因此这很有趣。

5
如何生成存在一些强相关性的大型满秩随机相关性矩阵?
我想生成一个n × n大小的随机相关矩阵CC\mathbf C,以便存在一些中等强度的相关:n×nn×nn \times n n×nn×nn \times n大小的平方实对称矩阵,例如n=100n=100n=100; 正定的,即所有特征值都是实数和正数; 全职 所有对角线元素等于111 ; 非对角元素应均匀地合理地分布在(−1,1)(−1,1)(-1, 1)。确切的分布无关紧要,但是我希望有一些适度较大的值(例如10%10%10\%)的适度较大的值(例如,绝对值为0.50.50.5或更高)。基本上我想确保CC\mathbf C是不是所有的非对角线元素几乎对角线≈0≈0\approx 0。 有简单的方法吗? 目的是使用此类随机矩阵来对一些使用相关(或协方差)矩阵的算法进行基准测试。 无效的方法 以下是一些我知道的生成随机相关矩阵的方法,但不适用于我: 生成随机XX\mathbf X的s×ns×ns \times n大小,中心,规范并形成相关矩阵C=1s−1X⊤XC=1s−1X⊤X\mathbf C=\frac{1}{s-1}\mathbf X^\top \mathbf X。如果s>ns>ns>n,通常将导致所有非对角相关性都在附近000。如果s≪ns≪ns\ll n,存在一定相关性会很强,但CC\mathbf C不会是满秩。 以下列方式之一生成随机正定矩阵BB\mathbf B: 生成随机正方形AA\mathbf A,使对称正定B=AA⊤B=AA⊤\mathbf B = \mathbf A \mathbf A^\top。 生成随机正方形AA\mathbf A,使对称E=A+A⊤E=A+A⊤\mathbf E = \mathbf A + \mathbf A^\top,并使其正定通过执行特征分解E=USU⊤E=USU⊤\mathbf …

4
在R中检查假设lmer / lme混合模型
我进行了重复的设计,在三个不同的任务中测试了30位男性和30位女性。我想了解男性和女性的行为有何不同,以及如何取决于任务。我同时使用了lmer和lme4软件包对此进行了研究,但是,我坚持尝试检查两种方法的假设。我运行的代码是 lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 通过将其与没有交互的较简单模型进行比较并运行方差分析,我检查了交互是否是最佳模型: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) 问题1:可以在线性混合模型中使用这些分类预测变量吗? 问题2:我是否正确理解结果变量(“行为”)不需要本身正态分布(跨性别/任务)吗? 问题3:如何检查方差的均匀性?对于简单的线性模型,我使用plot(LM$fitted.values,rstandard(LM))。使用plot(reside(lm.base1))足够了吗? Q4:检查正常使用下面的代码好吗? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

2
如何使用R prcomp结果进行预测?
我有一个800 obs的data.frame。的40个变量,并希望使用主成分分析来改善我的预测结果(到目前为止,这在支持向量机上对大约15个手工挑选的变量效果最好)。 我了解prcomp可以帮助我改善预测,但是我不知道如何使用prcomp函数的结果。 我得到结果: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 0.0446 …
25 r  pca 

1
“内核密度估计”是什么的卷积?
我试图更好地了解内核密度估计。 使用Wikipedia中的定义:https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) 让我们以是一个矩形函数赋予如果是间和和否则,和(窗口大小)为1。1 x − 0.5 0.5 0 小时K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 我知道密度是两个函数的卷积,但是我不确定我如何定义这两个函数。其中一个应该(可能)是数据的函数,对于R中的每个点,它告诉我们该位置有多少个数据点(大多数为)。而另一个函数可能应该是对内核函数的修改,并结合窗口大小。但是我不确定如何定义它。000 有什么建议么? 贝娄是一个R代码示例,(我怀疑)它复制了我上面定义的设置(两个高斯的混合物,),我希望在此上看到一个“证明”,证明要卷积的函数是我们怀疑的。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

3
LSA与PCA(文档集群)
我正在研究文档聚类中使用的各种技术,并且想清除一些有关PCA(主要成分分析)和LSA(潜在语义分析)的疑问。 第一件事-它们之间有什么区别?我知道在PCA中,SVD分解应用于术语协方差矩阵,而在LSA中,它是术语文档矩阵。还有别的事吗? 第二-它们在文档聚类过程中的作用是什么?根据到目前为止的读物,我推断出它们的目的是减少维数,减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后,将传统算法(如k均值或凝聚法)应用于缩减后的词项空间,并使用典型的相似性度量(如余弦距离)。如果我错了,请纠正我。 第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要?并且在那之后是否应该将它们再次标准化? 第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际单词不符,因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心,并选择权重最大的项,但这听起来并不十分有效。有针对此问题的一些特定解决方案吗?我什么都找不到。 我将非常感谢您澄清这些问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.