统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
L1正则化的回归与套索是否相同,L2正则化的回归与岭回归是否相同?以及如何写“套索”?
我是一名学习机器学习的软件工程师,尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时,我发现令人困惑的术语: 使用L1正则化或L2正则化进行回归 套索 岭回归 所以我的问题是: L1正则化的回归与LASSO完全相同吗? L2正则化的回归与Ridge回归完全相同吗? LASSO是如何写作的?应该是“ LASSO回归”吗?我见过类似“ 套索更合适 ”的用法。 如果以上1和2的答案是“是”,那么为什么这两个术语有不同的名称?“ L1”和“ L2”是否来自计算机科学/数学,而“ LASSO”和“ Ridge”是否来自统计? 当我看到类似以下内容的帖子时,这些术语的使用会造成混淆: “ L1和L2正则化有什么区别? ”(quora.com) “ 什么时候应该使用套索vs岭? ”(stats.stackexchange.com)


1
相对变量重要性的提升
我正在寻找一种解释,说明如何在梯度增强树中计算相对变量重要性,而这并不是过于笼统/过于简单: 度量基于选择变量进行拆分的次数,每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年,增强回归树的工作指南 ] 那还不如: 一世2Ĵ^(T)= ∑t = 1Ĵ− 1一世2Ť^1 (vŤ= j )一世Ĵ2^(Ť)=∑Ť=1个Ĵ-1个一世Ť2^1个(vŤ=Ĵ)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上,是与节点相关的拆分变量,是平方误差的相应经验改进作为分割的结果,定义为,其中分别是左子代反应手段和右子代反应手段,而是权重的相应总和。J T v t t ^ i 2 t i 2(R l,R r)= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2(R升,R[R)= w升w[Rw升+ w[R(y升¯- ÿ[R¯)2一世2([R升,[R[R)=w升w[Rw升+w[R(ÿ升¯-ÿ[R¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯,ÿ[R¯ÿ升¯,ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升,w[Rw升,w[Rw_{l}, w_{r}[ Friedman 2001,贪婪函数近似:梯度提升机 ] 最后,我没有发现统计学学习的内容(Hastie等人,2008年)对这里的学习非常有帮助,因为相关部分(第10.13.1页,第367页)的味道与上述第二篇参考文献非常相似(可以对此进行解释)因为弗里德曼是这本书的合著者)。 PS:我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码,但似乎找不到实际的计算位置。 布朗尼要点:我想知道如何在R中获得这些图。

3
随机森林如何对异常值不敏感?
我已经读过一些资料,包括本资料,其中“ 随机森林”对离群值不敏感(例如Logistic回归和其他ML方法都是如此)。 但是,有两种直觉告诉我: 每当构建决策树时,都必须对所有点进行分类。这意味着,甚至离群值也将被分类,因此会影响在增强期间选择它们的决策树。 自举是RandomForest进行子采样的一部分。自举容易受到异常值的影响。 有什么办法可以使我对直觉对异常值敏感的直觉与不同意的消息来源相吻合?


2
了解线性回归的形状和置信带的计算
我试图了解与OLS线性回归相关联的置信带的曲线形状的起源,以及它与回归参数(斜率和截距)的置信区间之间的关系,例如(使用R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) 似乎该频带与使用2.5%截距和97.5%斜率以及97.5%截距和2.5%斜率计算的线的极限有关(尽管不完全相同): xnew <- seq(0,400) int <- confint(fit) lines(xnew, (int[1,2]+int[2,1]*xnew)) lines(xnew, (int[1,1]+int[2,2]*xnew)) 我不明白的是两件事: 2.5%斜率和2.5%截距以及97.5%斜率和97.5%截距的组合怎么样?这些给出的线显然在上面绘制的带之外。也许我不了解置信区间的含义,但是如果在95%的情况下,我的估计值都在置信区间内,那么这似乎是可能的结果? 是什么决定上限和下限之间的最小距离(即,接近在上方添加的两条线相交的点)? 我猜这两个问题都会出现,因为我不知道/不了解这些频段的实际计算方式。 如何使用回归参数的置信区间来计算上限和下限(不依赖predict()或类似函数,即手动)?我试图破译R中的prepare.lm函数,但是编码超出了我的范围。对于任何适合统计初学者的相关文献或解释,我将不胜感激。 谢谢。

3
隐马尔可夫模型与条件随机场之间的直观区别
我知道HMM(隐马尔可夫模型)是生成模型,而CRF是判别模型。我也了解如何设计和使用CRF(条件随机场)。我不明白的是它们与HMM有何不同?我读到在HMM的情况下,我们只能在前一个节点,当前节点和转移概率上对下一个状态建模,但是在CRF的情况下,我们可以这样做,并且可以将任意数量的节点连接在一起以形成依赖关系或上下文?我在这里正确吗?

2
确定自举法/建议方法所需的样本量
我知道这是一个非常热门的话题,没有人能真正给出简单的答案。不过,我想知道以下方法是否有用。 引导方法仅在样本或多或少(准确读取)与原始总体相同的分布时才有用。为了确定是这种情况,您需要使样本大小足够大。但是什么足够大? 如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到相同的问题。只有当样本量足够大时,您才能确定样本均值的总体呈正态分布(在总体均值附近)。换句话说,您的样本需要足够好地代表您的人口(分布)。但是,又有什么足够大的呢? 以我的情况(管理过程:完成需求所需的时间与需求量)为例,我有一个多模式分布的人群(所有需求在2011年完成),其中99%的人相信它会更少我想要研究的数据通常要比人口分布(当前和过去一天之间完成的所有需求,理想情况下此时间跨度要尽可能小)更好。 我的2011年人口总数不足以制作样本,样本数量为n。我选择x的值 ,假设为10(x = 10)。现在,我通过反复试验来确定合适的样本量。我取n = 50,看看是否使用Kolmogorov-Smirnov正态分布样本。如果是这样,我重复相同的步骤,但样本大小为40,如果不重复,则样本大小为60(以此类推)。XXxññnXXx101010x = 10X=10x=10n = 50ñ=50n=50404040606060 一段时间后,我得出结论,是获得或多或少很好地表示我的2011年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以放心地使用n = 45的样本量进行引导。(间接地,n = 45决定了我的时间跨度:完成45个需求所需的时间。)n = 45ñ=45n=45n = 45ñ=45n=45n = 45ñ=45n=45454545 简而言之,这就是我的想法。但是由于我不是统计学家,而是一位工程师,他的统计学课程在随后的日子里发生,所以我不能排除我只是产生了很多垃圾的可能性。你们有什么感想?如果我的前提合理,我是否需要选择一个大于10或更小的?根据您的回答(我是否需要感到尴尬?:-),我将发布更多讨论想法。XXx101010 关于第一个答案的答复感谢您的答复,您的回答对我非常有用,尤其是书链接。 但是我很害怕在提供信息的过程中我完全掩盖了我的问题。我知道引导程序样本将接管总体样本的分布。我完全跟随你,但是... 您的原始人口样本需要足够大,以适度确定您的人口样本分布与人口的“实际”分布相对应(等于)。 这仅是关于如何确定原始样本大小需要多少的想法,以便合理确定样本分布与总体分布相对应。 假设您具有双峰人口分布,并且一个顶部比另一个顶部大很多。如果样本数量为5,则很有可能所有5个单位的值都非常接近大型顶部(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。 样本数量为一百时,样本分布也是双峰的机会就更大了!!自举的麻烦在于您只有一个样本(并且您将在该样本的基础上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是使“不良样本分布”机会尽可能低而又不必使样本大小无限变大的想法。

5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?


5
信息获取,相互信息及相关措施
Andrew More 将信息获取定义为: IG(Y|X)=H(Y)−H(Y|X)IG(Y|X)=H(Y)−H(Y|X)IG(Y|X) = H(Y) - H(Y|X) 其中H(Y|X)H(ÿ|X)H(Y|X)是条件熵。但是,维基百科称上述数量互为信息。 另一方面,维基百科将信息增益定义为两个随机变量之间的Kullback-Leibler散度(又名信息散度或相对熵): dķ大号(P| | Q)=高(P,Q )− H(P)dķ大号(P||问)=H(P,问)-H(P)D_{KL}(P||Q) = H(P,Q) - H(P) 其中被定义为交叉熵。H(P,Q )H(P,问)H(P,Q) 这两个定义似乎彼此不一致。 我还看到其他作者在谈论另外两个相关概念,即微分熵和相对信息增益。 这些数量之间的确切定义或关系是什么?有没有一本涵盖所有内容的好教科书? 信息获取 相互信息 交叉熵 条件熵 微分熵 相对信息获取


1
什么是后验预测检查,什么使它们有用?
我了解后验预测分布是什么,并且我一直在阅读有关后验预测检查的信息,尽管我尚不清楚它的作用。 后验检查到底是什么? 为什么有些作者说进行后验预测检查是“两次使用数据”并且不应被滥用?(甚至不是贝叶斯)?(例如,看到这个或这个) 这项检查到底有什么用?真的可以用于模型选择吗?(例如,是否同时考虑适应性和模型复杂性?)

2
为分层聚类选择正确的链接方法
我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。 我的过程如下: 在/ r / politics中获取最新的1000条帖子 收集所有评论 处理数据并计算n x m数据矩阵(n:用户/样本,m:帖子/功能) 计算距离矩阵进行层次聚类 选择一种链接方法并执行分层聚类 将数据绘制为树状图 我的问题是,如何确定最佳的链接方法是什么?我目前使用的Ward,但我怎么知道我是否应该使用single,complete,average等? 我对这些东西还很陌生,但是我不确定是否有一个答案,因此我无法在网上找到明确的答案。那么,对于我的应用程序来说,什么是个好主意呢?请注意,在n x m矩阵具有多个零的意义上,数据是相对稀疏的(大多数人对多则帖子的评论不多)。

4
为什么tanh作为激活函数几乎总是比Sigmoid好?
在安德鲁·Ng的神经网络和深度学习课程Coursera他说,使用Ť 一个Ñ ħŤ一种ñHtanh几乎总是最好使用。š 我克米ø 我ds一世G米Ø一世dsigmoid 他给出的原因是,使用的输出以0为中心,而不是的为0.5,这“使下一层的学习变得容易一些”。Ť 一个Ñ ħŤ一种ñHtanhš 我克米ø 我ds一世G米Ø一世dsigmoid 为什么居中激活的输出速度学习?我假设他是在反向传播期间学习时发生的,是指上一层? 还有其他使更可取的功能吗?陡峭的坡度会延迟消失的坡度吗?tanhŤ一种ñHtanh 在任何情况下,会更可取?sigmoids一世G米Ø一世dsigmoid 首选数学轻巧,直观的答案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.