统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
表明对5个主题进行100次测量比对100个主题进行5次测量提供的信息少得多
在一次会议上,我无意中听到以下声明: 5个主题的100次测量所提供的信息比100个主题的5次测量要少得多。 显然这是对的,但是我想知道如何用数学方式证明这一点……我认为可以使用线性混合模型。但是,我对用于估算它们的数学知识不甚了解(我只lmer4为LMM和bmrsGLMM 运行:)您能给我展示一个真实的例子吗?与R中的某些代码相比,我更希望提供一些公式的答案。请随意假设一个简单的设置,例如具有正态分布的随机截距和斜率的线性混合模型。 PS不涉及LMM的基于数学的答案也是可以的。我之所以想到LMM,是因为它们在我看来是一种自然的工具,可以解释为什么来自更多学科的较少量度要比来自少数学科的更多量度更好,但是我很可能错了。

1
广义线性模型(GLM)的潜在变量解释
简洁版本: 我们知道逻辑回归和概率回归可以解释为涉及一个连续的潜在变量,该变量根据观察之前的某个固定阈值离散化。对于泊松回归,是否可以使用类似的潜在变量解释?当有两个以上的离散结果时,二项式回归(如logit或probit)怎么样?在最一般的层面上,是否有一种方法可以根据潜在变量来解释任何GLM? 长版: 以下是激发二进制结果的概率模型的标准方法(例如,来自Wikipedia)。我们有一个不可观测的/潜在的结果变量YYY,该变量以预测变量为正态分布XXX。该潜变量经过阈值处理,因此,如果,我们实际观察到的离散结果为,如果,则。这导致给定时的概率采用正态CDF形式,均值和标准差是阈值的函数 ý ≥ γ û = 0 ý &lt; γ Xu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0Y&lt;γY&lt;γY < \gammau=1u=1u=1XXXγγ\gamma和回归的斜率的。YYYXXX,分别。因此,以概率模型为动力,以此作为根据对潜在回归来估计斜率的一种方法。YYYXXX 下图来自Thissen&Orlando(2001)。这些作者在技术上从项目响应理论上讨论正常的ogive模型,该模型对于我们的目的而言很像概率回归(请注意,这些作者使用代替,并且概率用代替了通常的)。X Ť Pθθ\thetaXXXTTTPPP 我们可以以几乎完全相同的方式解释逻辑回归。唯一不同的是,现在没有观察到连续遵循物流配送,而不是一个正态分布,给出X。关于为什么的理论论证YYYXXX可能遵循逻辑分布而不是正态分布不太清楚...但是由于实际应用(在重新缩放后)所得的逻辑曲线看起来与正态CDF基本相同,因此可以说是“不会”。在实践中,使用哪种模型往往很重要。关键是两个模型都具有非常简单明了的潜在变量解释。YYY 我想知道我们是否可以将外观相似(或地狱外观不同)的潜在变量解释应用于其他GLM 甚至任何 GLM。 即使将上述模型扩展为考虑二项式结果(即,不仅仅是伯努利结果),对我来说也不是很清楚。大概可以通过想象,我们有多个阈值(比观察到的离散结果少一个),而不是只有一个阈值γ来做到这一点。但是我们需要对阈值施加一些约束,例如阈值是均匀分布的。我很确定像这样的东西可以工作,尽管我还没有弄清楚细节。n&gt;1n&gt;1n>1γγ\gamma 对我来说,转向泊松回归的情况似乎还不清楚。我不确定阈值的概念是否将是在这种情况下考虑模型的最佳方法。我也不确定我们可以将潜在结果设想为什么样的分布。 最理想的解决方案是用具有某些分布或其他形式的潜在变量来解释任何 GLM 的通用方法-即使该通用解决方案暗示的隐式变量解释与通常的logit / probit回归解释不同。当然,如果通用方法与对logit / probit的通常解释一致,而且自然扩展到其他GLM,那会更酷。 但是,即使在一般GLM案例中通常无法使用这种潜在变量解释,我也想听听有关特殊情况(例如我上面提到的Binomial和Poisson案例)的潜在变量解释。 参考文献 Thissen,D.&Orlando,M.(2001)。物品响应理论分为两类。在D.Thissen&Wainer,H.(编辑)的《测试评分》(第73-140页)中。新泽西州马瓦市:Lawrence Erlbaum Associates,Inc. 编辑2016-09-23 在某种意义上,任何GLM都是潜在变量模型,这就是说我们可以始终将估计的结果分布参数视为“潜在变量”,也就是说,我们不直接观察,例如泊松的rate参数,我们只是从数据中推断出来。我认为这是一个相当琐碎的解释,并不是我真正想要的解释,因为根据这种解释,任何线性模型(当然还有许多其他模型!)都是“潜在变量模型”。例如,在正态回归中,给定正态Y的“潜伏” μμ\muYYYXXX。因此,这似乎将潜在变量建模与仅参数估计混为一谈。例如,在泊松回归的情况下,我正在寻找的东西看起来更像是一个理论模型,它说明了观察到的结果为何首先应该具有泊松分布的情况,并给出了一些假设(由您填写!)。潜在的分布,选择过程(如果有的话)等。然后(也许很关键?),我们应该能够根据这些潜在分布/过程的参数来解释估计的GLM系数,类似于我们如何根据潜在正态变量的均值漂移和/或阈值γ的均值漂移,从概率回归中解释系数。YYYγγ\gamma

1
t-SNE与MDS
最近一直在阅读有关t-SNE(t分布随机邻居嵌入)的一些问题,并且还访问了有关MDS(多维缩放)的一些问题。 它们通常以类似的方式使用,因此在这里将两个问题分开(或与PCA进行比较)时,将这个问题视为一个好主意。 简而言之,t-SNE和MDS有何不同?例如。他们探索了数据层次结构的哪些优点,不同的假设等。 收敛速度?内核的使用又如何呢?



2
我们什么时候应该离散化/合并连续的独立变量/特征,什么时候不应该离散化/合并它们?
我们何时应该离散化/绑定自变量/特征,何时不应该离散化/组合? 我试图回答这个问题: 通常,我们不应该进行合并,因为合并会丢失信息。 合并实际上增加了模型的自由度,因此,合并后可能导致过度拟合。如果我们有一个“高偏差”模型,合并可能不是坏事,但是如果我们有一个“高方差”模型,则应该避免合并。 这取决于我们使用的模型。如果是线性模式,并且数据具有很多“异常值”,则装箱概率会更好。如果我们有一个树模型,那么离群值和合并将有很大的不同。 我对吗?还有什么? 我以为应该多次问这个问题,但我只能在这些帖子中找到简历 我们应该对连续变量进行分类吗? 分解一个连续的预测变量有什么好处?

4
相关性假设与显着性回归斜率检验之间的假设差异
我的问题来自与@whuber的讨论,涉及另一个问题的评论。 具体来说,@ whuber的评论如下: 您可能会感到惊讶的一个原因是,相关检验和回归斜率检验所基于的假设是不同的,因此,即使我们了解到相关性和斜率确实在衡量同一事物,为什么它们的p值也应该相同?这表明,与简单地确定和在数值上是否相等相比,这些问题要深得多。β[R[Rrββ\beta 这引起了我的思考,我遇到了许多有趣的答案。例如,我发现了这个问题“ 相关系数的假设 ”,但是看不到如何澄清上面的评论。 我在简单的线性回归中找到了有关Pearson的和斜率的关系的更有趣的答案(例如,请参见此处和此处),但它们似乎都没有回答@whuber在他的评论中所指的内容(至少不明显)。对我来说)。β[R[Rrββ\beta 问题1:相关性检验和回归斜率检验的假设是什么? 对于我的第二个问题,请考虑以下输出R: model &lt;- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 8.3807 4.4224 1.895 …

2
受限玻尔兹曼机器:如何在机器学习中使用?
背景: 是的,可以使用受限玻尔兹曼机(RBM)来启动神经网络的权重。此外,它可以在一个“层-层”的方式被用于建立一个深信念网络(即,培养一个上的顶部第层(ñ - 1 )个层,然后训练ñ + 1上的顶层第ñ个层,漂洗和重复...) ññn(n − 1 )(ñ-1个)(n-1)n + 1ñ+1个n+1ññn。 关于如何使用RBM,可以从《受限玻尔兹曼机器》(RBM)的“ 良好”教程的线程中找到详细信息,在该 文章中可以找到一些论文和教程。 我的问题是: RBM是否真的用于工业项目或学术项目中 如果是,如何使用它以及在哪个项目上使用? 有没有流行的库(例如tensorflow,Caffe,Theono等)提供RBM模块? 感谢分享。我想知道成果管理制在实践中是否真的有用。


3
内核化SVM是否有可能实现Gradient Descent(如果有的话,人们为什么要使用二次编程)?
人们在处理带内核的SVM时为什么使用二次编程技术(例如SMO)?梯度下降有什么问题?不能与内核一起使用还是速度太慢(为什么?)。 这里有一些上下文:为了更好地理解SVM,我使用了Gradient Descent通过以下成本函数来训练线性SVM分类器: Ĵ(w,b )= C∑我= 1米中号一个X ( 0 ,1 - ÿ(我)(wŤ⋅ X(我)+ b ))+1个2wŤ⋅ w ^J(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} 我正在使用以下符号: ww\mathbf{w}是模型的特征权重,是其偏差参数。bbb X(我)x(i)\mathbf{x}^{(i)}是第训练实例的特征向量。一世日ithi^\text{th} ÿ(我)y(i)y^{(i)}是实例的目标类(-1或1)。一世日ithi^\text{th} 米mm是训练实例的数量。 CCC是正则化超参数。 我从该方程式导出了一个(子)梯度向量(关于和),而Gradient Descent效果很好。ww\mathbf{w}bbb 现在,我想解决非线性问题。我可以在成本函数中用替换所有点积,其中是内核函数(例如高斯RBF,),然后使用演算来导出(子)梯度向量并继续进行Gradescent Descent?üŤ⋅ vüŤ⋅v\mathbf{u}^t \cdot …

5
过度拟合:没有银弹吗?
我的理解是,即使遵循正确的交叉验证和模型选择程序,如果人们对模型的搜索足够困难,就会出现过度拟合的情况,除非对模型的复杂性,期限施加了限制。此外,很多时候人们尝试从数据中学习对模型复杂性的惩罚,这会破坏他们可以提供的保护。 我的问题是:以上陈述有多少真相? 我经常听到ML的实践者说:“ 在我的公司/实验室,我们总是尝试使用每种可用的模型(例如,从caret或scikit-learn之类的库中获得),看看哪种模型最合适。” 我经常争论说,即使他们认真对待交叉验证并以他们想要的任何方式保留保留集,这种方法也很容易过拟合。此外,他们搜索的难度越大,就越容易适应。换句话说,过度优化是一个真正的问题,没有启发式方法可以帮助您系统地与之抗衡。我这样想是不是错了?

1
具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)
编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。 Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yXxxÿyyXxxÿyyℓ 2[R2R2R^2ℓ2ℓ2\ell_2 编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X XÿyyXxxXxxXxx 因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1 顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下! 在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。 我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外ℓ2ℓ2\ell_2: 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿXxxÿyy 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),ℓ1个ℓ1\ell_1 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。ℓ∞ℓ∞\ell_\infty 这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。 如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价: 计算的目的是洞察力,而不是数字 编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。 在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x ,y)(x,y)(x,y) 和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

2
促进神经网络
最近,我正在研究学习增强算法,例如adaboost,梯度增强,并且我知道最常用的弱学习者是树这一事实。我真的想知道最近有一些使用神经网络作为基础学习者的成功例子(我的意思是一些论文或文章)。

4
“半监督学习”-过度拟合吗?
我正在阅读Kaggle竞赛获奖解决方案的报告(恶意软件分类)。该报告可在此论坛帖子中找到。问题是分类问题(九个类别,度量标准是对数损失),其中训练集中有10000个元素,测试集中有10000个元素。 在比赛期间,针对30%的测试集对模型进行了评估。另一个重要因素是模型的表现非常出色(准确性接近100%) 作者使用以下技术: 我们提出的另一项重要技术是半监督学习。我们首先通过选择最佳模型的最大概率来生成测试集的伪标签。然后,我们将使用训练数据和测试数据以交叉验证的方式再次预测测试集。例如,将测试数据集分为A,B,C和D四个部分。我们使用整个训练数据,并将测试数据A,B,C及其伪标签一起用作新的训练集,并预测测试设置D。 相同的方法用于预测A,B和C。这是由Xiaozhou发明的,效果出乎意料,并且可以减少局部交叉验证损失,公共LB损失和私人LB损失。最佳的半监督学习模型可以使私人LB对数丢失达到0.0023,这是我们所有解决方案中的最高分。 我真的不知道它如何改善结果。是因为30%的测试集被“泄漏”了,这是使用此信息的一种方式吗? 还是有任何理论上的原因可以解释其原理?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.