Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
带有交互作用项的LASSO-主效应缩小到零可以吗?
LASSO回归将系数缩小为零,从而有效地提供了模型选择。我相信在我的数据中,名义协变量和连续协变量之间存在有意义的相互作用。但是,真实模型的“主要影响”不一定有意义(非零)。当然我不知道,因为真正的模型是未知的。我的目标是找到真实的模型并尽可能地预测结果。 我了解到,在建立交互之前,经典的建模方法总是会包含主要效果。因此,如果在同一模型中存在协变量的交互作用,那么就不会有没有两个协变量和的主效应的模型。因此,该功能会 仔细选择模型术语(例如,基于后向或前向AIC)以遵守该规则。XXXžžZX* ZX∗žX*ZstepR LASSO的工作方式似乎有所不同。由于所有参数都是不利的,因此毫无疑问会发生这样的情况,即主效应缩小为零,而最佳(例如,交叉验证)模型的交互作用为非零。这是我特别为我的数据发现当使用R的glmnet软件包。 我收到了基于上面引用的第一条规则的批评,即,我最终的交叉验证的套索模型不包括一些非零交互的相应主效应项。但是,在这种情况下,此规则似乎有些奇怪。最终的问题是真实模型中的参数是否为零。假设它是,但交互作用为非零,则LASSO可能会识别出这一点,从而找到正确的模型。实际上,由于该模型不包含真正为零的主效应(实际上是噪声变量),因此根据该模型进行的预测似乎更为精确。 我是否可以基于此理由驳斥批评,还是应该采取一些预防措施,使LASSO在交互作用术语之前确实包含主要作用?

10
为什么不抛弃神经网络和深度学习呢?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 深度学习和神经网络通常存在的基本问题。 适合训练数据的解决方案是无限的。我们没有一个只有一个人就能满足的精确数学方程式,并且可以说是最好的概括。简而言之,我们不知道哪种概括最好。 优化权重并不是一个凸面的问题,因此我们永远都不会知道最终会遇到全局最小值还是局部最小值。 那么,为什么不抛弃神经网络而寻找更好的ML模型呢?我们了解什么,并且与一组数学方程式一致?线性和SVM没有数学上的缺点,并且与一组数学方程式完全一致。为什么不只是沿着同一条线思考(虽然不需要线性),并且提出一个比线性和SVM,神经网络和深度学习更好的新ML模型?

5
机器学习算法来处理丢失的数据
我正在尝试使用包括实验室值在内的高维度临床数据来开发预测模型。数据空间稀疏,包含5k个样本和200个变量。想法是使用特征选择方法(IG,RF等)对变量进行排名,并使用排名靠前的特征来开发预测模型。 尽管使用朴素贝叶斯方法进行的特征选择进展顺利,但由于变量空间中缺少数据(NA),我现在在实现预测模型时遇到了一个问题。是否有任何机器学习算法可以仔细处理缺少数据的样本?

2
逻辑回归背后的直觉
最近,我开始学习机器学习,但是未能掌握逻辑回归的直觉。 以下是我了解的关于逻辑回归的事实。 作为假设的基础,我们使用S形函数。我确实理解为什么这是一个正确的选择,但是为什么它是我不理解的唯一选择。假设表示适当的输出为的概率,因此我们函数的域应该为,这是我在这里发现有用和合适的S型函数的唯一属性,但是许多函数都满足此属性。另外,S形函数具有形式的导数,但是我看不到这种特殊形式在逻辑回归中的效用。[ 0 ,1 ] ˚F (X )(1 - ˚F (X ))1个1个1[ 0 ,1 ][0,1个][0,1]F(x )(1 − f(x ))F(X)(1个-F(X))f(x)(1-f(x)) 问题:sigmoid函数有何特别之处,为什么我们不能在域使用任何其他函数?[ 0 ,1 ][0,1个][0,1] 成本函数由两个参数如果如果则。就像上面一样,我确实理解为什么它是正确的,但是为什么它是唯一的形式?例如,为什么不是成本函数的好选择?Ý = 1 ,Ç Ò 小号吨(ħ θ(X ),Ý )= - 日志(1 - H ^ θ(X ))y = 0 | ħ θ (X )Ç Ò 小号吨( ħθ(x),y)=−log(hθ(x))CØsŤ(Hθ(X),ÿ)=-日志⁡(Hθ(X)){\rm …

5
您是否应该标准化二进制变量?
我有一个具有一组功能的数据集。其中一些是二进制的活动或已发射,非活动或处于休眠状态),其余为实际值,例如。0 = 4564.342(1 =(1个=(1=0 =0=0=4564.3424564.3424564.342 我想这个数据馈送到机器学习算法,所以我 -score所有的实值的功能。我大约在到之间。现在二进制值也为得分,因此零变为而其变为。3 − 2 z − 0.222 0.5555žžz333− 2-2-2žžz− 0.222-0.222-0.2220.55550.55550.5555 这样标准化二进制变量有意义吗?

3
多标签数据准确性的衡量标准是什么?
考虑一个为您提供KnownLabel矩阵和PredictedLabel矩阵的方案。我想相对于KnownLabel矩阵来衡量PredictedLabel矩阵的优势。 但是这里的挑战是,KnownLabel矩阵只有几行只有一个1,而其他几行却有很多1(这些实例被多重标记)。下面给出了KnownLabel矩阵的示例。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 在上面的矩阵中,数据实例1和2是单个标签数据,数据实例3和4是两个标签数据,数据实例5是三个标签数据。 现在,我已经使用算法对数据实例的PredictedLabel矩阵进行了处理。 我想知道各种可用于衡量PredictedLabel矩阵相对于KnownLabel矩阵的良好性的度量。 我可以将它们之间的frobeinus规范差异视为衡量标准之一。但是我正在寻找诸如准确性(=Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) 在这里,我们如何为多个数据实例定义?Correctly_predictedCorrectly_predicted\rm Correctly\_predicted

5
每个聚类具有相同数量点的聚类过程?
我在有一些点,并且我想将这些点聚类,以便:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。(假设簇数除以。)XXXnnn 每个聚类在某种意义上都是“空间内聚的”,就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程,但是没有人知道同时获得两者的方法吗?


4
过采样,欠采样和SMOTE可以解决什么问题?
在最近一个广为接受的问题中,Tim问不平衡的数据何时真正成为机器学习中的问题?问题的前提是,有很多机器学习文献讨论班级平衡和班级不平衡的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(这里包括概率模型)算法出现问题,应该寻求方法来“平衡”数据集,以恢复完美的50/50在正面和负面类别之间进行划分。 赞成的答案的一般含义是“不是,至少如果您在建模时考虑周全”。M. Henry L.在对已接受答案的投票中说: [...]使用不平衡数据没有低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意AdamO的观点,即通常来说,不平衡的数据不会对特定模型造成任何概念上的问题。 AdamO认为阶级平衡的“问题”确实是阶级稀有性之一 因此,至少在回归分析中(但我怀疑在所有情况下),数据不平衡的唯一问题是有效地减少了样本量。如果有任何一种方法适合于稀有阶层的人数,那么他们的比例成员不平衡就不会有问题。 如果这确实是一个真正的问题,那么将有一个悬而未决的问题:所有旨在平衡数据集的重采样方法的目的是什么:过采样,欠采样,SMOTE等? 显然,它们不能解决隐含样本量较小的问题,您不能一无所有地创建信息!

1
经验贝叶斯如何有效?
因此,我刚读完一本很棒的书《经验贝叶斯简介》。我以为这本书很棒,但是根据数据建立先验感觉是错误的。我们接受过培训,要求您提出分析计划,然后收集数据,然后测试您先前在分析计划中确定的假设。在对已经收集的数据进行分析时,这将使您进入选择性后推断,在此之后您必须对所谓的“重要”更为严格,请参见此处。我认为机器学习有一个类似的东西,叫做“樱桃采摘”,意思是在建立测试和训练集之前选出预测变量(《统计学习入门》)。 鉴于我以前学到的知识,在我看来,经验贝叶斯基于薄弱的基础。人们是否仅在被动生成数据的环境中使用它?如果是这样,这可能是合理的,但是在进行严格的实验设计时使用它似乎并不正确,但是我知道Brad Efron确实使用了专门针对生物统计学的经验贝叶斯方法,而贝叶斯通常是一个非常重要的NHST领域。 我的问题是: 经验贝叶斯如何有效? 在什么情况下使用? 在什么情况下应该避免使用经验贝叶斯方法?为什么? 人们是否在生物统计学之外的其他领域使用它?如果是,他们在什么情况下使用它?


1
从MCMC样本计算边际可能性
这是一个反复出现的问题(请参阅本文,本文和文章),但是我有不同的看法。 假设我有一堆来自通用MCMC采样器的采样。对于每个样本,我知道对数似然和对数在先。如果有帮助,我也知道每个数据点的对数似然值\ log f(x_i | \ theta)(此信息对某些方法(例如WAIC和PSIS-LOO)有所帮助)。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 我想仅凭我拥有的样本以及可能的其他一些功能评估(但不重新运行即席 MCMC)来获得(粗略)边际可能性的估计。 首先,让我们清除表。众所周知,谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样,则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程(例如通过回火的后验者),但是我对此并不感兴趣。 我正在考虑的方法包括用参数(或非参数)形状g(\ theta)近似基础分布g(θ)g(θ)g(\theta),然后将归一化常数ZZZ视为一维优化问题(即,使某些误差最小的ZZZ之间Zg(θ)Zg(θ)Z g(\theta)和f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)评价对样品)。在最简单的情况下,假设后验近似为多元法线,我可以将g(\ theta)拟合g(θ)g(θ)g(\theta)为多元法线,并得到类似于拉普拉斯近似的东西(我可能想使用一些其他函数求值来细化位置模式)。但是,我可以将其用作g(θ)g(θ)g(\theta)更灵活的族,例如多元ttt分布的变体混合。 我知道只有在Zg(θ)Zg(θ)Z g(\theta)是f(\ textbf {x} | \ theta)f(\ theta)的合理近似值的情况下,此方法才有效f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta),但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗 您会建议阅读吗? 完全非参数方法使用一些非参数族,例如高斯过程(GP),来近似logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)(或其一些其他非线性变换,例如(作为平方根)和贝叶斯正交,以隐式集成基础目标(请参见此处和此处)。这似乎是一种有趣的替代方法,但在精神上是类似的(另请注意,就我而言,全科医生会很笨拙)。

2
用于文本分类的词袋:为什么不只使用词频代替TFIDF?
文本分类的常用方法是从“词袋”中训练分类器。用户采用要分类的文本并计算每个对象中单词的出现频率,然后进行某种修整以使结果矩阵保持可管理的大小。 我经常看到用户使用TFIDF构建其特征向量。换句话说,上面提到的文本频率被语料库中单词的频率降低权重。我明白了为什么TFIDF对于选择给定文档的“最有区别”的单词以供显示给人类分析人员有用。但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低​​权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?非常感谢您对IDF增值(如果有)的想法。

4
我们可以从人工神经网络中学到什么关于人脑?
我知道我的问题/标题不是很具体,所以我将尝试澄清一下: 人工神经网络的设计相对严格。当然,通常,它们会受到生物学的影响,并尝试建立真实神经网络的数学模型,但是我们对真实神经网络的理解不足以建立精确的模型。因此,我们无法构思出精确的模型或“接近”真实神经网络的任何事物。 据我所知,所有人工神经网络都与真实神经网络相距甚远。标准,经典的全连接MLP在生物学中不存在。递归神经网络缺乏实际的神经可塑性,RNN的每个神经元都具有相同的“反馈结构”,而真实的神经元则保存并共享它们的信息而不是单独地。卷积神经网络是有效且流行的,但是(例如)人脑中的图像处理仅由几个卷积层组成,而现代解决方案(如GoogLeNet)已经使用了数十个卷积层……尽管它们为计算机产生了很好的结果,它们甚至不接近人类的表现。尤其是当我们想到“每层性能”时,与真实的神经网络相比,我们需要大量的层并减少数据。 此外,据我所知,与真实神经网络的巨大适应性相比,即使是模块化的,自扩展/自重构的人工神经网络也相当“固定和静态”。生物神经元通常具有成千上万的树突,将神经元连接到各种各样的不同区域和其他神经元。人工神经网络更加“直接”。 那么,我们能从人工神经网络学到关于人脑/真实神经网络的任何信息吗?还是只是尝试创建一种性能要比经典的静态算法更好的软件(甚至在此类算法失败的地方做些事情)? 有人可以提供(最好是科学的)有关此主题的资源吗? 编辑:高度赞赏更多答案(:

3
为什么在机器学习中电源或对数转换没有被很好地教授?
机器学习(ML)大量使用线性和逻辑回归技术。这也依赖于功能工程技术(feature transform,kernel,等)。 为什么没有任何关于variable transformation(例如power transformation)在ML提到?(例如,我从没听说过使用根或登录要素,它们通常仅使用多项式或RBF。)同样,为什么ML专家不关心因变量的要素转换?(例如,我从没听说过对y进行对数转换;他们只是不对y进行转换。) 编辑:也许不是肯定的问题,我真正的问题是“对变量的幂转换在ML中不重要吗?”

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.