Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
我只是发明了一种用于分析ROC曲线的贝叶斯方法吗?
前言 这是一个很长的帖子。如果您正在重新阅读本文档,请注意,尽管背景材料保持不变,但我已经修改了问题部分。此外,我相信我已经设计出解决该问题的方法。该解决方案显示在帖子的底部。感谢CliffAB指出我的原始解决方案(从该帖子中编辑;请参阅该解决方案的编辑历史)必定产生了偏差估计。 问题 在机器学习分类问题中,评估模型性能的一种方法是通过比较ROC曲线或ROC曲线下的面积(AUC)。但是,据我观察,对ROC曲线的可变性或AUC的估计很少进行讨论。也就是说,它们是根据数据估算的统计信息,因此存在一些与之相关的错误。表征这些估计中的误差将有助于表征,例如,一个分类器是否确实优于另一个分类器。 为了解决这个问题,我开发了以下方法(称为ROC曲线的贝叶斯分析)。我对这个问题的思考有两个主要观察结果: ROC曲线由来自数据的估计数量组成,并且适合贝叶斯分析。 ROC曲线是通过将真实的阳性率对于假阳性率绘制而成的,每个假性率本身都是根据数据估算的。我考虑和函数,用于从B对A类进行排序的决策阈值(随机森林中的树票,SVM中距超平面的距离,逻辑回归中的预测概率等)。改变决策阈值值将返回和不同估计值。此外,我们可以考虑˚F P - [R (θ )Ť P ř ˚F P - [R θ θ Ť P ř ˚F P ř Ť P - [R (θ )Ť PŤPR (θ )TPR(θ)TPR(\theta)FPR (θ )FPR(θ)FPR(\theta)ŤP[RTPRTPRFP[RFPRFPRθθ\thetaθθ\thetaŤP[RTPRTPRFP[RFPRFPRŤPR (θ )TPR(θ)TPR(\theta)在一系列的伯努利试验中估计成功的可能性。实际上,TPR定义为它也是成功且总试验中二项式成功概率的MLE 。TPTP+FN>0ŤPŤP+ Fñ,TPTP+FN,\frac{TP}{TP+FN},ŤPTPTPŤP+ Fñ> 0TP+FN>0TP+FN>0 因此,通过将和的输出视为随机变量,我们面临着一个估计二项式实验成功概率的问题,在该二项式实验中,成功和失败的数目是确切已知的(给定通过,,和,我假设都是固定的)。按照惯例,仅使用MLE,并假设TPR和FPR对于特定值是固定的˚F P - [R (θ )Ť P …

2
通用数据集的数据增强技术?
在许多机器学习应用程序中,所谓的数据增强方法已允许构建更好的模型。例如,假设训练集包含张猫和狗的图像。通过旋转,镜像,调整对比度等,可以从原始图像生成其他图像。100100100 对于图像,数据扩充相对简单。但是,假设(例如)一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办?100100100

3
将SVD应用于协作过滤问题时会发生什么?两者有什么区别?
在协作过滤中,我们没有填写值。假设用户没有看电影,那么我们必须在其中放一个“ na”。 如果要使用此矩阵的SVD,则必须在其中放入一些数字-假设为0。缩小的尺寸空间)。但预测的偏好本身-用户对某项商品的偏好将为零。(因为这就是我们在未知列上输入的内容)。 因此,我陷入了协作过滤与SVD问题的困扰。它们似乎几乎相同,但不完全相同。 它们之间有什么区别?当我将SVD应用于协作过滤问题时会发生什么?我做到了,结果在寻找附近用户方面似乎可以接受,这很好,但是如何?

3
大数据的第一步(,)
假设您正在分析每天有数十亿个观测值的巨大数据集,其中每个观测值都有数千个稀疏值,可能还有多余的数值和类别变量。假设存在一个回归问题,一个不平衡的二元分类问题,以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是: 在数据的越来越大(随机)子样本上拟合一些预测模型,直到: 拟合和交叉验证模型在计算上变得困难(例如,我的笔记本电脑运行异常缓慢,R内存不足等),或者 训练和测试RMSE或精度/召回值稳定。 如果训练和测试错误不稳定(1.),请使用更简单的模型和/或实施该模型的多核或多节点版本,然后从头开始。 如果训练和测试错误稳定下来(2.): 如果(即,我仍然可以在上运行算法,因为它还不太大),请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨ñš ü b 小号Ë 吨≪ NñsübsËŤ≪ñN_{subset} \ll NXš ü b 小号Ë 吨XsübsËŤX_{subset} 如果是'large'并且进行进一步的分析是昂贵的,则分析变量的重要性并结束分析。ñš ü b 小号Ë 吨ñsübsËŤN_{subset} 我打算使用像包biglm,speedglm,multicore,和ffR中最初,并在以后使用更复杂的算法和/或多节点(上EC2)是必要的。 这听起来像是一种合理的方法吗?如果是,那么您是否有任何具体建议或建议?如果没有,那么您将尝试使用这种大小的数据集吗?

2
比较聚类:兰德指数与信息变化
我想知道是否有人在信息变异和兰德指数之间的差异背后有任何见识或直觉可用于比较聚类。 我已经阅读了Marina Melia撰写的论文“ Comparing Clusterings-A InformationBased Distance ”(多变量分析杂志,2007年),但是除了注意到定义的差异之外,我不了解信息的变化是什么。捕获rand索引不捕获的值。

4
相关性和因果关系在何种程度上与Google相关?
语境 这个站点上一个普遍的问题是“ 什么是常见的统计罪过? ”。提到的罪过之一是假设“相关暗示因果关系...” 链接 然后,在带有5个投票的评论中,建议:“ Google每年可赚取$ 65B,而无需关心差异。” 冒着过度分析轻巧内容的风险,我认为这可能是有益的讨论点,可以充实相关性和因果关系之间的区别以及该区别的实际相关性。也许可以突显有关机器学习之间的关系以及相关性与因果关系之间的区别的一些信息。 我假设此评论所针对的技术是生成搜索引擎结果和与广告展示相关的技术的基础。 题 相关性和因果关系在多大程度上与Google的创收相关,也许特别关注通过广告展示相关技术和高质量搜索结果来创收?

4
决策树几乎总是二叉树吗?
我遇到的几乎每个决策树示例都恰好是一棵二叉树。这是普遍的吗?大多数标准算法(C4.5,CART等)仅支持二进制树吗?据我所知,CHAID不限于二叉树,但这似乎是一个例外。 在其中一个孩子上进行双向拆分然后再进行双向拆分与一次三元拆分是不同的事情。这可能是一个学术观点,但是我试图确保我了解最常见的用例。

2
如何在学习算法之间进行选择
我需要实现一个程序,根据一些训练数据将记录分为两类(对/错),我想知道应该查看哪种算法/方法。似乎有很多可供选择的选择-人工神经网络,遗传算法,机器学习,贝叶斯优化等,而我不确定从哪里开始。因此,我的问题是: 我应该如何选择应该用于问题的学习算法? 如果有帮助,这是我需要解决的问题。 训练数据: 训练数据由许多行组成,如下所示: Precursor1, Precursor2, Boolean (true/false) 运行 我会给出一堆的前体。 然后, 我从不同的算法中选择一种算法A(或动态生成一种算法),并将其应用于这些前体的每种可能组合,并收集发出的“记录”。“记录”由几个键值对*组成。 我应用了一些很棒的算法,并将这些记录分为2类(对/错)。 我将生成一个与火车数据具有相同格式的表: Precursor1, Precursor2, Boolean 整个程序的评分是基于我正确判断对错的几率。 *:“记录”看起来像这样(希望这样有意义) Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 只有有限数量的可能的键。记录包含这些键的不同子集(某些记录具有key1,key2,key3 ...,其他记录具有key3,key4 ...等)。 我实际上需要2学习。一个是针对第1步的。我需要一个模块来查看Precursor对等,并确定要应用哪种算法才能发出比较记录。另一个是针对步骤2的。我需要一个模块来分析记录的收集并将它们分类为2个类别(对/错)。 先感谢您!

2
选择模型后进行交叉验证(错误归纳)
注意:大小写为n >> p 我正在阅读《统计学习的元素》,关于交叉验证的“正确”方法有很多提及(例如,第60页,第245页)。具体来说,我的问题是在进行模型搜索时,如何使用k倍CV或自举法评估最终模型(没有单独的测试集)?似乎在大多数情况下(没有嵌入式功能选择的ML算法) 功能选择步骤 元参数选择步骤(例如,SVM中的成本参数)。 我的问题: 我已经看到,可以在整个训练集上进行特征选择并放在一边的情况下,进行特征选择步骤。然后,使用k折CV,在每折中使用特征选择算法(获得每次可能选择的不同特征)并平均误差。然后,您将使用通过所有数据(预留的数据)选择的特征来训练最终模式,但是将交叉验证中的错误用作模型未来性能的估计。它是否正确? 当您使用交叉验证选择模型参数时,随后如何估算模型性能?您是使用第54页(pdf)所示的嵌套简历还是其他方法,还是上面#1的相同过程? 当您同时执行两个步骤(功能和参数设置)时.....然后您会做什么?复杂的嵌套循环? 如果您有单独的保留样本,那么担心会消失吗,您可以使用交叉验证来选择功能和参数(不必担心,因为您的性能估算将来自保留集)?

1
我应该基于微观平均评估还是宏观平均评估措施做出决策?
我对具有相同数据集的不同二进制分类算法进行了10倍交叉验证,并获得了微观和宏观平均结果。应该提到的是,这是一个多标签分类问题。 在我的情况下,真负数和真正数的权重相等。这意味着正确预测真实负值与正确预测真实正值同样重要。 微观平均指标低于宏观平均指标。这是神经网络和支持向量机的结果: 我还使用另一种算法对同一数据集进行了百分比分割测试。结果是: 我希望将百分比拆分测试与宏观平均结果进行比较,但这公平吗?我不认为宏观平均结果会偏误,因为真实的正数和真实的负数的权重相等,但是再说一次,我想知道这是否与将苹果与桔子进行比较相同? 更新 基于这些评论,我将展示如何计算微观和宏观平均值。 我要预测144个标签(与要素或属性相同)。计算每个标签的精度,召回率和F量度。 --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? | .. | ? --------------------------------------------------- 考虑二进制评估度量B(tp,tn,fp,fn),该度量是基于真实肯定(tp),真实否定(tn),错误肯定(fp)和错误否定(fn)计算的。特定度量的宏观和微观平均值可以计算如下: 使用这些公式,我们可以计算出微观和宏观平均值,如下所示: 因此,微平均测度将所有tp,fp和fn(针对每个标签)相加,然后进行新的二进制评估。宏平均度量将所有度量(精度,召回率或F度量)相加并除以标签数,这更像是平均值。 现在,问题是使用哪个?

1
什么功能可能是内核?
在机器学习和模式识别的上下文中,有一个称为Kernel Trick的概念。在要求我确定一个函数是否可以是内核函数的问题面前,应该怎么做?我是否应该首先检查它们是否为多项式,RBF和高斯等三或四个内核函数的形式?那我该怎么办?我应该证明它是肯定的吗?有人可以解决一个示例,以显示针对此类问题的分步解决方案吗?例如像,是内核函数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}(假设我们不知道它是一个高斯内核)?

3
训练损失随时间增加[重复]
这个问题已经在这里有了答案: 成本函数的变化如何为正? (1个答案) 当我的神经网络不学习时该怎么办? (5个答案) 上个月关闭。 我正在训练一个模型(递归神经网络)来对4种类型的序列进行分类。在我进行训练时,我看到训练损失不断减少,直到正确分类训练批次中超过90%的样本为止。但是,几个时代之后,我注意到训练损失增加了,而我的准确性却下降了。这对我来说似乎很奇怪,因为我希望在训练集上表现会随着时间的推移而改善,而不会恶化。我正在使用交叉熵损失,我的学习率为0.0002。 更新:事实证明学习率太高。较低的足够低的学习率,我不会观察到这种行为。但是我仍然觉得这很奇怪。关于这种情况发生的原因,欢迎任何好的解释

1
隐马尔可夫模型与粒子滤波器(和卡尔曼滤波器)之间的区别
这是我的老问题 我想问问是否有人知道隐马尔可夫模型(HMM)和粒子滤波器(PF)之间的区别(如果有区别),并因此得知卡尔曼滤波器,或者在什么情况下我们使用哪种算法。我是学生,必须做一个项目,但首先我必须了解一些事情。 因此,根据书目,这两个都是状态空间模型,包括隐藏(或潜在或不可观察)状态。根据Wikipedia(Hidden_​​Markov_model), “在HMM中,隐藏变量的状态空间是离散的,而观察值本身可以是离散的(通常从分类分布生成)或连续的(通常从高斯分布生成)。隐藏的马尔可夫模型也可以泛化为允许连续的状态空间。这样的模型的例子是那些对隐变量的马尔可夫过程是线性动力学系统,在相关变量之间具有线性关系,并且所有隐变量和观测变量都遵循高斯分布的模型。在简单的情况下,例如刚才提到的线性动力系统,精确推断是很容易的(在这种情况下,使用卡尔曼滤波器);但是,通常,在具有连续潜在变量的HMM中进行精确推断是不可行的,必须使用近似方法,” 但是对我而言,这有点令人困惑……简而言之,这是否意味着关注(也基于我所做的更多研究): 在HMM中,状态空间可以是离散的或连续的。还观测本身可以是离散的或连续的。HMM也是线性和高斯或非高斯动力系统。 在PF,状态空间可以是离散的或连续的。还观测本身可以是离散的或连续的。但是PF是一个非线性(非高斯?)动力系统(它们有区别吗?)。 当我们具有线性和高斯动力系统时,将使用卡尔曼滤波器(在我看来也像HMM一样)。 另外,我怎么知道该选择哪种算法,因为在我看来,所有这些似乎都是相同的...我还发现了一篇论文(不是英文),其中说PF虽然可以具有线性数据(例如来自传感器结点的原始数据)识别运动),则动力学系统可以是非线性的。这会发生吗?它是否正确?怎么样? 对于手势识别,研究人员可以使用HMM或PF,但是他们没有解释为什么选择每种算法……有人知道我可以如何帮助您区分这些算法,了解它们的差异以及如何选择最佳算法吗? 很抱歉,如果我的问题太大,或者某些部分还很幼稚,但我没有找到令人信服的科学答案。非常感谢您抽出宝贵的时间! 这是我的新问题(根据@conjugateprior的帮助) 因此,通过进一步阅读,我想更新我以前的评论的某些部分,并确保我对所发生的事情有更多的了解。 再次简单地说,保护伞是动态贝叶斯网络,其中包含HMM和状态空间的模型(子类)(http://mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf)。 此外,这两个模型之间的初始差异在于,在HMM中,隐藏状态变量是离散的,而观测值可以是离散的或连续的。在PF中,隐藏状态变量是连续的(实值隐藏状态向量),并且观测值具有高斯分布。 此外,根据@conjugateprior,每个模型都有以下3个任务:滤波,平滑和预测。在滤波中,模型HMM将离散的隐藏状态变量用于正向算法,将状态空间用于连续变量并将线性动态系统用于卡尔曼滤波器,等等。 但是,HMM也可以泛化为允许连续的状态空间。 通过HMM的这些扩展,这两个模型在概念上似乎是相同的(正如在“ 隐马尔可夫模型”,“马尔可夫过渡模型”与“状态空间模型...”中提到的一样)。 我认为我使用的术语更加准确,但对我来说一切仍然很模糊。谁能向我解释HMM和State Space模型有什么区别? 因为我真的找不到适合我需求的答案。 再次谢谢你!


2
与Replus相比,使用ReLU作为激活功能有什么好处?
人们经常提到,整流线性单位(ReLU)已取代了softplus单位,因为它们是线性的并且计算速度更快。 softplus仍然具有引起稀疏性的优势吗?还是仅限于ReLU? 我问的原因是我对ReLU零斜率的负面影响感到疑惑。此属性是否不是将单元“捕获”为零,使它们具有重新激活的可能性可能是有益的?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.