Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

5
使用SVM或神经网络时如何将分类变量重新编码为数值变量
要使用SVM或神经网络,需要将分类变量转换(编码)为数字变量,在这种情况下,通常的方法是使用0-1二进制值,将第k个分类值转换为(0,0,.. 。,1,0,... 0)(1在第k个位置)。还有其他方法可以做到这一点,尤其是当存在大量分类值(例如10000),使得0-1表示将在神经网络中引入大量额外的维度(输入单位)时,这似乎不是很理想或期望的? 我在问一般策略。

2
神经网络是黑盒子的含义吗?
我经常听到人们谈论神经网络,就像黑盒子一样,您不了解它的作用或含义。我实际上不明白他们的意思!如果您了解反向传播的工作原理,那么黑匣子又如何呢? 它们是否意味着我们不了解如何计算权重或什么?

2
功能工程教程
众所周知,特征工程对于机器学习极为重要,但是我发现与此领域相关的材料很少。我参加了Kaggle的几次比赛,并认为在某些情况下,好的功能甚至比好的分类器更重要。有谁知道关于功能工程的任何教程,或者这是纯粹的经验?

2
通过时间进行逻辑回归更新分类概率
我正在建立一个预测模型,该模型可以预测学生在学期末的成功概率。我对学生是成功还是失败特别感兴趣,其中成功通常被定义为完成课程并获得总分的70%或更多。 当我部署模型时,随着更多信息的获得,成功概率的估计需要随着时间的推移而更新-理想的情况是发生某种事情后立即发生,例如学生提交作业或获得一项成绩时。这种更新对我来说听起来像是贝叶斯,但是考虑到我在教育统计方面的训练,这有点超出我的舒适范围。 到目前为止,我一直在使用逻辑回归(实际上是套索)与包含基于周快照的历史数据集。由于每个学生都有观察值,因此该数据集具有相关的观察值;一个学生的观察结果是相关的。我不是在特定学生的每周观察中专门建模相关性。我相信我只需要在推论环境中考虑一下,因为标准误会太小。我认为-但对此不确定-从相关观察得出的唯一问题是,当我交叉验证以将聚类观察保留在数据的一个子集中时,我需要格外小心,这样我就不会根据对模型已经见过的人的预测,人为地降低样本外错误率。ŤË ř 米大号ë Ñ 克吨ħ / 7TermLength/7TermLength/7 我正在使用R的glmnet程序包对逻辑模型进行套索处理,以生成成功/失败的可能性,并自动为特定课程选择预测变量。我一直使用周变量作为因素,与所有其他预测变量进行交互。我认为这与仅估计基于周的单个模型在总体上并没有什么不同,除了它可以使我们了解整个期间中可能存在一些通用模型,这些模型可以在不同星期通过各种风险调整因子进行调整。 我的主要问题是:是否有一种更好的方法来随时间更新分类概率,而不是将数据集分为每周(或其他基于间隔的)快照,引入与其他要素交互的时间周期因子变量,以及使用累积功能(累积的积分,上课的累积天数等)? 我的第二个问题是:我是否在这里缺少与相关观测值相关的预测建模的关键内容? 我的第三个问题是:考虑到我每周做快照,如何将其概括为实时更新?我正在计划仅在当前的每周时间间隔内插入变量,但这对我来说似乎很麻烦。 仅供参考,我受过应用教育统计方面的培训,但很早以前就拥有数学统计方面的知识。如果可以的话,我可以做一些更复杂的事情,但是我需要用相对容易理解的术语来解释。

3
半监督学习,主动学习和深度学习进行分类
最终编辑,所有资源已更新: 对于一个项目,我正在应用机器学习算法进行分类。 挑战: 有限的标记数据和更多的未标记数据。 目标: 应用半监督分类 应用某种程度上的半监督式标签过程(称为主动学习) 我从研究论文中发现了很多信息,例如应用EM,Transductive SVM或S3VM(半监督SVM),或者以某种方式使用LDA等。关于该主题的书籍也很少。 问题: 实现方式和实际来源在哪里? 最终更新(基于mpiktas,bayer和Dikran Marsupial提供的帮助) 半监督学习: TSVM:位于SVMligth和SVMlin中。 EM朴素贝叶斯(Python) EM在LinePipe项目中 主动学习: 二元论:一种主动学习的实现,带有文本分类源代码 该网页很好地概述了主动学习。 实验设计研讨会:此处。 深度学习: 此处的介绍性视频。 一般网站。 斯坦福无监督特征学习和深度学习教程。


2
反向传播算法
我对多层感知器(MLP)中使用的反向传播算法有些困惑。 该误差由成本函数调整。在反向传播中,我们试图调整隐藏层的权重。我能理解的输出错误,就是e = d - y[没有下标]。 问题是: 如何获得隐藏层的错误?如何计算呢? 如果我反向传播它,应该使用它作为自适应滤波器的成本函数还是应该使用指针(在C / C ++中)编程意义来更新权重?

3
0-1损失函数说明
我试图了解损失函数的用途,但我不太了解。 因此,据我所知,损失函数是用于引入某种度量的,我们可以用它来度量不正确决策的“成本”。 假设我有一个包含30个对象的数据集,我将它们划分为20/10这样的训练/测试集。我将使用0-1损失函数,所以可以说我的类标签集为M,函数看起来像这样: L (i ,j )= { 0i = j1个i ≠ j我,Ĵ ∈ 中号大号(一世,Ĵ)={0一世=Ĵ1个一世≠Ĵ一世,Ĵ∈中号 L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M 因此,我在训练数据上构建了一个模型,可以说我正在使用Naive Bayes分类器,并且该模型正确地分类了7个对象(为它们分配了正确的类别标签),并且错误地分类了3个对象。 因此我的损失函数将返回“ 0” 7次和“ 1” 3次-我可以从中获得什么样的信息?我的模型对30%的对象进行了错误分类吗?还是还有更多呢? 如果我的思维方式有任何错误,我感到非常抱歉,我只是在尝试学习。如果我提供的示例“太抽象”,请告诉我,我将尝试更加具体。如果您尝试使用其他示例来解释该概念,请使用0-1损失函数。

1
神经网络中日特征的最佳构造
在处理回归问题时,我开始考虑“星期几”功能的表示形式。我想知道哪种方法会更好: 一个特征 周一值1/7;星期二2/7 ... 7个功能:(1、0、0、0、0、0、0)为星期一;(0,1,0,0,0,0,0)for Tuesday ... 由于网络配置差异,很难对其进行衡量。(我认为其他六个功能应该反映在隐藏节点的数量上。) 所有功能的数量大约是20。我使用简单的反向学习器来学习普通的前馈神经网络。


1
校准多类增强分类器
我已阅读亚历山德鲁·尼古列斯库-米济尔和富卡鲁阿纳的论文“ 从推进获取校准概率,并在讨论” 这一主题。但是,我仍然难以理解和实现逻辑或普拉特定标来校准我的多类提升分类器(带有决策树桩的温和提升)的输出。 我对广义线性模型有些熟悉,并且我想我了解logistic和Platt的校准方法在二进制情况下如何工作,但不确定如何将本文中描述的方法扩展到多类情况。 我正在使用的分类器输出以下内容: =分类器针对要分类的样本 i为类 j投的票数F我ĴF一世Ĵf_{ij}ĴĴj一世一世i =预估班级ÿ一世ÿ一世y_i 在这一点上,我有以下问题: 问题1:我是否需要使用多项式logit来估计概率?还是我仍然可以通过逻辑回归来做到这一点(例如,以1-vs-all的方式)? 问题2:如何为多类情况定义中间目标变量(例如,按Platt的缩放比例)? Q3:我知道这可能要问很多,但是有人愿意为这个问题草拟出伪代码吗?(在更实际的水平上,我对Matlab中的解决方案感兴趣)。

1
什么是“功能空间”?
“特征空间”的解释是什么? 例如,当阅读有关SVM的内容时,我阅读了有关“映射到要素空间”的信息。在阅读有关CART的文章时,我阅读了有关“分区到要素空间”的信息。 我了解正在发生的事情,尤其是对于CART,但是我认为我错过了一些定义。 有“特征空间”的一般定义吗? 是否有定义可以使我更深入地了解SVM内核和/或CART?

3
神经网络是否学习函数或概率密度函数?
这个问题听起来有点奇怪,因为我是统计推理和神经网络的新手。 当使用神经网络进行分类问题时,我们说我们要学习一个函数,它将输入的空间映射到输出的空间:f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y 我们是否要拟合参数()以建模非线性函数或模型概率密度函数?θθ\theta 我真的不知道如何以更好的方式写问题。我已经读过两次(概率密度函数或类似函数),因此感到困惑。

4
Conv1D和Conv2D有什么区别?
我正在研究keras卷积文档,发现了两种类型的卷积Conv1D和Conv2D。我做了一些网页搜索,这就是我对Conv1D和Conv2D的了解;Conv1D用于序列,Conv2D用于图像。 我一直以为卷积神经网络仅以这种方式用于图像和可视化的CNN 图像被认为是一个大矩阵,然后滤镜将在该矩阵上滑动并计算点积。我相信keras所说的是Conv2D。如果Conv2D以这种方式工作,那么Conv1D的机制是什么,我们如何想象其机制?

4
为什么使用伪标记会轻而易举地影响结果?
我一直在研究半监督学习方法,并遇到了“伪标签”的概念。 据我了解,使用伪标签时,您将拥有一组标记的数据以及一组未标记的数据。首先,您仅根据标记的数据训练模型。然后,您可以使用该初始数据对未标记的数据进行分类(向其附加临时标签)。然后,您可以将标记和未标记的数据反馈回模型训练中,以(重新)拟合已知标记和预测标记。(重复此过程,并使用更新的模型重新标记。) 所声称的好处是您可以使用有关未标记数据的结构的信息来改进模型。经常显示下图的变体,“表明”该过程可以根据(未标记)数据所在的位置制定更复杂的决策边界。 图片来自Techerin CC BY-SA 3.0的Wikimedia Commons 但是,我不太喜欢那种简单的解释。天真的,如果原始的仅加标签的训练结果是上决策边界,则将基于该决策边界分配伪标签。也就是说,上部曲线的左手将被伪标记为白色,下部曲线的右手将被伪标记为黑色。重新训练后,您将不会获得很好的弯曲决策边界,因为新的伪标签只会增强当前的决策边界。 或者换种说法,当前仅标记的决策边界将对未标记的数据具有完美的预测精度(因为这就是我们用来制作它们的方式)。没有驱动力(没有梯度)会导致我们仅通过添加伪标记数据即可更改决策边界的位置。 我是否认为缺少该图所体现的解释是正确的?还是我想念的东西?如果没有,什么是伪标签的利益,考虑到-再培训预决策边界已超过伪标签完美的准确性?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.