Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

11
测试集和验证集有什么区别?
当我在Matlab中使用神经网络工具箱时,我感到困惑。 它将原始数据集分为三个部分: 训练集 验证集 测试集 我注意到在许多训练或学习算法中,数据通常分为训练集和测试集两部分。 我的问题是: 验证集和测试集有什么区别? 验证集是否真的特定于神经网络?或者它是可选的。 更进一步,在机器学习的上下文中,验证和测试之间有区别吗?

20
两种文化:统计与机器学习?
去年,我读了布伦丹·奥康纳(Brendan O'Connor)的博客文章,标题为“统计与机器学习,战斗!”。讨论了两个领域之间的一些差异。 安德鲁·盖尔曼对此表示赞同: 西蒙·布隆伯格: 从R的命运包中得出:挑衅地说,“机器学习是统计减去对模型和假设的任何检查”。-Brian D. Ripley(关于机器学习和统计之间的区别)useR!2004,维也纳(2004年5月):-)节日的问候! 安德鲁·盖尔曼: 在这种情况下,也许我们应该更频繁地摆脱模型和假设的检验。然后,也许我们能够解决机器学习人员可以解决但我们不能解决的一些问题! Leo Breiman于2001年发表的“统计建模:两种文化”论文指出,统计学家过于依赖数据建模,而机器学习技术正在取得进步,而仅依靠模型的预测准确性。 在过去的十年中,统计领域是否因这些批评而发生了变化?不要将两种文化依然存在或已发展统计拥抱机器学习技术如神经网络和支持向量机?

5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。



12
数据挖掘,统计,机器学习和AI之间有什么区别?
数据挖掘,统计,机器学习和AI之间有什么区别? 可以准确地说,它们是试图解决非常相似的问题但使用不同方法的4个领域吗?它们到底有什么共同之处,又有何不同?如果它们之间存在某种等级关系,那会是什么? 以前曾问过类似的问题,但我仍然不明白: 数据挖掘与统计分析 两种文化:统计与机器学习?

3
如何知道您的机器学习问题是没有希望的?
想象一下标准的机器学习场景: 您面临着庞大的多元数据集,并且您对它的理解很模糊。您需要做的是根据所拥有的东西对一些变量进行预测。像往常一样,您清理数据,查看描述性统计信息,运行某些模型,对其进行交叉验证等,但是经过几次尝试,来回尝试多个模型后,似乎没有任何效果,而且您​​的结果很可悲。您可能会花费数小时,数天或数周的时间解决此类问题... 问题是:何时停止?您怎么知道您的数据实际上是绝望的,所有花哨的模型对预测所有案例或其他琐碎解决方案的平均结果都不会带来什么好处? 当然,这是一个可预测性问题,但是据我所知,在尝试对多变量数据进行评估之前很难评估它。还是我错了? 免责声明:这个问题是受这个问题启发的。 我什么时候停止寻找模特儿了?并没有引起太多关注。对此问题有详细的答案以供参考是很好的。

4
神经网络中的隐藏层计算什么?
我敢肯定,很多人都会以“让我为您找到的谷歌”的链接进行回复,因此我想说的是我已经设法弄清楚了这一点,所以请您原谅我对此缺乏理解,但是我无法弄清楚神经网络的实际实现实际上是可行的。 我了解输入层以及如何对数据进行规范化,也了解偏差单位,但是当涉及到隐藏层时,该层中的实际计算是什么,以及它如何映射到输出中就有点模糊了。我已经看到了在隐藏层中带有问号的图,布尔函数(例如AND / OR / XOR),激活函数以及映射到所有隐藏单元的输入节点,以及每个映射到仅几个隐藏单元的输入节点,等等。我只是在实践方面有几个问题。当然,像您向孩子解释那样,对整个神经网络过程的简单解释将非常棒。 隐藏层中进行了哪些计算? 这些计算如何映射到输出层? 输出层如何工作?从隐藏层反规范化数据? 为什么输入层中的某些层连接到隐藏层,而有些却没有呢?

9
为什么突然对张量着迷?
我最近注意到,很多人都在开发许多方法的张量等效项(张量分解,张量内核,用于主题建模的张量等),我想知道,为什么世界突然对张量着迷?最近是否有特别令人惊讶的论文/标准结果带来了这一结果?在计算上比以前怀疑的便宜很多吗? 我不是一个傻瓜,我很感兴趣,并且如果有关于这方面的文章的指针,我很想阅读。

3
ROC与精度和召回曲线
我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。 他们是否总是提供有关给定分类/检测系统性能的补充见解? 例如,何时在纸上同时提供它们?而不只是一个? 是否有其他替代(可能更现代)的描述符捕获分类系统的ROC和精确召回的相关方面? 我对二进制和多类(例如一对一)案例的参数都感兴趣。

2
生成与区分
我知道生成式意思是“基于 ”,判别式意思是“基于 ”,但是我对以下几点感到困惑:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) 维基百科(以及网络上的许多其他热门文章)将诸如SVM和决策树之类的内容归类为歧视性内容。但是这些甚至没有概率解释。区别在这里是什么意思?区别对待只是意味着没有生成能力吗? 朴素贝叶斯(NB)具有生成性,因为它捕获和,因此您拥有(以及)。是不是小事做,比方说,回归(海报男孩判别模型的)“生成”通过简单的计算在类似的方式(同独立的假设为NB,使得,其中的MLE 只是频率)?P(x|y)P(x|y)P(x|y)P(y)P(y)P(y)P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x)P(x)P(x)P(x)P(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)P(xi)P(xi)P(x_i) 我知道判别模型往往胜过生成模型。生成模型的实际用途是什么?能够生成/模拟数据被引用了,但是什么时候出现呢?我个人只有回归,分类和协作的经验。过滤结构化数据,那么这里的用法与我无关吗?“缺少数据”参数(缺少)似乎只为您提供训练数据的优势(当您实际上知道且无需对进行边际化以获得相对笨拙时),无论如何您都可以直接估算出),即使这样,插补也更加灵活(不仅可以基于预测P(xi|y)P(xi|y)P(x_i|y)xixix_iyyyP(y)P(y)P(y)P(xi)P(xi)P(x_i)yyy但其他也是如此)。xixix_i 维基百科上完全矛盾的引用是什么?“在表示复杂学习任务中的依存关系方面,生成模型通常比判别模型更灵活”与“区分模型通常可以表达观察到的目标变量之间更复杂的关系” 相关问题让我开始思考。


5
在交叉验证后使用完整数据集进行训练?
在交叉验证后训练整个数据集总是一个好主意吗?换一种说法,它是确定与培训所有在我的数据集的样本,不能够检查这个特定的装置overfits? 问题的一些背景: 假设我有一个由→ α参数化的模型系列。还说我有一组N个数据点,并且我通过k倍交叉验证进行模型选择,以选择最能概括数据的模型。α⃗ α→\vec\alphaNNN 对于模型选择,我可以例如通过对每个候选者进行k倍交叉验证来在上进行搜索(例如,网格搜索)。在每个交叉验证的褶皱的,我结束了学习的模型β α。α⃗ α→\vec\alpha βαβα\beta_\alpha 交叉验证的重点是,对于每个折叠,我都可以通过在“看不见的数据”上进行测试来检查学习的模型是否过拟合。根据结果,我可以选择的型号的参数了解到→交通α最好的网格中的搜索交叉验证过程中广义最好的。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full} 在任何看不见的数据上。解决此问题的正确方法是什么?

4
K折交叉验证中K的选择
我现在已经多次使用ķķK折交叉验证来评估某些学习算法的性能,但是对于如何选择的值,我一直感到困惑ķķK。 我经常看到并使用的值ķ= 10ķ=10K = 10,但是这对我来说似乎完全是任意的,我现在只是按习惯使用101010而不是仔细考虑。对我来说,随着值的增加,您似乎会获得更好的粒度ķķK,因此理想情况下,您应该将ķķK得很大,但是也有可能会产生偏差。 我想知道的值ķķK应该取决于什么,以及在评估算法时应该如何思考。如果我使用交叉验证的分层版本,是否会有所改变?

7
C在具有线性内核的SVM中有什么影响?
我目前正在使用具有线性内核的SVM对数据进行分类。训练集上没有错误。我尝试了几个参数值 ()。这并没有改变测试集上的错误。CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 现在我不知道:这是一个错误由红宝石绑定引起了libsvm我使用(RB-LIBSVM)或者是这个理论可以解释? 参数是否应始终改变分类器的性能?CCC

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.