Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
受限制的玻尔兹曼机回归?
我正在跟我先前在RBM上提出的问题进行跟进。我看到很多描述它们的文献,但是没有一篇真正地谈到回归(甚至没有带有标记数据的分类)。我感觉它仅用于未标记的数据。是否有处理回归的资源?还是像在隐藏层之上添加另一层并上下运行CD算法那样简单?在此先感谢。

2
在交互模型中找到最佳功能
我有蛋白质列表及其特征值。样本表如下所示: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 行是蛋白质,列是特征。 我也列出了相互作用的蛋白质。例如 Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 问题:对于初步分析,我想知道哪些功能对蛋白质相互作用的贡献最大。 我的理解是,决策树通常可以用于基于熵获得最重要的特征,但是我不确定如何将其扩展到蛋白质对(即相互作用)。是否有用于此目的的方法?

2
e1071 libsvm有问题吗?
我有一个包含两个重叠类的数据集,每个类中有七个点,点在二维空间中。在R中,我正在svm从e1071软件包中运行,以为这些类构建单独的超平面。我正在使用以下命令: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) 其中x包含我的数据点并y包含其标签。该命令返回一个svm-object,我用它来计算分离超平面的参数(法向矢量)和(截距)。wwwbbb 下图(a)显示了我的点和svm命令返回的超平面(让我们将此超平面称为最佳平面)。带符号O的蓝点表示空间原点,虚线表示边距,带圆圈的是非零ξξ\xi(松弛变量)的点。 图(b)显示了另一个超平面,它是最佳5的平行平移(b_new = b_optimal-5)。不难看出,对于该超平面,目标函数 0.5||w||2+cost∑ξi0.5||w||2+cost∑ξi 0.5||w||^2 + cost \sum \xi_i (通过C分类svm最小化)将具有比图所示的最佳超平面更低的值(一个)。看来此svm功能有问题吗?还是我在某个地方犯了错误? 以下是本实验中使用的R代码。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, nrow(x)) for (i in 1:nrow(x)) { xi[i] <- 1 - …

2
为什么在神经网络中使用派生特征?
例如,一个人想要预测房屋价格,并具有房屋的长度和宽度两个输入特征。有时,还包括“派生”多项式输入特征,例如面积,即长*宽。 1)包含派生要素的意义是什么?在训练过程中,神经网络是否应该学习长度,宽度和价格之间的联系?为什么第三个要素(区域)不是多余的? 另外,有时我还看到人们在输入要素上运行遗传选择算法以减少数量。 2)如果所有输入功能都包含有用的信息,减少它们的意义是什么?神经网络是否应该根据其重要性为每个输入特征分配适当的权重?运行遗传选择算法的重点是什么?



1
支持向量机可以用于大数据吗?
以我对SVM的了解有限,它对于简短而又胖的数据矩阵(很多特征,并且没有太多实例)很有用,但不适用于大数据。XXX 我知道一个原因是内核矩阵是矩阵,其中是数据中实例的数量。如果说100K数据,则内核矩阵将具有元素,并可能占用约80G内存。ķķKn × nñ×ñn \times nññnķķK1010101010^{10} 是否可以对大数据使用SVM进行任何修改?(以100K到1M数据点的规模为例吗?)

1
通常,推理比进行预测难吗?
我的问题来自以下事实。我一直在阅读有关机器学习的文章,博客,讲座和书籍。我的印象是,机器学习从业人员似乎对统计学家/计量经济学所关心的许多事情都漠不关心。尤其是,机器学习从业者强调预测准确性胜于推理。 当我在Coursera上学习 Andrew Ng的机器学习时,便出现了这样一个例子。当他讨论简单线性模型时,他没有提及估计量的BLUE属性,也没有提到异方差如何“使”置信区间无效。相反,他专注于梯度下降实现和交叉验证/ ROC曲线的概念。我的计量经济学/统计学类未涵盖这些主题。 另一个例子发生在我参加Kaggle比赛时。我在读别人的代码和想法。很大一部分参与者只是将所有内容都放入了SVM /随机森林/ XGBoost中。 另一个例子是关于逐步模型选择。至少在在线和Kaggle上,该技术得到了广泛使用。许多经典的机器学习教科书也对此进行了介绍,例如《统计学习入门》。但是,根据这个答案(这很有说服力),逐步模型选择面临很多问题,尤其是当涉及到“发现真实模型”时。似乎只有两种可能性:机器学习从业者不知道逐步解决问题,或者机器学习从业者知道,但是他们不在乎。 所以这是我的问题: (总的来说)机器学习从业者专注于预测,因此不关心统计学家/经济学家关心的很多事情吗? 如果这是真的,那么背后的原因是什么呢?是因为在某种意义上推论更加困难吗? 在线上有大量关于机器学习(或预测)的材料。但是,如果我对学习推理感兴趣,可以从网上查阅哪些资源? 更新:我刚刚意识到“推断”一词可能意味着很多东西。我所说的“推论”是指诸如 做原因或造成?或更笼统地说,之间的因果关系是什么?Y Y X X 1,X 2,⋯ ,X nXXXÿÿYÿÿYXXXX1个,X2,⋯ ,XñX1个,X2,⋯,XñX_1,X_2,\cdots,X_n 既然“所有模型都错了”,那么我们的模型与真实模型有多“错”? 有了样本的信息,我们可以对总体说些什么?我们有多自信? 由于我非常有限的统计知识,我什至不确定这些问题是否属于统计领域。但是这些是机器学习从业者似乎并不关心的问题类型。也许统计学家也不在乎?我不知道。

1
之间的连接(d素)和AUC(下面积ROC曲线); 基本假设
在机器学习中,我们可以使用ROC曲线下的面积(通常缩写为AUC或AUROC)来总结系统在两个类别之间的区分程度。在信号检测理论中,通常将(灵敏度指标)用于类似目的。两者是紧密相连的,如果满足某些假设,我相信它们彼此等效。d′d′d' 的的计算通常是基于假设正态分布的信号分布(见维基链接以上,例如)呈现。ROC曲线计算不做此假设:它适用于任何可输出可阈值的连续值决策标准的分类器。d′d′d' 维基百科说是相当于。如果两个假设都满足,这似乎是正确的。但是,如果假设不相同,那就不是普遍真理。d′d′d'2AUC−12AUC−12 \text{AUC} - 1 将假设的差异描述为“ AUC对基本分布做出的假设更少”是否公平?还是实际上与AUC一样广泛适用,但是使用人们倾向于使用假设正态分布的计算只是一种惯例?我错过的基本假设是否还有其他差异?d′d′d'd′d′d'

1
为随机梯度下降(SGD)选择合适的小批量大小
有没有文献研究随机梯度下降时小批量的选择?以我的经验,这似乎是一个经验选择,通常是通过交叉验证或使用不同的经验法则发现的。 随着验证错误的减少,逐渐增加小批量的大小是否是一个好主意?这将对泛化错误产生什么影响?我是否会使用极小的微型批处理程序进行更好的情况更新数十万次?在数量极少与批量之间保持平衡的状态下,我会更好吗? 我是否应该根据数据集的大小或数据集中预期的要素数量来缩放微型批处理的大小? 我显然对实现小批量学习方案有很多疑问。不幸的是,我阅读的大多数论文并没有真正说明他们如何选择此超参数。我从Yann LeCun等作家那里取得了一些成功,尤其是从Tricks of the Trade的论文收集中获得了成功。但是,我仍然没有看到这些问题得到充分解决。是否有人对论文有任何建议,或者关于在尝试学习功能时可以用来确定良好的小批量大小的标准的建议?

4
高斯过程:如何使用GPML进行多维输出
有没有一种方法可以使用GPML对多维输出(可能是相关的)执行高斯过程回归? 在演示脚本中, 我只能找到一维示例。 关于CV 的类似问题,涉及多维输入的情况。 我浏览了他们的书,看看是否能找到任何东西。在本书的第9章(第9.1节)中,他们提到了这种多输出的情况。他们提到了几种解决方法,一种是使用相关的噪声处理,另一种是使用Cokriging(相关的先验)。 我还是不知道如何将所有这些想法整合到GPML框架中。 另外,还有其他支持多维输出的GP库/框架吗?



2
带有嘈杂标签的分类?
我正在尝试训练神经网络进行分类,但是我拥有的标签比较吵(大约30%的标签是错误的)。 交叉熵损失确实有效,但是我想知道在这种情况下是否有其他方法更有效?还是交叉熵损失最优? 我不确定,但是我正在考虑某种程度地“减少”交叉熵损失,这样一个数据点的损失将不大于某个上限,这行得通吗? 谢谢! 更新 根据卢卡斯的答案,我得到了预测输出和softmax函数z的输入的导数。所以我想基本上是在增加一个平滑项3ÿyyžzz为导数。p我=0.3/Ñ+0.7Ŷ我升=-Σ吨我登录(p我)∂升37 N37N\frac{3}{7N} p一世= 0.3 /牛+ 0.7 ÿ一世pi=0.3/N+0.7yip_i=0.3/N+0.7y_i l = − ∑ t一世日志(p一世)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂升∂升∂ÿ一世= - 吨一世∂日志(p一世)∂p一世∂p一世∂ÿ一世= - 0.7 吨一世p一世= - 吨一世37 N+ y一世∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} 衍生物为原交叉熵损失: ∂升∂升∂ž一世= 0.7 ∑ĴŤĴpĴ∂ÿĴ∂ž一世= y一世∑ĴŤĴÿĴ37 N+ yĴ- Ť一世ÿ一世37 N+ y一世∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i} ∂升∂升∂ÿ一世= - 吨一世ÿ一世∂l∂yi=−tiyi\frac{\partial …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.