Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
如何处理测试集和训练集的分布之间的差异?
我认为机器学习或参数估计的一个基本假设是,看不见的数据来自与训练集相同的分布。但是,在某些实际情况下,测试集的分布几乎与训练集不同。 说一个大规模的多分类问题,试图将产品描述分类为大约17,000个类别。训练集将具有高度偏斜的上课先验,因此某些班级可能有很多训练示例,但有些班级可能只有几个。假设我们从客户端获得了带有未知类标签的测试集。我们尝试使用在训练集上训练的分类器,将测试集中的每个产品分类为17,000个类别之一。测试集可能具有偏斜的班级分布,但可能与培训集的分布有很大差异,因为它们可能与不同的业务领域相关。如果两个类别的分布非常不同,则训练有素的分类器可能无法在测试集中很好地工作。对于朴素贝叶斯分类器,这似乎尤其明显。 是否有任何原则上的方法来处理概率分类器的训练集和特定给定测试集之间的差异?我听说“转换式SVM”在SVM中做类似的事情。是否有类似的技术来学习在特定给定测试集上表现最佳的分类器?然后,我们可以针对此给定的测试集重新训练分类器,如本实际方案中所允许的那样。

2
机器学习技术是“近似算法”吗?
最近在cstheory stackexchange上有一个类似ML的问题,我发布了一个答案,推荐Powell的方法,梯度下降,遗传算法或其他“近似算法”。有人在评论中告诉我,这些方法是“启发式”方法,而不是 “近似算法”,并且常常不接近理论最优值(因为它们“经常陷入局部极小值”)。 别人同意吗?另外,在我看来,如果我将启发式算法设置为探索很大的搜索空间(例如,将参数/步长设置得很小),可以保证哪种算法可以接近理论最优值。在论文中没有看到。有人知道这已经在论文中显示或证明过了吗?(如果不是针对大型算法,则可能针对小型算法,例如NN等)

3
预测建模竞赛的网站
我参加了Kaggle,TunedIt和CrowdAnalytix的预测建模竞赛。我发现这些站点是“锻炼”统计/机器学习的好方法。 还有其他我应该知道的网站吗? 在主办方打算从竞争对手的参赛作品中获利的比赛中,您对所有人都感觉如何? /编辑:下面是一个更完整的列表: Kaggle TunedIt Clopinte KDD杯 InnoCentive公司 Crowdanalytix TopCoder公司


1
xgboost算法中min_child_weight的说明
xgboost中min_child_weight参数的定义为: 子级中实例重量的最小总和(hessian)。如果树分区步骤导致叶节点的实例权重之和小于min_child_weight,则构建过程将放弃进一步的分区。在线性回归模式下,这仅对应于每个节点中需要的最少实例数。越大,算法将越保守。 我已经在xgboost上阅读了很多东西,包括原始论文(请参见公式8和等式9后面的文章),该问题以及与xgboost有关的大多数事情,这些事都出现在Google搜索的前几页中。;) 基本上我还是不满意我们为什么要限制粗麻布的总和?从原始论文开始,我唯一的想法是,它与加权分位数草图部分(以及公式3的平方化加权平方损失的重新制定)有关,其中H一世hih_i是每个实例的“权重”。 另一个问题涉及为什么线性回归模式中的实例数仅仅是个数?我想这与平方和方程的二阶导数有关吗?



1
为什么神经网络的成本函数是非凸的?
这里有一个类似的线程(神经网络的成本函数是非凸的?),但我无法理解那里答案的要点,我再次询问的原因希望这可以澄清一些问题: 如果我使用差额成本函数平方和,那么我最终将优化形式的某物,其中是训练期间的实际标签值相位,是预测标签值。由于它具有正方形形式,因此应该是凸成本函数。那么,什么会使它在NN中不凸?Σñ我= 1(y一世- ÿ一世^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2ÿyyy^y^\hat{y}

1
通过ResNet跳过连接进行梯度反向传播
我很好奇如何使用ResNet模块/跳过连接通过神经网络向后传播梯度。我已经看到了关于ResNet的几个问题(例如,具有跳过层连接的神经网络),但是这个问题专门询问了训练过程中梯度的反向传播。 基本架构在这里: 我读了这篇论文《残差网络的图像识别研究》,在第2部分中,他们讨论了ResNet的目标之一是如何为梯度提供更短/更清晰的路径,使其反向传播至基础层。 谁能解释梯度如何流过这种类型的网络?我不太了解加法运算以及加法后缺少参数化图层如何实现更好的梯度传播。它是否与流经加法运算符时渐变不发生变化以及是否以无乘法方式重新分布有关? 此外,我可以理解,如果梯度不需要流过权重层,那么如何减轻消失的梯度问题,但是如果没有梯度流经权重,那么在向后传递之后如何更新它们?

3
Relu vs Sigmoid vs Softmax作为隐藏层神经元
我正在使用Tensorflow制作的只有一个隐藏层的简单神经网络,然后尝试对隐藏层进行不同的激活: 露露 乙状结肠 Softmax(嗯,通常在最后一层使用softmax。) Relu提供最佳的列车精度和验证精度。我不确定如何解释这一点。 我们知道Relu具有良好的品质,例如稀疏性(例如无梯度消失)等,但是 问:Relu神经元通常比乙状结肠/ softmax神经元好吗?我们是否应该几乎总是在NN(甚至CNN)中使用Relu神经元? 我认为,如果我们担心过度拟合,则更复杂的神经元会带来更好的结果,至少可以提高训练的准确性。 谢谢PS:该代码基本上来自“ Udacity-Machine learning -assignment2”,它是使用简单的1层-NN识别notMNIST的。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = …

4
该图表显示虚假和真实的阳性率的名称是什么,它是如何产生的?
下图显示了假阳性率与真阳性率的连续曲线: 但是,我没有立即得到的是如何计算这些费率。如果将方法应用于数据集,则该方法具有一定的FP速率和一定的FN速率。这不是说每种方法都应该有一个点而不是一条曲线吗?当然,有多种方法可以配置一个方法,产生多个不同的点,但是我不清楚这种比率的连续性是如何产生的或如何产生的。

1
在适当的评分规则中进行选择
有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。) 选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?



2
受限玻尔兹曼机器与多层神经网络
我一直想尝试使用神经网络来解决我面临的分类问题。我碰到了有关注重成果的管理的论文。但是据我了解,它们与拥有多层神经网络没有什么不同。这个准确吗? 此外,我与R合作,没有看到RBM的任何罐头包装。我确实碰到过有关深度学习网络的文献,这些深度学习网络基本上是堆叠的RBM,但不确定在R中实现它们是否值得努力。有人会提出任何建议吗?谢谢

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.