Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
CNN如何避免消失的梯度问题
我已经阅读了很多有关卷积神经网络的文章,并且想知道它们如何避免消失的梯度问题。我知道深度信任网络会堆叠单级自动编码器或其他经过预先训练的浅层网络,因此可以避免此问题,但是我不知道如何在CNN中避免这种情况。 根据维基百科: “尽管存在上述“消失的梯度问题”,但GPU的优越处理能力使普通的反向传播对于多层多层前馈神经网络来说是可行的。” 我不明白为什么GPU处理会消除此问题?

4
卷积神经网络需要多少数据?
如果我有一个卷积神经网络(CNN),它具有大约1000000个参数,则需要多少训练数据(假设我正在进行随机梯度下降)?有什么经验法则吗? 附加说明:当我执行随机梯度下降(例如,1次迭代使用64个色块)时,在〜10000次迭代之后,分类器的精度可以达到大致的稳定值)。这是否意味着不需要太多数据?就像100k-1000k的数据一样。

4
潜在功能的含义?
我试图理解推荐系统的矩阵分解模型,并且我总是读“潜在特征”,但这意味着什么?我知道功能对训练数据集意味着什么,但我无法理解潜在功能的概念。我所能找到的有关该主题的每篇论文都太浅了。 编辑: 如果您至少可以指出一些指导我想法的论文。

3
在线学习中的正则化和功能扩展?
假设我有一个逻辑回归分类器。在正常的批处理学习中,我会使用正则化项来防止过度拟合并保持较小的体重。我还将规范化和缩放我的功能。 在在线学习环境中,我获得了连续的数据流。我对每个示例都进行了梯度下降更新,然后将其丢弃。我应该在在线学习中使用特征缩放和正则化术语吗?如果是,我该怎么办?例如,我没有一组可用于扩展的训练数据。我也没有设置验证来调整我的正则化参数。如果没有,为什么不呢? 在我的在线学习中,我不断获得大量示例。对于每个新示例,我都会做一个预测。然后在下一个时间步骤中,我得到了实际目标并进行了梯度下降更新。


4
ROC曲线的优点
ROC曲线的优点是什么? 例如,我正在对一些图像进行分类,这是一个二进制分类问题。我提取了约500个特征,并应用了特征选择算法来选择一组特征,然后将SVM应用于分类。在这种情况下,如何获得ROC曲线?是否应该更改特征选择算法的阈值,并获得输出的灵敏度和特异性以绘制ROC曲线? 就我而言,创建ROC曲线的目的是什么?

7
可以使用哪种机器学习算法来预测股市?
或者,预测外汇市场。我知道这可能会变得非常复杂,因此作为介绍,我正在寻找一种具有一定准确性的简单预测算法。 (这是为期四个月的硕士学位课程) 我读过多层神经网络可能会有用。有什么想法吗?另外,社交媒体的语义分析可以提供对影响股票市场的市场行为的洞察力。但是,语义分析目前不在项目范围内。

5
哪种统计分类算法可以预测输入序列的正确/错误?
给定一个输入序列,我需要确定此序列是否具有某些所需的属性。该属性只能为true或false,也就是说,一个序列只能属于两个可能的类。 序列与属性之间的确切关系尚不清楚,但我认为它是非常一致的,应该将其用于统计分类。我可能会在很多情况下对分类器进行训练,尽管这可能会有点嘈杂,但从某种意义上来说,在此训练集中,序列被分配了错误的类别的可能性很小。 训练数据示例: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 粗略地说,属性由序列中的一组值(例如,出现“ 11”表示该属性几乎肯定为假)以及值的顺序(例如,“ 21 7 5 ”会大大增加该属性为真的机会)。 训练后,我应该能够给分类器一个以前看不见的序列,例如(1 21 7 5 3),它应该输出对属性为true的信心。是否存在用于使用这种输入/输出训练分类器的著名算法? …

1
为什么单个ReLU无法学习ReLU?
作为我神经网络甚至无法学习欧几里德距离的后续操作,我进一步简化了方法,并尝试将单个ReLU(具有随机权重)训练为单个ReLU。这是目前最简单的网络,但有一半时间未能融合。 如果初始猜测与目标的方位相同,则它会快速学习并收敛到正确的权重1: 如果最初的猜测是“向后”,则它的权重为零,并且永远不会经过它到达较低损失的区域: 我不明白为什么。梯度下降不应该轻易遵循损耗曲线达到全局最小值吗? 示例代码: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU test case X = test Y = test.copy() Y[Y < 0] …

3
Kullback-Leibler(KL)散度的最大值是多少
我将在我的python代码中使用KL散度,并获得了本教程。 在该教程中,实现KL散度非常简单。 kl = (model * np.log(model/actual)).sum() 据我所知,的概率分布model和actual应<= 1。 我的问题是,k的最大界限/最大可能值是多少?我需要知道我代码中的最大界限,即kl distance的最大可能值。

3
解决机器学习中数据丢失问题的方法
几乎我们要使用机器学习算法进行预测的任何数据库都会发现某些特征的缺失值。 有几种解决此问题的方法,以排除具有缺失值的线,直到它们填充特征的平均值为止。 我想使用一种更健壮的方法,该方法基本上将运行回归(或其他方法),其中因变量(Y)将是每个缺少值但仅包含表行的列包含所有数据的对象,并使用此方法预测缺失值,按表填写表格并移至具有缺失值的下一个``列'',然后重复该方法直到所有内容都填满。 但这给了我一些疑问。 为什么任何列开始?我相信缺失值最小的那个直到最大的一个 是否有任何缺失值的阈值不值得尝试完成?(例如,如果此特征仅填充了10%的值,将其排除会更有趣) 在传统软件包或其他方法中是否有任何对丢失有鲁棒性的实现?

2
什么是机器学习中的贝叶斯错误?
http://www.deeplearningbook.org/contents/ml.html第116页说明了贝叶斯错误,如下所示 理想的模型是一个预言家,它仅知道生成数据的真实概率分布。即使这样的模型在许多问题上仍然会产生一些错误,因为分布中可能仍然存在一些噪音。在监督学习的情况下,从x到y的映射可能是内在随机的,或者y可能是确定性函数,除了x中包括的变量之外,还涉及其他变量。预言家根据真实分布p(x,y)进行预测而引起的错误称为贝叶斯错误。 问题 请直观地解释贝叶斯错误? 它与不可减少的误差有何不同? 我可以说总误差=偏差+方差+贝叶斯误差吗? “ y可能固有地是随机的”是什么意思?

2
精确召回曲线中的“基线”是什么
我试图了解精度召回曲线,了解什么是精度和召回率,但我不了解的是“基准”值。我正在阅读此链接 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 并且我不理解“完美分类器的精确召回曲线”中显示的基线部分,它有什么作用?以及如何计算呢?我们选择的仅仅是基线吗?例如,我有具有诸如retweet,status_countetc之类的属性的twitter数据,Favorited如果被收藏,我的班级标签为1,如果未被收藏,我的班级标签为0,我在其上应用了朴素贝叶斯,现在我想绘制精确调用曲线,在这种情况下应如何设置基线?

2
如何在神经网络的批量学习方法中更新权重?
有人可以告诉我如何使用批处理方法构建神经网络吗? 我已经读到,在批处理模式下,对于训练集中的所有样本,我们计算网络中每个神经元的误差,增量和增量权重,然后而不是立即更新权重,而是对其进行累加,然后再开始在下一个时期,我们将更新权重。 我还在某处读到,批处理方法类似于在线方法,但区别在于,只需要对训练集中所有样本的误差求和,然后取其平均值,然后像更新权重一样使用它即可像这样在在线方法中做(差异只是那个平均值): for epoch=1 to numberOfEpochs for all i samples in training set calculate the errors in output layer SumOfErrors += (d[i] - y[i]) end errorAvg = SumOfErrors / number of Samples in training set now update the output layer with this error update all other previous layers go …

1
在随机森林中包括交互项
假设我们有一个响应Y和预测变量X1,...,Xn。如果我们试图通过X1,...,Xn的线性模型拟合Y,并且恰好发生了Y和X1,...,Xn之间的真实关系不是线性的,那么我们也许可以通过以某种方式转换X,然后拟合模型来修复模型。而且,如果恰好碰巧X1,...,XN不会独立于其他特征影响y,我们还可以通过包含交互项x1 * x3或x1 * x4 * x7来改善模型或类似的东西。因此,在线性情况下,交互项可以通过固定响应和特征之间的非线性或独立性冲突来带来价值。 但是,随机森林并没有真正做出这些假设。在拟合“随机森林”时,包括交互项是否重要?还是仅包括各个术语并选择适当的参数,即可使随机森林捕获这些关系?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.