Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
k倍交叉验证中的方差估计
K折交叉验证可用于估计给定分类器的泛化能力。我是否可以(也应该)从所有验证运行中计算出汇总的方差,以便更好地估计其方差? 如果没有,为什么? 我发现了在交叉验证运行中确实使用汇总标准差的论文。我还发现有论文明确指出,对于验证方差没有统一的估计。但是,我也发现了一些论文,这些论文显示了一些泛化误差的方差估计量(我仍在阅读并尝试理解这一点)。人们在实践中实际上做什么(或举报)? 编辑:当使用CV来衡量粗略的分类错误(即,一个样本已正确标记或未标记;例如,真或假)时,谈论合并方差可能没有任何意义。但是,我所说的是我们估计的统计量确实定义了方差的情况。因此,对于给定的倍数,我们最终可以得到统计值和方差估计值。丢弃此信息并仅考虑平均统计数据似乎是不正确的。虽然我知道我可以使用自举方法构建方差估计,但是(如果我不是很错的话)这样做仍然会忽略倍数方差,仅考虑统计估计(并且需要更多的计算能力)。


5
深层神经网络可以在没有归一化的情况下近似乘积函数吗?
假设我们要f = x * y使用标准深层神经网络来简化回归。 我记得有一些重述,告诉我们带有一个隐藏层的NN可以近似任何函数,但是我尝试过并且没有规范化,即使是这种简单的乘法,NN也无法近似。只有数据的对数归一化才有帮助,m = x*y => ln(m) = ln(x) + ln(y). 但这看起来像个骗子。NN是否可以在没有对数归一化的情况下做到这一点?显然,(对我来说)是坚定的人-是的,所以问题是这种NN的类型/配置/布局应该是什么?




1
统计,线性代数和机器学习中的经典符号是什么?这些符号之间有什么联系?
当我们阅读一本书时,理解符号在理解内容方面起着非常重要的作用。不幸的是,对于模型和优化问题的公式化,不同的社区有不同的符号约定。有人可以在这里总结一些配方符号并提供可能的原因吗? 我在这里举一个例子:在线性代数文学中,经典著作是Strang 对线性代数的介绍。本书中最常用的符号是 Ax=bAx=b A x=b 其中是系数矩阵,是要求解的变量,是等式右侧的向量。该理由书选择这个符号是线性代数的主要目标是解决线性系统和弄清楚什么是矢量。给定这样的公式,OLS优化问题是x b xAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 在统计学或机器学习素养(摘自《统计学学习的要素》一书中)中,人们使用不同的表示法来表示同一件事: Xβ=yXβ=yX \beta= y 其中XXX是数据矩阵,ββ\beta是要学习的学习系数或权重,yyy是响应。人们之所以使用它,是因为统计或机器学习社区中的人们是数据驱动的,因此数据和响应对他们来说是最有趣的事情,他们使用XXX和yyy来表示。 现在我们可以看到所有可能的混淆:第一个方程式中的AAA与第二个方程式中的X相同XXX。在第二个方程中,XXX不需要解决。同样针对以下术语:AAA是线性代数中的系数矩阵,但它是统计中的数据。ββ\beta也称为“系数”。 另外,我提到Xβ=yXβ=yX \beta=y并不是人们在机器学习中广泛使用的确切名称,人们使用半矢量化版本来汇总所有数据点。如 min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) 我认为这样做的原因是,当谈论随机梯度下降和其他不同的损失函数时,它是很好的。同样,对于线性回归以外的其他问题,简洁的矩阵符号也消失了。 逻辑回归的矩阵符号 任何人都可以对不同文献的符号进行更多的总结吗?我希望这个问题的明智答案可以为阅读不同文学作品的人们提供良好的参考。 请不要受到我的示例 Ax=bAx=bA x=b和Xβ=yXβ=yX \beta=y。还有很多。如 为什么会有两种不同的逻辑损失表述/符号?

6
如何在ROC AUC和F1分数之间进行选择?
我最近完成了一场Kaggle比赛,根据比赛要求使用了roc auc得分。在进行此项目之前,我通常使用f1分数作为衡量模型性能的指标。展望未来,我想知道如何在这两个指标之间进行选择?什么时候使用,它们各自的优缺点是什么? 顺便说一句,我在这里阅读了这篇文章AUC和F1评分之间有什么区别?,但没有告诉我何时使用。 在此先感谢您的帮助!

1
svm中的一对多和一对多?
一对一和一对一SVM分类器有什么区别? “一对多”是指一个分类器对新图像的所有类型/类别进行分类,而一对多是指新图像的每种类型/类别用不同的分类器进行分类(每个类别均由特殊分类器处理)吗? 例如,如果将新图像分类为圆形,矩形,三角形等。

4
SVM中内核的区别?
有人可以告诉我SVM中内核之间的区别: 线性的 多项式 高斯(RBF) 乙状结肠 因为众所周知,内核用于将输入空间映射到高维特征空间。在该特征空间中,我们找到了线性可分界线。 什么时候使用它们(在什么条件下),为什么?


2
神经网络:对于二进制分类,使用1或2个输出神经元?
假设我要进行二进制分类(属于A类或B类)。在神经网络的输出层中可以执行以下操作: 使用1个输出节点。输出0(<0.5)被视为A类,输出1(> = 0.5)被视为B类(在S型情况下) 使用2个输出节点。输入属于具有最高值/概率(argmax)的节点的类别。 是否有书面论文对此进行了讨论?要搜索哪些特定关键字? 这个问题已经在此站点上问过,例如,看到此链接时没有真实答案。我需要做出选择(硕士论文),因此我想深入了解每种解决方案的优点/缺点/局限性。

1
训练损失再次上升和下降。怎么了?
我的训练损失下降,然后又上升。这很奇怪。交叉验证损失跟踪训练损失。到底是怎么回事? 我有两个堆叠的LSTMS,如下所示(在Keras上): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 我训练了100个纪元: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 训练127803个样本,验证31951个样本 这就是损失的样子:

4
为什么有人会使用KNN进行回归?
据我了解,我们只能建立一个位于训练数据间隔内的回归函数。 例如(仅一个面板是必要的): 如何使用KNN回归器预测未来?同样,它似乎仅近似位于训练数据间隔内的函数。 我的问题:使用KNN回归器有什么优势?我知道这是一个非常强大的分类工具,但在回归场景中似乎效果不佳。

2
在插入符号中,cv和repeated cv之间的真正区别是什么?
这与问题Caret重采样方法相似,尽管它实际上从未以商定的方式回答问题的这一部分。 插入符号的火车功能提供cv和repeatedcv。说的有什么区别: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) 与 MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) 我知道cv将集合分解为k折(参数number),然后重新启动并运行参数repeats次数。 我能想到的唯一的事情是,也许经常cv与repeats使用相同的确切指标为每次折叠?基本上cv每次都在相同的精确折叠上运行,也许repeatedcv每次都选择新的折叠? 有人可以澄清吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.