Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
如何对空间中的任意点实施L2正则化?
这是我在伊恩·古德费洛(Ian Goodfellow)的《深度学习》一书中读到的。 在神经网络的上下文中,“ L2参数范数罚则通常称为权重衰减。这种正则化策略使权重更接近原点。更普遍地,我们可以将参数正则化为任何特定点附近在空间中”,但更常见的是将模型参数调整为零。(深度学习,Goodfellow等。) 我只是好奇。我了解到,只需在成本函数中添加一个正则项,并通过使总成本最小化,就可以影响模型的参数以使其保持较小:JJJ J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(Θ,X,y)=L(Θ,X,y)+λ||w||22J(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) = L(\boldsymbol{\Theta}, \boldsymbol{X}, \boldsymbol{y}) + \lambda||\boldsymbol{w}||_{2}^{2} 但是,如何实现该正则化策略的一种版本,该版本会将参数引向任意点?(例如,我们希望规范趋向于5)

4
人工神经网络是否等效于具有多项式特征的线性回归?
与其他机器学习算法相比,我想提高对神经网络及其好处的理解。我的理解如下,我的问题是: 你能纠正和补充我的理解吗?:) 我的理解: (1)人工神经网络=根据输入值预测输出值的函数。根据通用近似定理(https://en.wikipedia.org/wiki/Universal_approximation_theorem),只要有足够的神经元,通常就可以具有任何可能的预测功能(尽管它应该表现良好)。 (2)通过将输入值的多项式作为附加输入值,对于线性回归也是如此,因为您可以通过多项式很好地近似(比较泰勒展开)。 (3)这意味着,从某种意义上说,就最佳可能结果而言,这两种方法是等效的。 (4)因此,它们的主要区别在于哪种方法适合于更好的计算实现。换句话说,根据训练示例,您可以使用哪种方法为最终定义预测函数的参数找到更快的良好值。 我欢迎对其他链接或书籍的任何想法,评论和建议,以改善我的想法。

2
将数据分为测试和训练集纯粹是一种“统计”事情吗?
我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。 关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。 还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。


1
SVM的一般化界限
我对支持向量机的泛化能力的理论结果感兴趣,例如,这些机器的分类错误概率和Vapnik-Chervonenkis(VC)维度的界限。但是,通读文献后,我的印象是,某些相似的重复结果往往因作者而略有不同,尤其是在一定的持有范围内需要的技术条件方面。 在下面我会记得的SVM问题和主要成果概括状态3,我已经在这种或那种形式反复发现的结构我给整个博览会3个主引用。−−- 问题设置: 假设我们有一个独立且均布的(iid)对的数据样本,其中所有,和。我们构造了一个支持向量机(SVM),该向量使,和定义的分离超平面之间的最小余量最大化。,以及之间最接近的点以便将和定义的两个类分开。我们通过引入松弛变量让SVM通过软裕度来承认一些错误(xi,yi)1≤i≤n(xi,yi)1≤i≤n(x_i,y_i)_{1\leq i\leq n}iiixi∈Rpxi∈Rpx_i \in \mathbb{R}^pyi∈{−1,1}yi∈{−1,1}y_i \in \{-1,1\}m∗m∗m^*{x:w⋅x+b=0}{x:w⋅x+b=0}\{x : w \cdot x + b = 0\}w∈Rpw∈Rpw \in \mathbb{R}^pb∈Rb∈Rb \in \mathbb{R}x1,⋯,xnx1,⋯,xnx_1,\cdots,x_ny=−1y=−1y = -1y=1y=1y = 1 -ξ1,⋯,ξnξ1,⋯,ξn\xi_1,\cdots,\xi_n −−-但为了表示简单起见,我们忽略了内核的可能性。解参数和是通过求解以下凸二次优化程序获得的:b ∗w∗w∗w^*b∗b∗b^* minw,b,ξ1,⋯,ξns.t.:12∥w∥2+C∑i=1nξiyi(w⋅xi+b)≥1−ξiξi≥0,∀i∈{1,⋯,n},∀i∈{1,⋯,n}minw,b,ξ1,⋯,ξn12‖w‖2+C∑i=1nξis.t.:yi(w⋅xi+b)≥1−ξi,∀i∈{1,⋯,n}ξi≥0,∀i∈{1,⋯,n}\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; …

2
有不确定数据的监督学习?
是否存在将监督学习模型应用于不确定数据集的现有方法?例如,假设我们有一个类别为A和B的数据集: +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ 我们如何在此基础上训练机器学习模型?谢谢。

4
创建保留集的更合适方法是:删除某些主题或从每个主题中删除一些观测值?
我有一个包含26个要素和31000行的数据集。它是38个主题的数据集。它用于生物识别系统。因此,我希望能够确定主题。 为了进行测试,我知道必须删除一些值。 那么,什么更好呢?为什么呢? (a)保留30个科目作为训练集,并删除8个科目作为测试集 (b)保留38个主题,但删除每个主题的一些行。因此,最后我将得到一个训练集:24800行38个主题,以及一个测试集:6200行38个主题

1
为什么选择K会降低我的交叉验证分数?
在使用scikit-learn中的Boston Housing数据集和RandomForestRegressor(带有默认参数)时,我注意到了一些奇怪的事情:随着将折叠数增加到10以上,交叉验证平均得分降低了。我的交叉验证策略如下: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... num_cvs变化多端。我设置test_size为1/num_cvs镜像k倍CV的训练/测试拆分大小行为。基本上,我想要类似k-fold CV的东西,但是我也需要随机性(因此ShuffleSplit)。 将该试验重复几次,然后绘制平均得分和标准差。 (请注意,的大小k由圆的面积表示;标准偏差在Y轴上。) 一致地,增加k(从2到44)会导致得分短暂增加,然后k随着进一步增加(超过10倍)而稳步下降!如果有的话,我希望更多的培训数据会导致分数略有提高! 更新资料 更改评分标准以表示绝对错误会导致我预期的行为:评分会随着K折CV中的折叠数增加而提高,而不是接近0(默认值为' r2 ')。问题仍然是,为什么默认得分指标导致均值和STD指标的性能下降,而折叠次数却越来越多。

2
纵向数据的机器学习技术
我想知道是否有用于纵向数据建模的机器学习技术(无监督)?我一直使用混合效果模型(大多数是非线性的),但我想知道是否还有其他方法(使用机器学习)。 机器学习是指随机森林,分类/聚类,决策树甚至是深度学习等。

4
良好的范例/书籍/资源,可学习有关应用机器学习的知识(不仅限于ML本身)
我以前参加过ML课程,但是现在我正在从事与ML相关的项目工作,因此我在实际应用中费了不少力气。我敢肯定,我正在做的事情已经过研究/处理,但是我找不到特定的主题。 我在网上找到的所有机器学习示例都很简单(例如,如何在Python中使用KMeans模型并查看预测)。我正在寻找有关如何实际应用这些资源的良好资源,也许是大规模机器学习实现和模型培训的代码示例。我想学习如何有效地处理和创建新数据,从而使ML算法更加有效。

2
残留网络是否与梯度提升相关?
最近,我们看到了残差神经网络的出现,其中,每个层都由一个计算模块和一个快捷连接组成,该连接保留了该层的输入,例如第i层的输出,表现为: 该网络允许提取残差特征并允许更深的深度,同时对消失的梯度问题更鲁棒,从而实现了最先进的性能。cicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 深入研究了梯度提升,这是机器学习领域中一种非常强大的集成技术,它似乎也对损失的残差执行了一种梯度优化形式,很难不看到某种形式的相似性。 我知道它们相似但不相同 -我注意到的一个主要区别是,梯度增强对加法项进行了优化,而残差网络优化了整个网络。 我没有看到He等人在他们的原始论文中注意到这是他们动机的一部分。因此,我想知道您对此主题有何见解,并要求您共享自己拥有的有趣资源。 谢谢。

1
为什么必须谨慎进行批标准化的示例有什么解释?
我正在阅读批处理规范化论文 [1],其中有一个小节通过一个示例,试图说明为什么必须仔细进行规范化。老实说,我无法理解该示例的工作原理,并且我真的很好奇能够尽可能多地了解它们。首先让我在这里引用一下: 例如,考虑一个带有输入u的层,该层添加了学习的偏差b,并通过减去对训练数据计算的激活平均值来对结果进行归一化:其中 是训练集上的值的集合,。如果梯度下降步骤忽略了对的依赖性,则它将更新,其中。然后,。因此,更新到的组合X=Ü+b,X={X1。。。Ñ}Xë[X]=Σ Ñ 我= 1 X我ë[X]bb←b+Δ>bΔbα-∂升X^= x − E[ x ]x^=x−E[x]\hat{x} = x − E[x]x = u + b ,X= { x1个。。。ñ}x=u+b,X={x1...N}x=u+b, X =\{x_1...N \}XxxË[ x ] = ∑ñ我= 1X一世E[x]=∑i=1NxiE[x] = \sum^N_{i=1} x_iË[ x ]E[x] E[x] bbbb ← b + Δ > bb←b+Δ>bb ← b + \Delta > …

1
scikit-learn Python中的ElasticNet与R中的Glmnet之间的区别
是否有人尝试验证在同一数据集上的ElasticNetPython和glmnetR 中的scikit-learn中的Elastic Net模型拟合是否产生相同的算术结果?我一直在尝试使用参数的许多组合(因为这两个函数在传递给参数的默认值方面有所不同),并且还对数据进行了缩放,但是在这两种语言之间似乎并没有产生相同的模型。有人遇到过同样的问题吗?


1
与SVM相比,支持向量回归有何不同?
我了解有关SVM和SVR的基础知识,但我仍然不知道如何找到一种将余量最大化的超平面的问题适合SVR。 其次,我读了一些关于信息,该用作SVR的容限。这是什么意思?ϵϵ\epsilon 第三,在SVM和SVR中使用的决策函数参数之间是否有区别?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.