Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
非参数回归的最佳特征选择方法
这里有一个新手问题。我目前正在使用R中的np包执行非参数回归。我有7个功能,并使用蛮力方法确定了最好的3个。但是,很快我将拥有7个以上的功能! 我的问题是,当前用于非参数回归的特征选择的最佳方法是什么?以及哪些程序包实现了这些方法。谢谢。

1
成功的实际应用中的计量经济学方法的书面/可复制示例?
这个问题听起来可能很广泛,但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍,以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述,甚至还有极好的可重复的计量经济学示例。实际上,此问题中的示例与我要寻找的非常接近;这些示例中唯一缺少的是它们仅是研究报告,而没有提及研究结果在实际应用中的表现。 我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例,这些示例理想地具有以下特征: 它们应该是可重复的,即,包含的详细描述(并指针)的数据,计量技术,和代码。理想情况下,代码将使用R语言。 根据详细量化的成功指标,应该有详细的文档显示该技术在现实世界中取得了成功(例如“该技术有助于增加收入,因为它可以改善需求预测,这是其中涉及的数字”) 我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘,统计数据分析,预测,预测或机器学习技术。查找此类示例的一个直接问题是:计量经济学的许多成功应用都是在营利性环境中完成的,因此是专有的,因此,如果一项技术行之有效,则可能不会公开(特别是在专有交易的情况下)策略),但我仍然希望有一些已发布的示例至少具有上述属性(2),如果不是同时具有(1)和(2)。

4
构建与Ross Quinlan C5.0的MATLAB和R接口
我正在考虑为Ross Quinlan的C5.0构建MATLAB和R接口(对于不熟悉它的人,C5.0是决策树算法和软件包;是C4.5的扩展),而我试图了解我需要编写的组件。 我在这里找到的有关C5.0的唯一文档在这里,这是See5(C5.0的Windows界面)的教程。该焦油文件带有一个Makefile,但没有自述文件或任何其他文件。 根据我在上面的教程中所读的内容,C5.0使用基于ASCII的表示形式来处理输入和输出,并且我还在考虑构建一个接口,该接口直接在MATLAB或R和C5.0之间传递二进制数据。其他任何机器学习/分类软件都使用C5.0的数据表示吗? 之前有人尝试过建立针对ID3,C4.5或C5.0的MATLAB或R接口吗? 谢谢

1
高斯过程/狄利克雷过程等随机过程是否具有密度?如果没有,如何对他们应用贝叶斯规则?
Dirichlet Pocess和高斯过程通常被称为“函数分布”或“分布分布”。在那种情况下,我可以有意义地谈谈GP下函数的密度吗?也就是说,高斯过程或Dirichlet过程是否具有概率密度的概念? 如果不是,那么,如果对函数的先验概率的概念没有很好地定义,我们如何使用贝叶斯定律从后验先到?贝叶斯非参数世界中是否存在诸如MAP或EAP估计之类的东西?非常感谢。

3
大型数据集的高斯过程回归
我一直在从在线视频和讲义中学习有关高斯过程回归的知识,我的理解是,如果我们有一个包含个点的数据集,那么我们就假设数据是从维多元高斯模型中采样的。所以我的问题是在是百万分之一的情况下,高斯过程回归仍然有效吗?内核矩阵会不会很大,从而使过程完全无效?如果是这样,是否有适当的技术来处理此问题,例如多次重复从数据集中采样?处理这类案件有哪些好的方法? ññnññnññn

2
AlphaZero纸中Dirichlet噪声的目的
在DeepMind的AlphaGo Zero和AlphaZero论文中,他们描述了在蒙特卡洛树搜索中,将Dirichlet噪声添加到根节点(板状态)的先验概率上: 通过将Dirichlet噪声添加到根节点的先验概率来实现额外的探索,特别是,其中和\ varepsilon = 0.25 ; 这种噪音确保可以尝试所有动作,但是搜索可能仍会否决不良动作。 P (小号,一)= (1 - ε )p 一个 + ε η 一个 η 〜风向(0.03 )ε = 0.25s0s0s_0P(s,a)=(1−ε)pa+εηaP(s,a)=(1−ε)pa+εηaP(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_aη∼Dir(0.03)η∼Dir(0.03)\eta \sim \text{Dir}(0.03)ε=0.25ε=0.25\varepsilon = 0.25 (AlphaGo零) 和: Dirichlet噪声Dir(α)Dir(α)\text{Dir}(\alpha)已添加到根节点中的先验概率;这与典型位置中合法移动的近似数量成反比例,即α={0.3,0.15,0.03}α={0.3,0.15,0.03}\alpha = \{0.3, \; 0.15, \; 0.03\}用于国际象棋,将棋和围棋。 (零零) 我不明白的两件事: P(s, a)是维向量。是的简写与狄利克雷分布参数,每个的值是?风向(α )ñ αnnnDir(α)Dir(α)\text{Dir}(\alpha)nnnαα\alpha 我只遇到Dirichlet作为多项式分布的共轭形式。为什么在这里挑选呢? 就上下文而言,P(s, …

1
为什么随机傅立叶特征非负?
随机傅里叶特征提供了内核函数的近似值。它们用于各种内核方法,例如SVM和高斯进程。 今天,我尝试使用TensorFlow实现,但我的一半功能却得到了负值。据我了解,这不应该发生。 因此,我回到了原论文上,就像我期望的那样,该论文说这些功能应该存在于[0,1]中。但是它的解释(在下面突出显示)对我来说没有意义:余弦函数可以在[-1,1]中的任何位置产生值,并且显示的大多数点都具有负余弦值。 我可能缺少明显的东西,但是如果有人可以指出它是什么,我将不胜感激。

1
SVM =模板匹配如何?
我了解了SVM,并了解到它们正在解决优化问题,并且最大利润率的想法非常合理。 现在,使用内核,他们甚至可以找到很棒的非线性分离边界。 到目前为止,我真的不知道SVM(一种特殊的内核计算机)和内核计算机如何与神经网络相关联? 在这里考虑Yann Lecun => 的评论: kernel methods were a form of glorified template matching 还有这里: 例如,一些人因为与之相关的数学运算而对内核方法感到迷惑。但是,正如我在过去所说的,最后,内核计算机是执行“标准化模板匹配”的浅层网络。没什么错(SVM是一种很好的方法),但是它有可怕的局限性,我们都应该意识到。 所以我的问题是: SVM与神经网络有何关系?浅层网络如何? SVM通过定义明确的目标函数解决了优化问题,它如何进行模板匹配?输入与之匹配的模板在这里是什么? 我想这些评论需要对高维空间,神经网络和内核机器有透彻的了解,但到目前为止,我一直在尝试并且无法理解其背后的逻辑。但是,注意到两种截然不同的ml技术之间的联系肯定很有趣。 编辑:我认为从神经的角度理解SVM会很棒。我正在寻找对以上两个问题的数学支持的完整答案,以便真正理解SVM和神经网络之间的联系,无论是线性SVM还是带有内核技巧的SVM。


1
如何计算出样本R平方?
我知道这可能已经在其他地方讨论过了,但是我还没有找到明确的答案。我正在尝试使用公式计算线性回归模型的样本外,其中是残差平方的总和,而是平方总和。对于训练集,很明显R 2 S S R S S T[R2= 1 - S小号[R /小号小号Ť[R2=1个-小号小号[R/小号小号ŤR^2 = 1 - SSR/SST[R2[R2R^2小号小号[R小号小号[RSSR小号小号Ť小号小号ŤSST 小号小号Ť= ∑(y- ÿ¯吨ř 一个我Ñ)2小号小号Ť=Σ(ÿ-ÿ¯Ť[R一个一世ñ)2 SST = \Sigma (y - \bar{y}_{train})^2 那测试集呢?我应该继续使用来代替样本还是使用?ý ˉ ý吨Ë小号吨ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}ÿÿyÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test} 我发现如果我使用,则有时生成的可能为负。这与sklearn 函数的描述一致,他们使用(他们的linear_model 函数也使用它来测试样本)。他们指出“不管输入特征如何,始终预测y期望值的恒定模型将获得0.0的R ^ 2得分。”- [R2 ˉ ý吨Ë小号吨ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}[R2[R2R^2r2_score()ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}score() 但是,在其他地方,人们喜欢在这里和这里使用(dmi3kno的第二个答案)。所以我想知道哪个更有意义?任何评论将不胜感激!ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}

4
为什么需要梯度下降?
当我们可以区分成本函数并通过求解通过对每个参数进行偏微分而获得的方程来找到参数时,找出成本函数最小的地方。另外,我认为有可能找到导数为零的多个位置,从而我们可以检查所有这些位置并找到全局最小值 为什么要执行梯度下降呢?

1
有支持SVM的应用程序吗?
SVM算法非常古老-它于1960年代开发,但是在1990年代和2000年代非常流行。它是机器学习课程的经典(而且非常漂亮)的一部分。 如今,似乎在媒体处理(图像,声音等)中,神经网络已完全占据主导地位,而在其他领域,梯度提升却占据了非常重要的位置。 另外,在最近的数据竞赛中,我没有观察到基于SVM的解决方案。 我正在寻找SVM仍能提供最新结果(截至2016年)的应用示例。 更新:我想举一些例子,在解释SVM时可以给学生/同事例如,这样它看起来不像是纯粹的理论或过时的方法。

1
word2vec中的交叉熵损失的导数
我正在尝试通过CS224D斯坦福大学在线课程材料的第一个问题集解决问题,而我对问题3A遇到一些问题:当使用带有softmax预测函数和交叉熵损失函数的跳过语法word2vec模型时,我们想要计算相对于预测单词向量的梯度。所以给定softmax函数: wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) \hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})} 和交叉熵函数: CE(w,w^)=−∑kwklog(wk^)CE(w,w^)=−∑kwklog(wk^)CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k}) 我们需要计算∂CE∂r^∂CE∂r^\frac{\partial{CE}}{\partial{\hat{r}}} 我的步骤如下: CE(w,w^)=−∑|V|kwklog(exp(wTkr^)∑|V|jexp(wTjr^))CE(w,w^)=−∑k|V|wklog(exp⁡(wkTr^)∑j|V|exp(wjTr^))CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}) =−∑|V|kwklog(exp(wTkr^)−wklog(∑|V|jexp(wTjr^))=−∑k|V|wklog(exp⁡(wkTr^)−wklog(∑j|V|exp(wjTr^))= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r})) 现在给定是一个热向量,而我是正确的类:wkwkw_k CE(w,w^)=−wTir^+log(∑|V|jexp(wTjr^))CE(w,w^)=−wiTr^+log(∑j|V|exp(wjTr^))CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r})) ∂CE∂r^=−wi+1∑|V|jexp(wTjr^)∑|V|jexp(wTjr^)wj∂CE∂r^=−wi+1∑j|V|exp(wjTr^)∑j|V|exp(wjTr^)wj\frac{\partial{CE}}{\partial{\hat{r}}} = -w_i + \frac{1}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}\sum_{j}^{|V|}exp(w_j^T\hat{r})w_j 这是正确的还是可以进一步简化?我想尝试确保自己走在正确的轨道上,因为问题集解决方案未在线发布。另外,正确完成书面作业对正确完成编程作业很重要。

2
什么是桶装?
我一直在四处寻找没有运气的机器学习中“桶化”的清晰解释。到目前为止,我了解到的是,存储桶化类似于数字信号处理中的量化,其中一系列连续值被一个离散值代替。它是否正确? 应用存储桶化有什么利弊(除了丢失信息的明显影响)?关于如何应用存储分区是否有任何经验法则?在应用机器学习之前,是否有任何准则/算法可用于应用桶化?

2
嵌套交叉验证-与通过训练集上的kfold CV选择模型有何不同?
我经常看到人们谈论5x2交叉验证是嵌套交叉验证的特例。 我假设第一个数字(在这里:5)是指内环的折叠数,第二个数字(在这里:2)是指外环的折叠数?那么,这与“传统”模型选择和评估方法有何不同?我所说的“传统” 将数据集拆分为单独的训练(例如80%)和测试集 在训练集上使用k倍交叉验证(例如k = 10)进行超参数调整和模型选择 使用测试集评估所选模型的泛化性能 如果k = 2,则测试集和训练集的大小相等,那么5x2是否不完全相同?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.