Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
交互仅在回归分析中有用吗?
我一直在回归的背景下阅读交互一词。我们是否还应考虑与不同模型(例如knn或svm)的交互? 如果有,甚至更多的功能,并且可以说有观察值,那么找到有用的交互的通常方法是什么?尝试所有组合吗?还是只使用有意义的组合?505050100100100100010001000


1
从性能上考虑词嵌入算法
我试图将大约6000万个短语嵌入向量空间,然后计算它们之间的余弦相似度。我一直在使用sklearn's CountVectorizer和一个自定义的生成标记器的函数,该函数会产生字母和二字组。事实证明,要获得有意义的表示,我必须允许大量列,行数成线性。这会导致矩阵稀疏,从而导致性能下降。如果只有大约10,000列,那还不错,我认为这对于单词嵌入来说是相当合理的。 我正在考虑尝试使用Google,word2vec因为我敢肯定它会产生低得多的尺寸和更密集的嵌入。但是在此之前,还有其他嵌入值得一看吗?关键要求是能够扩展大约6000万个短语(行)。 我对词嵌入领域还很陌生,因此任何建议都将对您有所帮助。 我还应该补充一点,我已经在使用奇异值分解来提高性能。

2
使用部分“未知”数据进行分类
假设我想学习一个分类器,该分类器将数字向量作为输入,并给类标签作为输出。我的训练数据由大量输入输出对组成。 但是,当我要测试一些新数据时,该数据通常仅部分完成。例如,如果输入向量的长度为100,则可能仅给30个元素提供值,其余的为“未知”。 例如,考虑在已知图像部分被遮挡的情况下进行图像识别。或考虑已知部分数据已损坏的一般意义上的分类。在所有情况下,我都确切知道数据向量中的哪些元素是未知部分。 我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但是鉴于已知元素通常比已知元素更多,所以这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整的数据进行训练,但这可能需要详尽地采样已知和未知元素的所有组合。 我特别在考虑神经网络,但是我对其他分类器持开放态度。 有任何想法吗?谢谢!

2
高斯过程中的观测合并
我正在使用高斯过程(GP)进行回归。 在我的问题中,两个或多个数据点相对于长度彼此接近是很常见的问题的规模。此外,观察结果可能会非常嘈杂。为了加快计算速度并提高测量精度,只要我关心更大范围的预测,合并/积分彼此接近的点的群集就显得很自然。x⃗ (1),x⃗ (2),…x→(1),x→(2),…\vec{x}^{(1)},\vec{x}^{(2)},\ldots 我想知道什么是快速但半原则的方法。 如果两个数据点完全重叠,则,并且观察噪声(即似然性)是高斯分布,可能是异方差但已知,处理的自然方式似乎是将它们合并到一个数据点中:x⃗ (1)=x⃗ (2)x→(1)=x→(2)\vec{x}^{(1)} = \vec{x}^{(2)} x¯⃗ ≡x⃗ (k)x¯→≡x→(k)\vec{\bar{x}} \equiv \vec{x}^{(k)},其中。k=1,2k=1,2k=1,2 观测值是观测值平均值,以其相对精度加权:。y¯y¯\bar{y}y(1),y(2)y(1),y(2)y^{(1)}, y^{(2)}y¯=σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(1)+σ2y(x⃗ (1))σ2y(x⃗ (1))+σ2y(x⃗ (2))y(2)y¯=σy2(x→(2))σy2(x→(1))+σy2(x→(2))y(1)+σy2(x→(1))σy2(x→(1))+σy2(x→(2))y(2)\bar{y} = \frac{\sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(1)} + \frac{\sigma_y^2(\vec{x}^{(1)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} y^{(2)} 与观察相关的噪声等于:。σ2y(x¯)=σ2y(x⃗ (1))σ2y(x⃗ (2))σ2y(x⃗ (1))+σ2y(x⃗ (2))σy2(x¯)=σy2(x→(1))σy2(x→(2))σy2(x→(1))+σy2(x→(2))\sigma_y^2(\bar{x}) = \frac{\sigma_y^2(\vec{x}^{(1)}) \sigma_y^2(\vec{x}^{(2)})}{\sigma_y^2(\vec{x}^{(1)}) + \sigma_y^2(\vec{x}^{(2)})} 但是,如何合并两个相近但不重叠的点呢? 我认为应该仍然是两个位置的加权平均值,再次使用相对可靠性。理由是质量中心论证(即,将非常精确的观察视为一堆不太精确的观察)。x¯⃗ x¯→\vec{\bar{x}} 对于与上述公式相同。y¯y¯\bar{y} 对于与观测相关的噪声,我想知道是否除了上面的公式之外,还应该在噪声中添加一个校正项,因为我正在移动数据点。本质上,我会得到与和有关的不确定性增加(分别是信号方差和协方差函数的长度尺度)。我不确定这个术语的形式,但是在给定协方差函数的情况下,我对如何计算它有一些初步的想法。σ2fσf2\sigma_f^2ℓ2ℓ2\ell^2 在继续之前,我想知道那里是否已经有东西。如果这似乎是明智的处理方法,或者有更好的快速方法。 我在文献中能找到的最接近的东西是这篇论文:E. …

2
使用R的glmnet的Ridge回归和Python的scikit-learn有什么区别?
我正在阅读James,Witten,Hastie,Tibshirani(2013)写的《 R语言中的统计学习及其应用入门》一书中关于Ridge回归/套索的LAB部分§6.6 。 更具体地说,我尝试将scikit-learn Ridge模型应用于R包“ ISLR”中的“ Hitters”数据集。我已经创建了与R代码所示相同的一组功能。但是,我无法接近glmnet()模型的结果。我选择了一个L2调整参数进行比较。(scikit-learn中的“ alpha”参数)。 蟒蛇: regr = Ridge(alpha=11498) regr.fit(X, y) http://nbviewer.ipython.org/github/JWarmenhoven/ISL-python/blob/master/Notebooks/Chapter%206.ipynb R: 请注意,alpha=0in 参数glmnet()表示应采用L2惩罚(Ridge回归)。文档警告不要为输入单个值lambda,但结果与使用向量的ISL中的结果相同。 ridge.mod <- glmnet(x,y,alpha=0,lambda=11498) 是什么导致差异? 编辑:从R中的惩罚包 使用时penalized(),系数与scikit-learn相同。 ridge.mod2 <- penalized(y,x,lambda2=11498) 也许问题可能还会是:“ 进行Ridge回归glmnet()与penalized()进行回归时有什么区别? 用于R包glmnet中的实际Fortran代码的新python包装器 https://github.com/civisanalytics/python-glmnet

1
最小风险分类器的计算阈值?
假设两个类和具有属性并具有分布和。如果我们对于以下成本矩阵具有相等的先验:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5 \\ 1 & 0 \end{bmatrix} 为什么是最低风险(成本)分类器的阈值?x0&lt;0.5x0&lt;0.5x_0 < 0.5 这是我误会的注释示例(即,如何达到此阈值?) 编辑1:我认为对于似然比的阈值,我们可以使用P(C1)/ P(C2)。 编辑2:我从Duda Book on Pattern上添加了一些有关阈值的文本。


1
在左侧删节的数据上使用标准的机器学习工具
我正在开发一个预测应用程序,其目的是允许进口商预测其分销商客户网络对其产品的需求。只要有足够的库存来满足需求,销售数字就可以很好地满足需求。但是,当库存减少到零时(我们正在努力帮助客户避免这种情况),我们对错过目标的了解并不多。如果客户有足够的供应量,他们将进行多少次销售?使用Sales作为简单目标变量的基于标准回归的ML方法将对时间,我的描述性变量和需求之间的关系产生不一致的估计。 Tobit建模是解决该问题的最明显方法:http : //en.wikipedia.org/wiki/Tobit_model。我想知道随机森林,GBMS,SVM和神经网络的ML适应性也占数据的左手检查结构的原因。 简而言之,如何将机器学习工具应用于左删失的回归数据,以获得对因变量和自变量之间关系的一致估计?首先是R中可用的解决方案,其次是Python。 干杯, 亚伦

1
离线学习与在线学习中的模型选择
最近,我一直在尝试学习有关在线学习的更多信息(这绝对令人着迷!),而我一直无法很好地掌握的一个主题是如何考虑离线与在线环境中的模型选择。具体而言,假设我们训练分类离线,基于一些固定数据集。例如,我们通过交叉验证来评估其性能特征,并以此方式选择最佳分类器。SSSDDD 这就是我一直在思考的问题:那么,如何将应用于在线设置呢?我们是否可以假设脱机找到的最佳作为在线分类器也能表现良好?收集一些数据来训练,然后使用相同的分类器并在找到相同参数的在线设置中“操作”它是否有意义,或者另一种方法会更好吗?在这些情况下有哪些警告?这里的主要结果是什么?依此类推。SSSSSSSSSSSSDDD 无论如何,现在已经存在了,我想我正在寻找的参考资料或资源将对我(以及希望其他人在思考这种事情!)有帮助,从而使他们从单纯地以离线方式进行思考过渡,并且随着我阅读的进展,以更连贯的方式发展思维框架来思考模型选择和这些问题。

2
实际实践中关于机器学习的全部内容是什么?
我是机器学习(还包括一些统计数据)的新手,一段时间以来一直在学习知识(有监督/无监督学习算法,相关的优化方法,正则化,一些哲学(例如偏差方差折衷?))。我知道,没有任何实际练习,我将不会对这些机器学习知识有深入的了解。 因此,我首先从真实数据的分类问题开始,例如手写数字分类(MNIST)。令我惊讶的是,在没有任何特征学习/工程设计的情况下,使用原始像素值作为输入的随机森林分类器,精度达到0.97。我还尝试了其他学习算法,例如支持参数调整的SVM,LR。 然后我迷路了,这太容易了还是我在这里错过了任何东西?只是从工具箱中选择学习算法并调整一些参数? 如果在实践中将全部与机器学习有关,那么我将对该领域失去兴趣。我思考并阅读了一些博客几天,然后得出一些结论: 机器学习在实践中最重要的部分是特征工程,即在给定数据的情况下,找出特征的更好表示。 使用哪种学习算法也很重要,参数调整也很重要,但最终选择更多是关于实验。 我不确定我是否理解正确,希望任何人都可以纠正我,并给我一些有关实践中机器学习的建议。

2
期望与平均值相同吗?
我正在大学里做ML,而教授在试图向我们解释有关高斯过程的某些东西时,提到了期望(E)一词。但是根据他的解释,我知道E与平均值μ相同。我明白吗? 如果相同,那么您知道为什么同时使用两个符号吗?我也看到E可以像E()一样用作函数,但是我对μ没有看到。X2x2x^2 有人可以帮助我更好地了解两者之间的区别吗?

1
期望最大化澄清
我发现有关EM算法的非常有用的教程。 该示例和教程中的图片简直太棒了。 有关计算概率的相关问题,期望最大化如何工作? 关于如何将教程中描述的理论与示例联系起来,我还有另一个问题。 在E步中,EM选择一个函数,该函数所有位置下限,并且为此。gtgtg_tlogP(x;Θ)log⁡P(x;Θ)\log P(x;\Theta)gt(Θ^(t))=logP(x;Θ^(t))gt(Θ^(t))=log⁡P(x;Θ^(t))g_t( \hat{\Theta}^{(t)}) = \log P(x; \hat{\Theta}^{(t)}) 因此,在我们的示例中,看起来像每次迭代都应该有所不同。gtgtg_t 另外,在示例中和然后将它们应用于数据,我们得出和。对我来说,这看起来很不直观。我们有一些先前的假设,将其应用于数据并获得新的假设,因此数据以某种方式改变了这些假设。我不明白为什么不等于。Θ^(0)A=0.6Θ^A(0)=0.6\hat{\Theta}_A^{(0)} = 0.6Θ^(0)B=0.5Θ^B(0)=0.5\hat{\Theta}_B^{(0)} = 0.5Θ^(1)A=0.71Θ^A(1)=0.71\hat{\Theta}_A^{(1)} = 0.71Θ^(1)B=0.58Θ^B(1)=0.58\hat{\Theta}_B^{(1)} = 0.58Θ^(0)Θ^(0)\hat{\Theta}^{(0)}Θ^(1)Θ^(1)\hat{\Theta}^{(1)} 此外,当您看到本教程的补充说明1时,还会出现更多问题。例如,在我们的案例中,是什么。我不清楚,为什么当时,不等式变得很紧Q(z)Q(z)Q(z)Q(z)=P(z|x;Θ)Q(z)=P(z|x;Θ)Q(z)=P(z|x;\Theta) 谢谢。

4
如何在广义增强回归模型中选择树数?
是否有选择GBM中树木数量的策略?具体而言,ntrees在自变量R的gbm函数。 我不明白为什么您不应该设置ntrees为最高合理值。我注意到,大量的树明显减少了来自多个GBM的结果的可变性。我认为大量树木不会导致过度拟合。 有什么想法吗?

5
神经网络的数学背景
不知道这是否适合本网站,但是我正在开始我的计算机科学硕士学位(应用数学学士学位),并希望拥有强大的机器学习背景(我很可能会攻读博士学位)。我的次级兴趣之一是神经网络。 人工神经网络的良好数学背景是什么?像在机器学习的其他领域一样,我认为线性代数很重要,但是数学的其他哪些领域也很重要? 我计划阅读《神经网络:系统介绍或用于模式识别的神经网络》。是否有人提出任何建议或替代建议?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.