Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


17
机器学习食谱/参考卡/备忘单?
我发现诸如《概率统计手册》和《 R数据挖掘参考卡》等资源非常有用。它们显然可以很好地用作参考,但也可以帮助我整理我对某个主题的想法并获得帮助。 问:是否存在类似这些资源的机器学习方法? 我正在想象一个针对每种ML方法的参考卡,其中包括: 一般性质 该方法行之有效 当方法效果不佳时 该方法从哪个方法推广到哪个其他方法。是否已被大部分取代? 关于该方法的开创性论文 与方法相关的未解决问题 计算强度 我敢肯定,只需阅读一些教科书,就可以找到所有这些东西。将它们放在几页上真的很方便。



5
使用深度学习进行时间序列预测
我是深度学习领域的新手,对我来说,第一步是从deeplearning.net网站阅读有趣的文章。在有关深度学习的论文中,Hinton等人大多谈论将其应用于图像问题。有人可以回答我吗?它可以应用于预测时间序列值(财务,互联网流量等)的问题吗?如果可以的话,我应该重点关注哪些重要事项?

10
保持验证与交叉验证
在我看来,坚持验证是没有用的。也就是说,将原始数据集分为两部分(训练和测试)并将测试得分用作泛化度量,这是没有用的。 K折交叉验证似乎可以更好地概括(因为它在每个点上进行训练和测试)。那么,为什么我们要使用标准的保留验证?甚至谈论它?

5
关于iid假设在统计学习中的重要性
在统计学习中,隐式或显式地,总是假设训练集由输入/响应元组是从同一个联合分布中独立得出的,D ={ X, y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ñNN(X一世,ÿ一世)(Xi,yi)({\bf{X}}_i,y_i) P( X,ÿ)P(X,y)\mathbb{P}({\bf{X}},y) p (X,ÿ)= p (y| X)p (X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) 和通过特定的学习算法试图捕获的关系。从数学上讲,该iid假设写道:p (ÿ| X)p(y|X)p( y \vert {\bf{X}}) (X一世,ÿ一世)〜P(X,ÿ),∀ 我= 1 ,。。。,N(X一世,ÿ一世) 独立于 (XĴ,ÿĴ),∀ 我≠ Ĵ ∈ { 1 ,。。。,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), …

10
使用Python进行机器学习
我正在考虑使用Python库进行机器学习实验。到目前为止,我一直依靠WEKA,但总体上还是很不满意。这主要是因为我发现对WEKA的支持不太好(很少有例子,文档稀疏,而社区支持在我的经验中不够理想),并且发现自己处在棘手的情况下没有任何帮助。我考虑此举的另一个原因是因为我真的很喜欢Python(我是Python的新手),并且不想回到Java编码中。 所以我的问题是,还有什么 全面 可扩展性(10万个功能,1万个示例)和 很好的受支持的库,可以在那里用Python进行ML? 我对进行文本分类特别感兴趣,因此想使用一个库,该库具有良好的分类器集合,功能选择方法(信息增益,Chi-Sqaured等)以及文本预处理功能(词干,停用词删除) ,tf-idf等)。 到目前为止,根据过去和其他地方的电子邮件线索,我一直在研究PyML,scikits-learn和Orange。关于我提到的上述三个指标,人们的感受如何? 还有其他建议吗?

3
在模型验证之前或之内进行特征归一化?
机器学习中的一种常见的良好做法是对预测变量进行特征归一化或数据标准化,即将减去均值的数据居中并将其除以方差(或标准差)进行归一化。为了自我控制并据我所知,我们这样做是为了实现两个主要目标: 为了数字稳定,请避免使用较小的模型权重。 确保优化算法(例如共轭梯度)的快速收敛,以使一个预测变量维的数量级过大而不会导致缓慢收敛。 我们通常将数据分为训练集,验证集和测试集。在文献中,我们通常会看到,要进行特征归一化,它们会在整个预测变量集上取均值和方差(或标准差)。我在这里看到的最大缺陷是,如果这样做,实际上是在将未来信息引入训练预测变量中,即均值和方差中包含的未来信息。 因此,我对训练数据进行了归一化处理,并保存了均值和方差。然后,使用训练均值和方差将特征归一化应用于验证和测试数据集的预测变量。这有根本的缺陷吗?谁能推荐一个更好的选择?

5
神经网络与支持向量机:第二种绝对优越吗?
我阅读过许多论文的作者都断言,支持向量机是解决其回归/分类问题的上乘技术,他们意识到通过神经网络无法获得相似的结果。比较经常指出 SVM,而不是NN, 有很强的创立理论 由于二次编程,达到全局最优 选择适当数量的参数没有问题 不太容易过拟合 需要更少的内存来存储预测模型 产生更具可读性的结果和几何解释 是认真对待的一个被广泛接受的思想吗?不要引用免费午餐定理或类似的陈述,我的问题是关于这些技术的实际使用。 另一方面,NN肯定会面对哪种抽象问题?



5
什么时候不平衡数据真的是机器学习中的问题?
使用logistic回归,SVM,决策树,装袋和许多其他类似问题时,我们已经对不平衡数据提出了多个问题,这使它成为一个非常受欢迎的话题!不幸的是,每个问题似乎都是特定于算法的,我没有找到任何处理不平衡数据的通用准则。 引用Marc Claesen的答案之一,处理不平衡数据 (...)在很大程度上取决于学习方法。大多数通用方法都有一种(或几种)方法来解决此问题。 但是,到底什么时候我们应该担心数据不平衡?哪些算法最受它影响,哪些能够处理?我们需要哪种算法来平衡数据?我知道在像这样的问答网站上讨论每种算法都是不可能的,我宁愿寻找有关何时可能出现问题的一般准则。


5
随机森林是增强算法吗?
提升的简短定义: 一组弱学习者可以创建一个强学习者吗?弱学习者被定义为仅与真实分类略相关的分类器(与随机猜测相比,它可以更好地标记示例)。 随机森林的简称: 随机森林种植许多分类树。要根据输入向量对新对象进行分类,请将输入向量放在森林中的每棵树上。每棵树都有一个分类,我们称该树对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。 随机森林的另一个简短定义: 随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。 据我了解,随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗? 有人可以详细说明一下,为什么随机森林不是增强算法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.