Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
测验:通过分类边界告诉分类器
给出以下6个决策边界。决策边界是紫罗兰色线。点和十字是两个不同的数据集。我们必须确定哪个是: 线性支持向量机 内核化SVM(2阶多项式内核) 感知器 逻辑回归 神经网络(1个隐藏层和10个整流线性单元) 神经网络(1个隐藏层,具有10 tanh单位) 我想要解决方案。但更重要的是,了解差异。例如,我会说c)是线性SVM。决策边界是线性的。但是我们也可以使线性SVM决策边界的坐标均匀化。d)核化的SVM,因为它是多项式阶数2。f)由于“粗糙”的边缘,因此校正了神经网络。也许a)逻辑回归:它也是线性分类器,但基于概率。

5
了解哪些功能对逻辑回归最重要
我建立了一个逻辑回归分类器,该分类器对我的数据非常准确。现在,我想更好地理解它为什么运行得如此出色。具体来说,我想对哪些功能做出最大的贡献(哪些功能最重要)进行排名,并且理想情况下,量化每个功能对整个模型的准确性有多大的贡献(或类似的东西)。我该怎么做呢? 我首先想到的是根据系数对它们进行排名,但是我怀疑这是不对的。如果我有两个同样有用的功能,但是第一个的散布是第二个的十倍,那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性? 请注意,我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反,我试图了解每个功能在使分类器准确无误方面的价值。另外,我的目标不是执行特征选择或构建具有较少特征的模型,而是试图为学习的模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑匣子。

1
套袋的理论保证是什么
我(大约)听说: 套袋是一种减少预测器/估计器/学习算法的方差的技术。 但是,我从未见过这种说法的正式数学证明。有谁知道为什么这在数学上是正确的?似乎这是一个广为接受/已知的事实,我希望直接引用它。如果没有,我会感到惊讶。另外,有人知道这对偏差有什么影响吗? 是否有任何其他理论上的保证可以保证任何人都知道并认为很重要并想分享的方法?

3
在进行PCA之前,为什么要除以标准偏差而不是其他一些标准化因子?
我在阅读以下理由(来自cs229课程注释),说明为什么我们将原始数据除以其标准偏差: 即使我理解解释的意思,但我仍不清楚为什么除以标准偏差才能实现这一目标。它说的是,每个人都处于相同的“规模”。但是,尚不完全清楚为什么除以标准偏差才能达到目标。例如,除以方差有什么问题?为什么不另加一些呢?像...绝对值的总和?或其他一些规范...选择性病是否有数学依据? 本声明中的主张是可以通过数学(和/或统计)得出/证明的理论陈述,还是因为它似乎在“实践”中起作用而做的其中一项陈述? 基本上,可以提供一种关于为什么直觉是正确的严格数学解释吗?还是仅凭经验观察,为什么我们认为在进行PCA之前总体上可行? 另外,在PCA中,这是标准化还是标准化的过程? 我的其他一些想法可能会“解释”性病的原因: 由于可以通过最大化方差来得出PCA,因此我猜测除以相关数量(例如STD)可能是我们除以STD的原因之一。但后来我认为,如果我们将其他任何规范定义为“方差”,,那么我们将用该标准的STD除以(取pth根或某物)。虽然,这只是一个猜测,我对此不是100%,因此是个问题。我想知道是否有人对此有任何了解。1n∑ni=1(xi−μ)p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p 我确实看到可能存在一个相关的问题: PCA是相关性还是协方差? 但是似乎更多地讨论了何时使用“相关”或“协方差”,但缺乏严格,令人信服或详尽的理由,这是我主要感兴趣的。 同样适用于: 为什么我们需要在分析之前对数据进行标准化 有关: SVD / PCA的“规范化”变量

1
R平方值适合比较模型吗?
我正在尝试使用汽车分类广告站点上提供的价格和功能来确定预测汽车价格的最佳模型。 为此,我使用了scikit-learn库中的几个模型以及pybrain和Neurolab中的神经网络模型。到目前为止,我使用的方法是通过某些模型(机器学习算法)运行固定数量的数据,并在那里比较使用scikit-learn度量模块计算的值。R2R2R^2 是的好方法,来比较不同车型的性能?R2R2R^2 尽管我对诸如弹性网和随机森林之类的模型获得了令人满意的结果,但对于神经网络模型却获得了非常差的值,那么是评估神经网络的合适方法(或非线性方法)?R2R2R^2R2R2R^2

1
朴素贝叶斯何时比SVM表现更好?
在我正在研究的一个小型文本分类问题中,朴素贝叶斯(Naive Bayes)表现出与SVM相似或更高的性能,我感到非常困惑。 我想知道是什么因素决定一种算法胜过另一种算法。是否存在没有必要在SVM上使用朴素贝叶斯的情况?有人可以阐明这一点吗?

4
神经网络中的“自由度”是什么意思?
在Bishop的书《模式分类和机器学习》中,它描述了一种在神经网络环境下进行正则化的技术。但是,我不理解一段描述训练过程中自由度的数量随模型复杂性而增加的段落。相关报价如下: 作为控制网络有效复杂性的一种方式,使用正规化的另一种方法是早期停止的过程。非线性网络模型的训练对应于针对一组训练数据定义的误差函数的迭代减少。对于用于网络训练的许多优化算法(例如共轭梯度),误差是迭代索引的非递增函数。但是,相对于独立数据测得的误差(通常称为验证集)通常首先显示出减小的趋势,然后随着网络开始过度拟合而增大。因此,可以相对于验证数据集在最小错误点停止训练,如图5.12所示,以便获得具有良好泛化性能的网络。在这种情况下,有时会根据网络中的有效自由度来对网络的行为进行定性解释,其中,该自由度从小开始,然后在训练过程中逐渐增加,这与有效自由度的稳定增长相对应。模型的复杂性。 它还说,参数的数量在训练过程中会增加。我假设通过“参数”来指代网络隐藏单元控制的权重数。也许我错了,因为通过正则化过程可以防止权重的大小增加,但是权重不会改变。难道是指找到大量隐藏单位的过程? 神经网络的自由度是多少?训练期间增加哪些参数?

2
使用神经网络进行证券交易
我进入了神经网络领域,并被它们所吸引。 我终于开发出了一个用于在证券交易所测试交易系统的应用程序框架,现在我将在其中实现我的第一个神经网络。非常简单原始的一种,不适合真正的交易,仅适合初学者。 我只想知道我的方法是否是好的方法。 而且,如果您发现我遗漏了某些东西(或者我在某些方面错了),或者您对在市场交易的神经网络领域的初学者有什么帮助的想法,那将令我非常高兴:) 我有40个来自证券交易所的市值输入(S&P e-mini,但这并不重要)。 对于这40个输入,我知道2个数字。 购买订单会赚多少钱 我卖出一张订单会赚多少钱 由于证券交易所的运作方式,两个数字实际上都可能为负/正,表示我可以通过买卖来赚钱/赚钱(这是因为交易可以附加“亏损限制”或“目标”订单,如止损,限价等等)。 但是,如果发生这种情况,则表明即使买入和卖出两个订单均给出正数,我也都不应下订单。 我想最好用的激活函数是...乙状结肠,但范围是-1到1(我发现它在互联网上被称为很多名字...双极乙状结肠,tanh,切线等...我不是高深的数学家)。 通过反向传播学习,我告诉网络对于40个输入,有1个输出,此输出是这些数字之一。 -1表示卖单要赚钱,买单要亏钱 +1表示买单将要赚钱,卖出将要亏钱 0表示买入和卖出都将卖出/卖出钱,最好避免交易 我在想,学习之后,网络输出将始终是接近-1、1或0的某个数字,这取决于我设定买卖门槛的情况。 这是使用神经网络的正确方法吗? 在互联网上的任何地方,用于学习的人所得到的输出都是反向传播学习机,它是市场图表的未来价值,而不是不同交易条目(买入或卖出)的预期货币收益。我认为这种方法不好,因为我对未来的图表价值不感兴趣,但对我想赚的钱不感兴趣。 编辑:我打算建立一个用于自动交易的神经网络,而不是用于决策帮助。

1
我想根据新闻报道建立犯罪指数和政治动荡指数
我有一个辅助项目,在这里我可以爬行我所在国家的本地新闻网站,并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是: 无监督主题提取。 近重复检测。 受监督的分类和事件级别(犯罪/政治-高/中/低)。 我将使用python和sklearn,并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性:有关某个故事或主题的新闻报道越多,当天的相关性就越高。 我的下一步是根据我拥有的功能构建每月,每周和每天的索引(全国范围内和每个城市),由于“不稳定敏感性”可能会随着时间的推移而增加,我在这里有点迷失了。我的意思是,去年重大动荡事件的指数可能小于今年的指数。另外,是否使用0-100的固定刻度。 稍后,我希望能够以此为基础来预测事件,例如,过去几周的事件接连是否导致重大事件。但是现在,我将很高兴让分类生效并建立索引模型。 我将不胜感激任何指向论文,相关阅读或思想的指针。谢谢。 PD:很抱歉,这个问题不属于这里。 更新:我还没有“做到这一点”,但是最近有一个新闻,关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻,并发表了相关论文《挖掘网络来预测未来事件》(PDF )。

3
使用t检验比较两个分类器准确性结果的统计显着性
我想比较两个分类器在统计上的准确性。两个分类器都在同一数据集上运行。这使我相信我应该使用我一直在阅读的样本进行t检验。 例如: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着? 还是我应该使用其他测试?


12
介绍统计数据分析的最佳书籍?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我买了这本书: 如何衡量一切:在企业中发现无形资产的价值 和 头先数据分析:大数,统计和好的决策学习者指南 您还会推荐哪些其他书籍?


1
嵌套交叉验证后如何建立最终模型并调整概率阈值?
首先,为发布一个已经在这里,这里,这里,这里,这里详细讨论过的问题的道歉,并用于重新加热旧主题。我知道@DikranMarsupial已经在帖子和期刊论文中详细介绍了这个主题,但是我仍然感到困惑,从这里的类似帖子数量来看,这仍然是其他人难以理解的事情。我还应该指出,我在这个话题上的矛盾加剧了我的困惑。您还应该知道我本来是物理学家,而不是统计学家,所以我在这方面的专业知识有限。我正在写一篇期刊论文,其中我想使用嵌套的CV来评估最终模型所期望的性能。在我的领域,这是第一个。(我们几乎从不使用任何是我领域中强大的简历的一种形式,但要用神经网络和增强型决策树的研究成果来愉快地抽出论文!)因此,有一个非常透彻和清晰的理解非常重要,这样我就不会搞砸和传播对我的社区来说是一个错误的过程,可能需要多年才能学会!谢谢!关于这个问题... 嵌套交叉验证后如何构建最终模型? 我正在训练一个具有L1和L2正则化的简单glmnet模型。快速,简单和可解释。我执行特征中心,缩放和Box-Cox转换,以使特征分布均值中心,标准化并且有点像高斯型。我在交叉验证中执行此步骤,以防止信息泄漏。纯粹是因为我的硬件速度非常慢,而且我无法使用更多的CPU资源,所以在特征预处理之后,我还会在CV中执行基于过滤器的快速特征选择。我正在使用随机网格搜索来选择alpha和lambda超参数。我知道我不应该通过CV循环获得此估算值。我知道内部CV回路用于模型选择(在这种情况下,是最佳超参数),而外部回路则用于模型评估,即内部CV和外部CV具有两个不同的用途,这些用途常常被错误地混为一谈。(到目前为止,我还好吗?) 现在,我发布的链接建议“考虑交叉验证的方法是估计使用构建模型的方法获得的性能,而不是估计模型的性能”。鉴于此,我应该如何解释嵌套CV过程的结果? 我读过的建议似乎表明以下问题---如果这是错误的,请纠正我:内部CV是允许我选择glmnet模型的最佳alpha和lambda超参数的机制的一部分。如果我完全按照内部CV中所使用的过程(包括超参数调整)并使用整个数据集构建最终模型,则外部CV会告诉我可以从最终模型中获得的估计值。即,超参数调整是“用于构建模型的方法”的一部分。这是正确的吗?因为这使我感到困惑。在其他地方,我已经看到了构建要部署的最终模型的过程涉及使用固定值对整个数据集进行训练使用CV选择的超参数。在此,“用于建立模型的方法”不包括调整。那是什么呢?在某个时候,将选择最佳超参数并将其固定以构建最终模型!哪里?怎么样?如果我的内循环是CV的5倍,而我的外循环是CV的5倍,并且我在内部CV中选择了100个测试点作为随机网格搜索的一部分,那么我实际训练了几次glmnet模型?(100 * 5 * 5)+ 1作为最终版本,还是我不知道还有更多步骤? 基本上,我需要对如何从嵌套CV解释性能估计以及如何构建最终模型进行非常清晰的描述。 我还想知道选择概率阈值的适当程序,以将最终的glmnet模型的概率分数转换为(二进制)类标签---需要另一个CV循环吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.