Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

3
关于统计学硕士课程的注意事项
这是研究生院的入学季节。我(和许多像我一样的学生)现在正试图决定选择哪个统计程序。 那些从事统计学工作的人建议我们考虑统计学专业的哪些方面? 学生是否有常见的陷阱或错误(也许就学校声誉而言)? 对于就业,我们应该集中精力于应用统计还是应用统计和理论统计的混合? 编辑:这是有关我的个人情况的一些其他信息:我现在考虑的所有程序都在美国。一些侧重于应用性更强的方面,并在“应用统计”中授予硕士学位,而其他人则具有更多的理论课程,并​​在“统计”中授予学位。我个人并不是在一个行业工作,而不是在另一个行业工作。我有一定的编程背景,并且比起基因组学或生物信息学行业,对技术行业的了解要好一些。但是,我主要是在寻找有有趣问题的职业。 编辑:试图使问题更普遍适用。


3
在随机森林中通过投票创建“确定性分数”?
我正在寻找一种分类器,该分类器将通过大约10,000个对象的相当大的训练集来区分Type A和Type B对象,其中大约一半是Type A,一半是Type B。数据集由100个连续要素组成,详细描述了单元的物理属性(大小,平均半径等)。以成对的散点图和密度图可视化数据可知,在许多特征中,癌细胞和正常细胞的分布存在明显的重叠。 我目前正在探索随机森林作为此数据集的分类方法,并且已经看到了一些不错的结果。使用R,随机森林能够正确分类约90%的对象。 我们想要尝试做的一件事是创建一种“确定性分数”,该分数将量化我们对物体分类的信心。我们知道,我们的分类将永远是100%准确,即使在预测精度高的实现,我们将要培训的技术人员,以确定哪些对象是真正的Type A和Type B。因此,而不是提供的不妥协的预言Type A或者Type B,我们只是给出一个分数为每个对象,将描述如何A或B对象是。例如,如果我们设计一个分数,范围从0到10,则分数0可能表示一个对象与该对象非常相似Type A,而分数10则表明该对象非常类似于Type B。 我当时想我可以使用随机森林中的选票来设计这样的分数。由于随机森林的分类是通过在生成的树木的森林中进行多数表决来完成的,因此我假设由100%的树木Type A投票的对象将与由51%的树木投票的对象不同。是Type A。 目前,我尝试为对象必须分类为Type A或的投票比例设置一个任意阈值Type B,如果未通过该阈值,它将被分类为Uncertain。例如,如果我强制要求80%或更多的树必须同意通过分类的决定,那么我发现99%的类预测是正确的,但是大约40%的对象被归为Uncertain。 那么,利用投票信息对预测的确定性进行评分是否有意义?还是我的想法朝错误的方向前进?

3
机器学习:我应该使用分类交叉熵还是二进制交叉熵损失进行二进制预测?
首先,我意识到如果需要执行二进制预测,则必须通过执行一次热编码来创建至少两个类。它是否正确?但是,二元互熵是否仅适用于只有一个类别的预测?如果我使用大多数图书馆(例如TensorFlow)中常见的分类交叉熵损失,会不会有明显的不同? 实际上,分类交叉熵和二进制交叉熵之间的确切区别是什么?我从未在TensorFlow中看到过二进制交叉熵的实现,所以我认为也许绝对分类的效果同样好。

1
变分推理与MCMC:何时选择一个?
我觉得我得到两个VI和MCMC的总体思路,包括MCMC像Gibbs抽样的各种口味,新都黑斯廷斯等这个文件提供了两种方法的精彩论述。 我有以下问题: 如果我想进行贝叶斯推理,为什么要选择一种方法而不是另一种方法? 每种方法的优缺点是什么? 我知道这是一个相当广泛的问题,但是任何见解都将受到高度赞赏。

2
如果仅对预测感兴趣,为什么在山脊上使用套索?
在《统计学习入门》的第223页中,作者总结了岭回归和套索之间的区别。他们提供了一个示例(图6.9),其中“套索在偏见,方差和MSE方面倾向于胜过岭回归”。 我知道为什么套索是可取的:因为它会将许多系数缩小到0,所以结果很稀疏,从而导致模型简单易懂。但是我不明白当仅对预测感兴趣时,它如何能胜过岭(即,在示例中,它如何获得显着更低的MSE?)。 使用ridge时,如果许多预测变量对响应几乎没有影响(少数预测变量产生很大影响),它们的系数不会简单地缩小到非常接近零的小数目...导致与套索非常相似?那么,为什么最终模型的性能会比套索差?

2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?

3
PCA和火车/测试区
我有一个数据集,其中有多组二进制标签。对于每组标签,我训练一个分类器,并通过交叉验证对其进行评估。我想使用主成分分析(PCA)降低尺寸。我的问题是: 是否可以对整个数据集执行一次 PCA ,然后如上所述使用较低维度的新数据集进行交叉验证?还是我需要为每个训练集做一个单独的PCA(这意味着为每个分类器和每个交叉验证对折做一个单独的PCA)? 一方面,PCA不使用任何标签。另一方面,它确实使用测试数据进行转换,因此恐怕它可能会偏向结果。 我应该提到,除了为我节省一些工作之外,对整个数据集执行一次PCA可使我立即可视化所有标签集的数据集。如果每个标签集都有不同的PCA,则需要分别可视化每个标签集。


5
免费的数据集,用于非常高的尺寸分类[关闭]
有超过1000个要素(或样本点(如果包含曲线))可免费用于分类的数据集是什么? 已经有一个关于免费数据集的社区Wiki: 查找免费可用的数据样本 但是在这里,最好有一个更集中的列表,可以更方便地使用它,我还建议以下规则: 每个数据集一个帖子 没有链接到数据集 每个数据集必须与 一个名称(弄清楚它的含义)和一个指向数据集的链接(可以使用包名称来命名R数据集) 特征数(假设为p),数据集的大小(假设为n)和标签/类的数量(假设为k) 根据您的经验(将使用的算法写成文字)或文献(在最后一种情况下,链接本文)得出典型的错误率

5
您可以通过使用CV / Bootstrap训练机器学习算法来过度拟合吗?
这个问题很可能是开放性的,无法得出明确的答案,但希望不会。 机器学习算法(例如SVM,GBM,Random Forest等)通常具有一些免费参数,除了一些经验法则之外,还需要针对每个数据集进行调整。通常使用某种重新采样技术(引导程序,CV等)来完成此过程,以适应给出最佳泛化误差的参数集。 我的问题是,你可以在这里走得太远吗?人们都在谈论进行网格搜索,但是为什么不简单地将其视为优化问题并向下钻取最佳参数集呢?我在这个问题中询问了一些有关此问题的机制,但是并没有引起太多关注。也许这个问题被问得很严峻,但也许问题本身代表了人们通常不会采取的一种不好的做法? 困扰我的是缺乏正规化。通过重新采样,我可能会发现,对于该数据集,GBM中生长的最佳树木数量为647,交互深度为4,但是我如何确定新数据确实如此(假设新种群)与训练集相同)?由于没有合理的“缩水”价值(或者如果您愿意,也没有提供任何先验信息),重新采样似乎是我们可以做的最好的事情。我只是没有听到任何有关此事的消息,所以让我想知道是否缺少某些东西。 显然,要进行多次迭代以将模型的最后预测能力压缩出去,会产生大量的计算成本,因此,如果您有足够的时间/精力来进行优化和每一位操作,那么显然这是您要执行的操作性能改善是很有价值的。

3
如何解释随机森林模型中准确度的均值下降和GINI的均值下降
我在理解如何解释“随机森林”软件包的可变重要性输出时遇到了一些困难。准确度的平均下降通常被描述为“由于置换每个特征中的值而导致的模型准确度的下降”。 这是关于整个功能还是关于功能中的特定值的声明?在这两种情况下,通过从模型中删除有问题的特征(或特征中的值)而将未正确分类的观测值的数量或比例平均准确率降低了吗? 假设我们有以下模型: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …




By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.