7 工业与Kaggle的挑战。收集更多的观测值并获得更多的变量是否比幻想建模更重要? 我希望标题可以自我解释。在Kaggle中,大多数获胜者会使用有时与数百个基本模型进行堆叠的方式,以降低MSE的准确性,从而获得额外的百分比...一般来说,根据您的经验,精美的建模方法(例如堆叠与简单地收集更多数据和更多功能)有多么重要用于数据? 56 large-data stacking collecting-data kaggle
2 这是最先进的回归方法吗? 我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。 对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。 当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。 33 predictive-models boosting bagging stacking model-averaging
5 自动化机器学习是一个梦想吗? 当我发现机器学习时,我看到了不同的有趣技术,例如: 使用以下技术自动调整算法grid search: 打通的相同的“类型”的不同算法的组合更准确的结果,那就是boosting, 通过对不同算法的组合得到更准确的结果(但不是同一个类型的算法),这就是stacking, 可能还有更多我仍要发现... 我的问题是:所有这些部分。但是,是否有可能将它们组合在一起,以形成一种算法,该算法通过充分利用所有技术中的优势来将输入的清洁数据作为输入并输出良好的结果?(当然,专业数据科学家的工作效率可能会降低,但他会比我更好!)如果是,您是否有示例代码,或者您知道可以做到这一点的框架吗? 编辑:经过一些答案后,似乎必须进行一些缩小。让我们举个例子,我们有一列包含分类数据,我们称之为它,y并且我们希望从X虚拟数据或实际数值数据(高度,温度)的数值数据进行预测。我们假设以前已经清洁过。是否存在可以获取此类数据并输出预测的现有算法?(通过测试多种算法,对其进行调整,增强等),如果是,它的计算效率是否很高(如果与正常算法进行比较,是否可以在合理的时间内完成计算),您是否有代码示例? 12 machine-learning algorithms boosting stacking automatic-algorithms
1 集成学习:为什么模型堆叠有效? 最近,我对模型堆叠作为集成学习的一种形式感兴趣。特别是,我对回归问题进行了一些玩具数据集实验。我基本上已经实现了单个“ 0级”回归器,将每个回归器的输出预测存储为新功能,以供“元回归器”作为其输入,并将此元回归器适应这些新功能(来自该层的预测0个回归指标)。当针对验证集测试元回归器时,我对单个回归器的适度改进感到非常惊讶。 所以,这是我的问题:为什么模型堆叠有效?凭直觉,我希望进行堆叠的模型表现不佳,因为与每个0级模型相比,它的要素表示似乎很差。也就是说,如果我在具有20个特征的数据集上训练3个0级回归变量,并使用这些0级回归变量的预测作为我的元回归变量的输入,这意味着我的元回归变量只有3个特征可供学习。似乎0级回归器用于训练的20种原始功能中编码的信息比元回归器用于训练的3种输出功能要多。 11 machine-learning ensemble stacking