我们正在通过“机器学习:概率论”(Kevin Murphy)研究机器学习。虽然文字解释了每种算法的理论基础,但很少说明哪种情况下哪种算法更好,什么时候做的更好,却没有说明如何判断我所处的情况。
例如,对于内核的选择,有人告诉我进行探索性数据分析以评估数据的复杂程度。在简单的二维数据中,我可以绘图并查看线性或径向核是否合适。但是在更高维度上做什么?
更一般地说,人们在选择算法之前说“开始了解您的数据”是什么意思?现在,我只能区分分类算法与回归算法,以及线性算法与非线性算法(我无法检查)。
编辑:即使我最初的问题是关于普遍的经验法则,我被要求提供有关我的特定问题的更多信息。
数据:每行一个国家/地区月的面板(总计约30,000行,涵盖约15年中的165个国家/地区)。
回应:5个感兴趣的二元变量(例如,该月是否发生抗议/政变/危机等)。
特征:〜400个变量(连续,类别和二进制的混合),详细说明了前两个国家/地区的月份的特征(可以创建更长的滞后时间)。我们只使用滞后变量,因为目标是预测。
例子包括汇率,GDP增长(连续),新闻自由水平(绝对),民主,邻国是否存在冲突(二元)。请注意,这400个功能中有很多是滞后变量。