Answers:
如果您可以继续添加新数据(基于主要概念,例如区域,即邮政编码),并且模型的性能有所提高,那么当然可以……假设您只关心最终结果。
有一些指标可以尝试为您提供指导,例如Akaike信息标准(AIC)或类似的贝叶斯信息标准(BIC)。这些本质上有助于根据模型的性能来选择模型,并会因引入的所有其他必须估算的参数而受到惩罚。AIC看起来像这样:
这些条件可以帮助您告诉何时停止,因为您可以尝试使用越来越多的参数的模型,而只需选择具有最佳AIC或BIC值的模型即可。
如果模型中还有其他功能(与ZIP无关),则它们可能会变得不堪重负-这取决于您使用的模型。但是,他们也可能会解释有关数据集的事情,而这些事情根本无法包含在ZIP信息中,例如房屋的地板面积(假设这与ZIP代码相对独立)。
在这种情况下,您可以将它们与“主成分分析”之类的进行比较,其中一组特征解释了数据集方差的一个三维,而其他特征则解释了另一个维度。因此,无论您拥有多少与ZIP相关的功能,都可能永远无法解释占地面积的重要性。
1)是的,这很有道理。尝试手动创建要素将帮助学习者(即模型)从原始数据中获取更多信息,因为原始数据并不总是以易于学习的形式出现,但是您始终可以从中构造特征。您要添加的功能基于一项功能。这很常见。但是,您的学习者(逻辑回归)对多重共线性敏感。您需要注意添加哪些功能以及添加多少功能。否则,您的模型可能会过拟合。
2)由于您使用的是逻辑回归,因此在添加新结构之前,您始终可以使用AIC或执行统计显着性检验(例如卡方检验(测试拟合优度))来确定响应的分布是否确实不同有和没有这种结构。当您的数据不足时,这特别有用。另一种方法是在模型中添加惩罚项。例如,逻辑套索回归。
3)不断添加新功能并不总是一个好主意。注意高维的诅咒。添加新功能时,实际上是在数据上添加新维度。天真的,人们可能会认为收集更多功能永远不会有伤害,因为在最坏的情况下,它们不提供有关该类的新信息。但是实际上,它们的好处可能会因维数的诅咒而被抵消。我希望有关机器学习 session6的有用知识对您有所帮助。
特征是模型的信息。信息越多,执行和预测的能力就越好。它越少,就越难预测值。因此,简短的回答是肯定的。拥有尽可能多的功能总是值得的。尽管总会有一个限制,因为信息过载也可能烧毁您的处理器,因此请注意要设计多少功能。另外,不必要的功能只会增加工作量,因此清理某些功能始终是一个好习惯。整个数据预处理阶段就是这样。
第一个答案对此有一些详细说明。就停止周期而言,您需要了解一些衡量指标和因素,以检查模型在哪些地方停止了更好的表现,而这些衡量指标和因素是RMSE。一个简单的示例将对xgboost
数据使用回归并指定循环数。运行模型,您将获得每个周期的RMSE。它将减少到一个极限,之后您可以推断出模型在特定周期后达到稳定状态。这就是模型调整和优化的工作方式。