在左侧删节的数据上使用标准的机器学习工具


11

我正在开发一个预测应用程序,其目的是允许进口商预测其分销商客户网络对其产品的需求。只要有足够的库存来满足需求,销售数字就可以很好地满足需求。但是,当库存减少到零时(我们正在努力帮助客户避免这种情况),我们对错过目标的了解并不多。如果客户有足够的供应量,他们将进行多少次销售?使用Sales作为简单目标变量的基于标准回归的ML方法将对时间,我的描述性变量和需求之间的关系产生不一致的估计。

Tobit建模是解决该问题的最明显方法:http : //en.wikipedia.org/wiki/Tobit_model。我想知道随机森林,GBMS,SVM和神经网络的ML适应性也占数据的左手检查结构的原因。

简而言之,如何将机器学习工具应用于左删失的回归数据,以获得对因变量和自变量之间关系的一致估计?首先是R中可用的解决方案,其次是Python。

干杯,

亚伦


3
很高兴看到scikit-learn的答案。
tobip

在R中,您可以使用cran.r-project.org/web/packages/censReg/censReg.pdf。我第二次关于Python中的scikit-learn @tobip
Adrian

Answers:


1

简而言之,如何将机器学习工具应用于左删失的回归数据,以获得对因变量和自变量之间关系的一致估计?

如果您可以写出可能性并将符号翻转为负,那么您将拥有一个损失函数,该函数可用于许多机器学习模型。在梯度增强中,通常将其称为模型增强。参见,例如,Boosting Algorithms:正则化,预测和模型拟合

作为Tobit模型的示例,请参阅“默认预测的梯度树增强Tobit模型”一文。该方法应可与本文提到的scikit-learn分支一起使用。

相同的想法用于右删失数据,例如,R中的gbmmboost包中用于右删失数据。

以上想法可以与其他方法(例如,神经网络)一起应用。但是,使用梯度增强特别容易,因为您只需要能够计算损失函数的梯度(负对数似然)。然后,您可以应用任何适合使负梯度具有损失的方法。L2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.