在左侧删节的数据上使用标准的机器学习工具

我正在开发一个预测应用程序，其目的是允许进口商预测其分销商客户网络对其产品的需求。只要有足够的库存来满足需求，销售数字就可以很好地满足需求。但是，当库存减少到零时（我们正在努力帮助客户避免这种情况），我们对错过目标的了解并不多。如果客户有足够的供应量，他们将进行多少次销售？使用Sales作为简单目标变量的基于标准回归的ML方法将对时间，我的描述性变量和需求之间的关系产生不一致的估计。

Tobit建模是解决该问题的最明显方法：http : //en.wikipedia.org/wiki/Tobit_model。我想知道随机森林，GBMS，SVM和神经网络的ML适应性也占数据的左手检查结构的原因。

简而言之，如何将机器学习工具应用于左删失的回归数据，以获得对因变量和自变量之间关系的一致估计？首先是R中可用的解决方案，其次是Python。

干杯，

亚伦

r regression machine-learning censoring

— 亚伦
source

很高兴看到scikit-learn的答案。

— tobip

在R中，您可以使用cran.r-project.org/web/packages/censReg/censReg.pdf。我第二次关于Python中的scikit-learn @tobip

— Adrian

简而言之，如何将机器学习工具应用于左删失的回归数据，以获得对因变量和自变量之间关系的一致估计？

如果您可以写出可能性并将符号翻转为负，那么您将拥有一个损失函数，该函数可用于许多机器学习模型。在梯度增强中，通常将其称为模型增强。参见，例如，Boosting Algorithms：正则化，预测和模型拟合。

作为Tobit模型的示例，请参阅“默认预测的梯度树增强Tobit模型”一文。该方法应可与本文提到的scikit-learn分支一起使用。

相同的想法用于右删失数据，例如，R中的gbm和mboost包中用于右删失数据。

以上想法可以与其他方法（例如，神经网络）一起应用。但是，使用梯度增强特别容易，因为您只需要能够计算损失函数的梯度（负对数似然）。然后，您可以应用任何适合使负梯度具有损失的方法。 $L2$

— 本杰明·克里斯托弗森
source