我正在一个机器学习项目中,该项目的数据已经(严重)受到数据选择的影响。
假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时,您如何构建一个机器学习模型来替换它?
为了明确起见,我猜最好的例子是信用风险评估:任务是过滤所有可能无法付款的客户。
- 现在,您拥有的唯一(带有标签的)数据来自该组规则已接受的客户,因为只有在接受之后,您才能看到有人付款(显然)。您不知道这套规则有多好,它们将对有偿分配到无偿分配产生多大影响。此外,再次由于规则集,您已经拒绝了来自客户端的未标记数据。因此,您不知道如果这些客户被接受,将会发生什么情况。
例如,规则之一可能是:“如果客户年龄小于18岁,则不接受”
分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式?
忽略此问题,将导致模型暴露于从未遇到过的数据中。基本上,我想在x在[a,b]之外时估计f(x)的值。