4 外推v。内插 外推法和内插法有什么区别,使用这些术语的最精确方法是什么? 例如,我在论文中看到了一个使用插值的语句: “该过程在bin点之间插入估计函数的形状” 同时使用外推法和内插法的句子例如: 在上一步中,我们使用内核方法将内插函数外推到左侧和右侧的温度尾部。 有人可以提供一种清晰易用的方法来区分它们,并通过示例指导如何正确使用这些术语吗? 28 terminology interpolation extrapolation
7 机器学习中的有偏数据 我正在一个机器学习项目中,该项目的数据已经(严重)受到数据选择的影响。 假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时,您如何构建一个机器学习模型来替换它? 为了明确起见,我猜最好的例子是信用风险评估:任务是过滤所有可能无法付款的客户。 现在,您拥有的唯一(带有标签的)数据来自该组规则已接受的客户,因为只有在接受之后,您才能看到有人付款(显然)。您不知道这套规则有多好,它们将对有偿分配到无偿分配产生多大影响。此外,再次由于规则集,您已经拒绝了来自客户端的未标记数据。因此,您不知道如果这些客户被接受,将会发生什么情况。 例如,规则之一可能是:“如果客户年龄小于18岁,则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式? 忽略此问题,将导致模型暴露于从未遇到过的数据中。基本上,我想在x在[a,b]之外时估计f(x)的值。 18 machine-learning classification data-mining bias extrapolation