数据科学家访谈问题:线性回归低,您会怎么做


10

我遇到了一个工作的面试问题,面试官问我,假设您的价格弹性模型的非常低(介于5%到10%之间)。您将如何解决这个问题?R2

除了我将进行回归诊断以查看出了什么问题或是否应该应用任何非线性方法外,我什么也没想到。我以某种方式认为面试官对我的回答不满意。尽管低,在这种情况下还有其他方法可以拟合模型并用于生产水平预测吗?R2

编辑:在稍后的阶段,他们给了我数据以在面试中对问题进行建模,我尝试添加了滞后变量,竞争对手价格的影响,季节性假人,看是否有任何不同。达到了17.6%,在保留样本上的表现很差。我个人认为将这样的模型放在实时环境中进行预测是不道德的,因为它会产生错误的结果并导致客户流失(想象一下,使用这种模型中的定价建议对您的公司收益!)。在这种情况下还有什么其他所有人都需要知道的事情吗?我不知道的什么,我很想说“银弹”?R2

此外,让我们想象一下,添加外生变量后再提高2%,那么在这种情况下可以做什么?我们应该放弃建模项目,还是仍然有希望开发出生产水平质量的模型,该模型由保留样本的性能来表示?R2

Edit2我已将此问题发布在Economics.stackexchange.com论坛上,以从经济学的角度理解此问题


12
“ 对于价格弹性模型,假设您的非常低(在5%到10%之间)”,这不是一个问题。我对“假设价格弹性模型的非常低(在5%到10%之间)”的回答是“好,完成”。我可以假设没有问题,因此没有进一步的工作。如果他们真的不愿意,我不得不问他们认为哪些方面需要解决。如果没有他们,您认为这里的问题是什么?R 2R2R2
Glen_b-恢复莫妮卡

1
我将其标记为自学@Glen_b,让我知道是否需要添加更多详细信息。谢谢!
发烧友

2
谢谢,这是一件好事。但是更多细节将包括您需要解决的实际问题。“假设X”表示不要求您解决任何问题。
Glen_b-恢复莫妮卡

1
交叉发布在Economics.stackexchange.com/q/16617上。请尝试确定一个最佳的网站问题:如果您认为值得为不同的网站量身定制变体,请仍然链接它们。
Scortchi-恢复莫妮卡

1
@Scortchi,我已经在两个论坛中添加了该链接作为附加编辑。谢谢!
发烧友

Answers:


11

如果我们从这个角度来看问题呢?价格弹性是需求与产品价格之间的关系。

当在这种情况下r平方低时,我们可能暗示该特定产品的价格与需求之间的关系不强。

从定价的角度来看,这可能意味着您已经找到了可以随意定价的产品,而对需求没有很大的影响,或者尽管定价不同,但需求却很不稳定。

如果您查看Veblen产品,它们就是弹性反比的示例。随着价格上涨,需求增加。

另一方面,如果r平方很低,则可能仅表示价格相对不重要的产品类别。在我的头上,一种抗癌药物可能会坚持这种特性。如果药品的重要性超过其价格,并且需求没有变化。

最后,我假设面试官的意图可能是判断您是否知道低r平方的含义是什么,而不是找出如何用较高r平方构建更好的模型。


+1为结论。我还认为,此问题的目的是试图查看候选人是否在未完全理解指标的情况下盲目追求指标。
海涛杜

5

我不确定面试官的工作是什么,但是当面对一个拙劣的预成型模型时,这些是我考虑的问题,也是我希望作为面试官听到的答案(现在已经面试了几年)。

  1. 获取更多数据:这可能并不总是有帮助,但是有几件事可以帮助您评估此解决方案的效果:

    • 以不同的样本量运行模型-如果使用更多数据改善结果,则合理地假设获得更多数据将继续改善模型性能。
    • 特征与样本的比率-选择特征后,尝试了解每个特征值是否有足够的样本。请参阅有关此主题的已回答问题
    • 缺少目标值-不同价格范围之间的弹性可能表现不同。在您的样本数据偏向特定范围的情况下,您很有可能无法一概而论(例如90%的样本适用于0-10之间的价格,另外10%的样本适用于0-10之间的价格1000-10000)。除了获取更多数据之外,还有其他方法可以解决此问题(拆分模型训练,不要使用回归)。
  2. 更好的要素工程:如果您有足够的数据并且了解深度学习,那么也许这是无关紧要的。如果您不符合上述标准,请集中精力进行这项工作。在用户行为模型中,与机器训练模型相比,我们的直觉有许多关系可以更好地理解。
    就像您设计大量其他功能并大大改善模型性能的情况一样。该步骤容易出错,因为它通常涉及基于逻辑的代码(如果使用Elses /数学公式)。

  3. 更好的模型选择:如您所建议,非线性模型可能会更好。您的数据是否同质?您是否有理由相信交叉特征将更好地解释价格弹性?(季节性*竞争对手的价格)。

  4. 超参数调整:网格搜索模型的超参数(+交叉验证结果)是一个很好的实践,但是就我的经验来看,它很少会极大地提高性能(肯定不会从5%提高到90%)。

还有更多的事情可以做,但是这些要点足够通用。


1

除了@DaFanat和@Arun所建议的内容外,我想补充一下一些视觉检查可能会有所帮助。

例如,某些异常值可能会影响您的。在解决了收入管理问题之后,我不得不不断研究影响点。异常值通常与特定的一次性事件相关,例如促销活动,折扣等。R2


感谢您分享特定领域的输入,因为这确实是一个收入管理问题
发烧友
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.