我在matemathics stackexchange网站上问了这个问题,建议在这里问。
我正在从事一个业余项目,需要解决以下问题。
一点背景
假设有一些商品,其中包含功能和价格的描述。想象一下汽车和价格的清单。所有汽车都具有功能列表,例如引擎尺寸,颜色,马力,型号,年份等。对于每个品牌,都应如下所示:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
更进一步,带有价格的汽车列表以一定的时间间隔发布,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。
问题
我想了解如何根据此基本信息为任何汽车的价格建模,最重要的是不在初始清单中的汽车。
Ford, v6, red, automatic, 130hp, 2009
对于上述汽车,它与列表中的汽车几乎相同,但马力和年份略有不同。要为此定价,需要什么?
我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。
我尝试过的
到目前为止,这是我一直在尝试的内容:
1)使用历史数据查找汽车X。如果找不到,则没有价格。当然这是非常有限的,并且只能将其与时间衰减结合使用,以随着时间的推移改变已知汽车的价格。
2)使用汽车功能加权方案和定价的样本汽车。基本上有一个基本价格,功能只是在某种程度上改变了价格。基于此得出任何汽车的价格。
事实证明,第一种方法不够用,第二种方法并不总是正确的,我可能没有使用权重的最佳方法。这似乎在保持权重上有些沉重,所以这就是为什么我认为也许有某种方法可以将历史数据用作统计信息,从而获得权重或获得其他收益。我只是不知道从哪里开始。
其他重要方面
- 集成到我拥有的一些软件项目中。通过使用现有的库或自己编写算法。
- 新的历史数据出现时快速重新计算。
有什么建议可以解决这样的问题吗?所有想法都值得欢迎。
在此先多谢,并期待阅读您的建议!