如何模拟价格?


15

我在matemathics stackexchange网站上问了这个问题,建议在这里问。

我正在从事一个业余项目,需要解决以下问题。

一点背景

假设有一些商品,其中包含功能和价格的描述。想象一下汽车和价格的清单。所有汽车都具有功能列表,例如引擎尺寸,颜色,马力,型号,年份等。对于每个品牌,都应如下所示:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

更进一步,带有价格的汽车列表以一定的时间间隔发布,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。

问题

我想了解如何根据此基本信息为任何汽车的价格建模,最重要的是不在初始清单中的汽车。

Ford, v6, red, automatic, 130hp, 2009

对于上述汽车,它与列表中的汽车几乎相同,但马力和年份略有不同。要为此定价,需要什么?

我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。

我尝试过的

到目前为止,这是我一直在尝试的内容:

1)使用历史数据查找汽车X。如果找不到,则没有价格。当然这是非常有限的,并且只能将其与时间衰减结合使用,以随着时间的推移改变已知汽车的价格。

2)使用汽车功能加权方案和定价的样本汽车。基本上有一个基本价格,功能只是在某种程度上改变了价格。基于此得出任何汽车的价格。

事实证明,第一种方法不够用,第二种方法并不总是正确的,我可能没有使用权重的最佳方法。这似乎在保持权重上有些沉重,所以这就是为什么我认为也许有某种方法可以将历史数据用作统计信息,从而获得权重或获得其他收益。我只是不知道从哪里开始。

其他重要方面

  • 集成到我拥有的一些软件项目中。通过使用现有的库或自己编写算法。
  • 新的历史数据出现时快速重新计算。

有什么建议可以解决这样的问题吗?所有想法都值得欢迎。

在此先多谢,并期待阅读您的建议!

Answers:


11

“实用”和“简单”建议最小二乘回归 它易于设置,易于使用许多软件(R,Excel,Mathematica,任何统计数据包),易于解释,并且可以通过多种方式进行扩展,具体取决于您希望达到的准确性和难度。愿意工作。

这种方法本质上是您的“加权方案”(2),但是它可以轻松找到权重,确保尽可能多的准确性,并且可以轻松快速地进行更新。有负荷库进行最小二乘法计算。

这将有助于不仅包括您列出的变量-发动机类型,功率等-也是时代的汽车。此外,请确保针对通胀调整价格。


卖了!听起来正是我要的!由于这是我的新手,因此我无法比较建议,因此我想知道最小二乘回归与多元回归和“享乐定价”的比较如何。这些是我最初发布在数学站点上的建议。例如,在使用最小二乘回归时我要解决什么问题?基本上,使用这种方法时我需要注意一些事情吗?
murrekatt 2011年

也感谢您的建议。好像很好 我将不得不阅读更多内容,以了解如何开始使用它。
murrekatt 2011年

3
我想承认并表示同意@mpiktas和@dimitrij celov发布的警告。价格分析可能(在很多情况下应该如此)与它们所参与的经济体系一样复杂。但是,由于预期的应用程序(一种业余爱好)以及OP的统计建模功能明确表明的局限性,我们应该在简单性,易用性和可解释性上给予极大的重视。显然,尚未熟悉最小二乘的人不会立即介入并开始创建成熟的计量经济学模型。
Whuber

5

我同意@whuber的观点,即线性回归是一种可行的方法,但是在解释结果时必须小心。问题在于经济学中价格始终与需求有关。如果需求上升,价格上升,如果需求下降,价格下降。因此,价格由需求决定,而回报则由价格决定。因此,如果我们将价格建模为没有需求的某些属性的回归,则存在真正的危险,即由于遗漏变量偏差,回归估计将是错误的。


@mpiktas:谢谢。我明白你的意思。这是我正在考虑的事情,但并不确切地知道如何提出或添加到问题中。一个如何处理您的解释?这是一个单独的问题,在您解释结果时要加以考虑,还是在其他方法中综合考虑,而不是最小二乘回归的一部分?不知道如何养成自我,但我的意思是说有没有考虑到这一点的方法而其他却没有考虑到这些方法?这意味着对于“不”我们必须解释结果?
murrekatt 2011年

3
@murekatt,如果您没有需要的其他数据,但需要价格模型,则需要格外小心。这意味着较少关注系数的统计显着性,而更多关注预测性能。本质上,这意味着将回归视为黑盒,并使用模型预测性能作为模型有效性的度量。这意味着使用交叉验证,数据分割训练和测试样品等
mpiktas

@mpiktas:“附加数据”是什么意思?您能在汽车环境中举例说明吗?
murrekatt 2011年

1
@murrekatt,请看更新的Dmitrij答案的结尾。需求数据很重要,因此,如果您以给定的价格售出了多少辆汽车,这将极大地帮助您。此外,如果您具有固定属性的给定汽车价格变化的数据,那么这也应该反映在您的模型中
mpiktas 2011年

1
@murekatt,原则上是。我认为您需要从小处着手,以后再添加其他功能。初步结果将告诉您进一步的发展方向。
mpiktas

4

我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。

经过某种讨论后,这是我对事情的完整看法

问题

目的:了解如何更好地为汽车定价

背景:人们在决策过程中会解决以下几个问题:我是否需要一辆汽车,如果需要,我最喜欢什么属性(包括价格,因为价格合理,因为我想拥有质量/价格比最好的汽车) ,比较不同汽车之间的属性数量并选择共同评估它们。

从卖方的角度,我想将价格定得尽可能高,并尽快出售汽车。因此,如果我将价格设置得太高并等待数月,则可以将其视为市场上不需求的商品,并与非常需求的属性集相比标记为0。

观察结果:将特定汽车的属性与议价过程中设定的价格相关联的真实交易(关于先前的评论,重要的是知道达成交易需要多长时间)。

优点:您确实观察到了在市场上实际购买的东西,因此您不会猜测是否存在一个保留价足够高的人想要购买特定的汽车

缺点:

  1. 您的假设是市场有效,这意味着您观察到的价格接近均衡
  2. 您会忽略尚未购买或花费太长时间来设定交易的汽车属性的变体,这意味着您的见解存在偏差,因此您实际上可以使用潜在变量模型
  3. 长时间观察数据需要放气,尽管包含车龄可以部分弥补这一点。

解决方法

正如whuber所建议的那样,第一个是经典的最小二乘回归模型

优点:

  1. 确实是最简单的解决方案,因为它是计量经济学的主力军

缺点:

  1. 忽略您确实不完整地观察事物(潜在变量
  2. 由于回归器是彼此独立的,因此基本模型忽略了以下事实:您可能喜欢蓝色福特蓝色奔驰不同,但这并不是蓝色和福特带来的边际影响之和

在经典回归的情况下,由于您不受自由度的限制,因此也可以尝试其他交互项。

因此,更复杂的解决方案将是tobitHeckman模型,您可能需要咨询AC Cameron和PK Trivedi Microeconometrics:方法和应用以获取有关核心方法的更多详细信息。

优点:

  1. 您确实将人们可能根本不喜欢某些属性集或某些属性集实际价格设置中购买的可能性很小这一事实分开了
  2. 您的结果没有偏见(或至少比第一种情况少)
  3. 在Heckman的情况下,您将激励购买特定汽车的原因与我要为这辆汽车支付多少的定价决定分开:第一个受到个人偏好的影响,第二个受到预算约束的影响

缺点:

  1. 两种模型都比较贪婪,也就是说,我们需要观察要价和买入之间的时间长度以进行均衡(如果它很短,则放置1,否则为0),或者观察被市场忽略的集合。

最后,如果您仅对价格如何影响购买可能性感兴趣,则可以使用某种Logit模型。

我们同意,联合分析不适用于此处,因为您的确有不同的背景和观察。

祝好运。


确切地说,如何将因变量为分类的多项式logit模型应用于非分类的价格?
whuber

@Dmitrij Celov:谢谢您的建议。我会尽力回答您的问题。1)没有可用的价格,这是未知的,我想通过研究类似的汽车来回答。2)我不知道哪个变量的权重最大-这是我希望得到的。3)我希望基于具有功能和价格的汽车列表,从而能够为具有任何功能的任何汽车定价。
murrekatt,2011年

Kj1j10P(yi=1|yj=0)=11+eβ(XiXj)yiyj

@murrekatt:1)那么,您只是在寻找最“有价值”的属性?2)Logit估计参数可以很好地解释,例如比值和比值比,但是多项式logit具有一个弱点,即与无关的替代项无关。3)您可以确定列出的价格是相关的,即,实际购买的是汽车吗?@whuber:简单回归在这里可以很好地工作,如果依赖的是价格,但又是什么价格?发表在哪里?还是实际交易?
Dmitrij Celov 2011年

2
@Dimitrij Price不是一个自变量:它是变量:“我想了解如何基于此基本信息为任何汽车的价格建模。” 我担心由于这种误解,您可能会将@murrekatt带到很远的地方。
whuber

4

我也看起来像是线性回归问题,但是K最近邻居KNN呢?您可以得出每辆汽车之间的距离公式,然后将价格计算为最接近的K(例如3)之间的平均值。距离公式可以是欧几里德的,例如圆柱体的差异加上门的差异,再加上马力的差异等等。

如果您使用线性表示法,我建议您做一些事情:

  • 将美元价值扩展到现代,以解决通货膨胀问题。
  • 将您的数据划分为多个时期。我敢打赌,您会发现您需要一个模型用于ww2之前和之后的ww2。这只是预感。
  • 交叉验证模型以避免过度拟合。将您的数据分为5个块。在4上训练,然后在5块上移动模型。总结错误,冲洗,对其他块重复。

另一个想法是在模型之间进行混合。将regresion和KNN都用作数据点,并将最终价格创建为加权平均值或其他值。


3

除了已经说过的话,而且与已经提出的建议并没有太大不同之外,您可能还想看看关于享乐定价模型的大量文献。它归结为一个回归模型,试图解释复合商品的价格与其属性的关系。

即使您的样本中没有完全相似的属性组合,您也可以通过了解其属性(马力,尺寸,品牌等)来为汽车定价。这是一种非常普遍的方法,用于评估不可复制的资产-例如不动产。如果您使用Google的“享乐模型”,则会发现许多参考资料和示例。


@F。Tusell:很好的描述。我已经从其他帖子中对此感到困惑,但是对于像我这样的初学者来说,这总结得很好。
murrekatt 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.