我有约140万个家庭的全国数据集。那里我有关于租金,面积(房间数和平方米)以及每个家庭的一些其他特征的信息。
我想使用此数据来创建整个国家的租金价格表,并使用此信息作为对拥有或没有租金信息的剩余约150万个家庭的价值估算的代理。
这里有几个问题:
这样的方法是否完全适合这种问题?
哪种插值方法最适合在此使用?
另外,是否可以考虑有关家庭规模的信息?
我使用的是ArcInfo许可的ArcGIS 9.3。
我有约140万个家庭的全国数据集。那里我有关于租金,面积(房间数和平方米)以及每个家庭的一些其他特征的信息。
我想使用此数据来创建整个国家的租金价格表,并使用此信息作为对拥有或没有租金信息的剩余约150万个家庭的价值估算的代理。
这里有几个问题:
这样的方法是否完全适合这种问题?
哪种插值方法最适合在此使用?
另外,是否可以考虑有关家庭规模的信息?
我使用的是ArcInfo许可的ArcGIS 9.3。
Answers:
这个想法很好,但是建议的实现可能过于简单以至于不可信。租金是经济体系的财产。除了受地理位置的影响外,它们还以其他重要方式与其他经济变量相关:当地(和国民)经济状况,当地住房价格,资本可用性,就业率等。要做好工作,您需要计量经济模型。使用一些空间滞后项可能会受益,但是在考虑此类复杂性之前,您需要包括许多这些经济协变量。
话虽如此,您能否成功取决于您拥有的数据与您要预测的租金之间的关系。如果您的数据是整个国家的代表性样本,并且在地理位置上分散(例如,将房子当作葡萄干上的葡萄干,并且将cookie中的其他葡萄干都包含在数据中),则相对简单的模型就足够了。如果您的数据集中在地理上-也许您在cookie的右侧有关于葡萄干的信息,并且想在左侧进行有关葡萄干的预测-那么问题就更棘手了。
一个合适的出发点是使租金的传统线性计量经济学模型适合家庭特征和总空间特征(例如州或县的税收政策),计算残差,然后开始在空间上探索残差(使用变异函数,空间核平滑)等)以捕获地理效果。
可以使用合适的软件作为R的附加组件。
作为对空间回归主题的非常温和的介绍,我强烈建议您阅读GeoDa工作手册(第22至25章将是您最感兴趣的部分)。即使您不想使用该软件,它也非常全面地介绍了空间回归。
ArcMap中的内置回归函数是否可以处理那么多数据(不是说任何软件都很难拥有那么多点?)
我已经看到使用享乐模型为房价所做的类似工作。有关示例,请参见http://scholar.google.com/scholar?hl=zh-CN&q=hedonic+price+geography。