在回归分析中,数据生成过程和模型之间有什么区别?


19

在回归分析中,“数据生成过程”和“模型”之间有什么区别?


1
数据生成过程从来都不为人所知,我们选择模型是希望我们能够充分估计数据生成过程。这是可能的答案之一,如果您提供了更多的上下文,这将有所帮助,因此可以清楚地找到所需的答案。查看聊天记录,当前正在进行的期刊俱乐部讨论了引发此问题的文章。
mpiktas 2011年

3
这个问题的答案将按照实际情况而有所不同,因为各个作者都以不同的方式使用了“数据生成过程”和“模型”。@Weijie,您有特定的参考意见吗?
ub

Answers:


15

尽管“技术模型”的技术定义会因学科而异,但我们都对“模型”的含义有很好的认识。为了将其与DGP进行比较,我首先查看了谷歌搜索“数据生成过程”中的前5个匹配项(其中两个匹配项是同一作者)。

  1. 关于美国空军实际上是如何创建的后勤保障数据。

  2. 在环境与规划A中发表的一篇论文的摘要,内容涉及如何通过计算机“模拟模型”创建“合成的微种群”。

  3. 一个网页上的“合成数据的生成”; 也就是说,模拟“旨在探索某些数据特征对...模型的影响”。

  4. 数据挖掘会议论文摘要,他断言“数据库中的数据是基础数据生成过程(dgp)的结果”。

  5. 书一章表征感兴趣的数据是“从某种变换而产生底层[随机]过程 ......部分或全部[其]可能是未观测到的......”WtVt

这些链接展示了术语“数据生成过程”的三种稍有不同但紧密相关的用法。最常见的是在统计模拟的情况下。其他指的是在进行中的情况下(物流)创建数据的实际方法,以及进行中的数据创建过程的概率模型,这些模型不打算直接进行分析。 在最后一种情况下,文本将无法观察的随机过程与将要分析实际数字区分开来尽管该过程是数学建模的

这些表明存在两个稍有不同的答案是可行的:

  1. 在模拟或创建“合成”数据进行分析的情况下,“数据生成过程”是一种为后续研究生成数据的方法,通常是通过计算机的伪随机数生成器进行。分析将隐式采用某种模型来描述此DGP的数学特性。

  2. 在统计分析的上下文中,我们可能希望将真实世界的现象(DGP)与将要分析的观察结果区分开。我们模型的现象和观察,以及两个是如何连接的模型两者。

那么,在回归中,DGP通常会描述一组数据 =,假定。 例如,可以由实验者设置,也可以通过某种方式对其进行观察,然后推定为引起相关。该模型将描述这些数据在数学上可能相关的可能方式;例如,我们可以说每个是一个期望的随机变量(X,Y)i(X1i,X2i,,Xpi,Yi)i=1,2,,nXjiYiYiXβ和方差对于未知参数和。σ2βσ


您写下“原因”或“相关”一词。我对此有疑问。从您的答案看来,DGP概念并不意味着因果关系。但是,这种“关系”不只是相关性(或任何类型的关联)?另见本我相关的问题:stats.stackexchange.com/questions/399671/...
马科维茨

@markowitz严格地说,“相关”是指二元随机变量的第二矩。我在广义上使用“相关”,即“不(统计上)独立”。
ub

我知道,正是因为这个原因,我说“或任何类型的[仅统计]关联”。我是否可以重复我的问题:但是,这种“关系”是否比关联更重要?从有时称为DGP的同义词的“真实模型”的概念开始,似乎还有更多。如果是这样,我不知道它到底是什么。我以前的链接举了一个例子。
markowitz

@markowitz恐怕我不明白您要问的问题。那可能是因为我不确定您所说的“关系”或“关联”到底是什么意思。我确实看过您的链接,但是不寻常的英语用法对我来说没有任何意义。

我的英语不好意思。我试图从更清晰的意义上修改链接的问题。我希望这是可以理解的。
markowitz

4

DGP是真正的模型。该模型是我们试图使用自己的最佳技能来代表自然的真实状态的模型。DGP受“噪声”影响。噪声可以有多种:

  1. 一次干预
  2. 电平转换
  3. 发展趋势
  4. 季节性变化
  5. 模型参数的变化
  6. 方差变化

如果您不控制这6个项目,那么识别真实DGP的能力就会降低。


4

Whuber的回答很好,但是值得强调的事实是,统计模型不必在各个方面都类似于数据生成模型,而是可以用作推理数据的合适模型。Liu和Meng在最近的论文(http://arxiv.org/abs/1510.08539)中非常清楚地解释了这一点:

误解1.概率模型必须描述数据的生成。

对模型工作的更恰当的描述(推断)是“这样,这种概率模式产生的数据在重要方面类似于我们的数据。”要创建蒙娜丽莎的副本(即控件),不需要带达芬奇恢复活力-相机和打印机足以满足大多数用途。当然,对达芬奇绘画风格的了解将提高复制品的质量,就像对真实数据生成过程的科学了解有助于我们设计更有意义的控件一样。但是出于不确定性量化的目的,我们模型的工作是指定一组类似于(D,θ)。在涉及计算机实验的应用程序中,用概率模式来描述遵循已知(但非常复杂)的确定性模式的数据,这一点最清楚的地方(Kennedy和O'Hagan,2001; Conti等,2009)。我们需要一个描述性模型,而不一定是一个生成模型。有关这一点的更多信息,请参见莱曼(1990),布雷曼(2001)和汉森和于(2001)。


+1。我特别喜欢描述性生成性数据模型之间的区别。
ub

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.