Answers:
尽管“技术模型”的技术定义会因学科而异,但我们都对“模型”的含义有很好的认识。为了将其与DGP进行比较,我首先查看了谷歌搜索“数据生成过程”中的前5个匹配项(其中两个匹配项是同一作者)。
一纸关于美国空军实际上是如何创建的后勤保障数据。
在环境与规划A中发表的一篇论文的摘要,内容涉及如何通过计算机“模拟模型”创建“合成的微种群”。
一个网页上的“合成数据的生成”; 也就是说,模拟“旨在探索某些数据特征对...模型的影响”。
数据挖掘会议论文摘要,他断言“数据库中的数据是基础数据生成过程(dgp)的结果”。
一书一章表征感兴趣的数据是“从某种变换而产生底层[随机]过程 ......部分或全部[其]可能是未观测到的......”
这些链接展示了术语“数据生成过程”的三种稍有不同但紧密相关的用法。最常见的是在统计模拟的情况下。其他指的是在进行中的情况下(物流)创建数据的实际方法,以及进行中的数据创建过程的概率模型,这些模型不打算直接进行分析。 在最后一种情况下,文本将无法观察的随机过程与将要分析的实际数字区分开来,尽管该过程是数学建模的。
这些表明存在两个稍有不同的答案是可行的:
在模拟或创建“合成”数据进行分析的情况下,“数据生成过程”是一种为后续研究生成数据的方法,通常是通过计算机的伪随机数生成器进行。分析将隐式采用某种模型来描述此DGP的数学特性。
在统计分析的上下文中,我们可能希望将真实世界的现象(DGP)与将要分析的观察结果区分开。我们模型的现象和观察,以及两个是如何连接的模型两者。
那么,在回归中,DGP通常会描述一组数据 =,假定。 例如,可以由实验者设置,也可以通过某种方式对其进行观察,然后推定为引起或与值相关。该模型将描述这些数据在数学上可能相关的可能方式;例如,我们可以说每个是一个期望的随机变量和方差对于未知参数和。
Whuber的回答很好,但是值得强调的事实是,统计模型不必在各个方面都类似于数据生成模型,而是可以用作推理数据的合适模型。Liu和Meng在最近的论文(http://arxiv.org/abs/1510.08539)中非常清楚地解释了这一点:
误解1.概率模型必须描述数据的生成。
对模型工作的更恰当的描述(推断)是“这样,这种概率模式产生的数据在重要方面类似于我们的数据。”要创建蒙娜丽莎的副本(即控件),不需要带达芬奇恢复活力-相机和打印机足以满足大多数用途。当然,对达芬奇绘画风格的了解将提高复制品的质量,就像对真实数据生成过程的科学了解有助于我们设计更有意义的控件一样。但是出于不确定性量化的目的,我们模型的工作是指定一组类似于(D,)。在涉及计算机实验的应用程序中,用概率模式来描述遵循已知(但非常复杂)的确定性模式的数据,这一点最清楚的地方(Kennedy和O'Hagan,2001; Conti等,2009)。我们需要一个描述性模型,而不一定是一个生成模型。有关这一点的更多信息,请参见莱曼(1990),布雷曼(2001)和汉森和于(2001)。
DGP是虚拟现实,是模拟的独特方法。模型是DGP或数据可能已生成的方式的集合。
阅读罗素·戴维森(Russell Davidson)撰写的此迷你课程的第一页:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf