创建综合数据集的一些标准做法是什么?


26

作为上下文:当处理非常大的数据集时,有时会问我们是否可以创建一个综合数据集,以“了解”预测变量与响应变量之间的关系,或预测变量之间的关系。

多年来,我似乎遇到了一次性的综合数据集(看起来像是临时创建的),或者遇到了结构化的数据集,这些数据集特别适合研究人员提出的建模方法。

我相信我正在寻找创建综合数据集的标准方法。尽管引导重采样是创建综合数据集的一种常用方法,但它不满足我们 先验知道结构的条件。此外,与其他交换引导程序样本本质上需要交换数据,而不是数据生成方法。

如果我们可以将参数分布拟合到数据中,或者找到足够接近的参数化模型,那么这就是我们可以生成综合数据集的一个示例。

还有什么其他方法?我对高维数据,稀疏数据和时间序列数据特别感兴趣。对于高维数据,我将寻找可以生成感兴趣的结构(例如协方差结构,线性模型,树等)的方法。对于时间序列数据,来自FFT,AR模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,再现稀疏模式似乎很有用。

我相信这些只是表面上的内容-这些是启发式的,不是正式的做法。是否有参考或资源来生成从业人员应了解的综合数据?


注意1:我意识到这个问题是针对文献的,该文献如何像一个特定的时间序列模型那样生成数据。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,不必像已知结构一样具有相似性,尽管相似性比不相似性更受重视。模型显示有希望的奇特的综合数据集比现实的模拟更受青睐。

注2:维基百科关于综合数据的条目指出,鲁宾和费恩伯格等名人已经解决了这个问题,尽管我没有找到最佳实践的参考。知道诸如《应用统计年鉴》(或《 AOS》)或这些或其他期刊的评论工作将使哪些事情通过会很有趣。用简单而异想天开的术语,人们可能会问,“(可以接受)煮熟”和“煮得太熟”之间的界限在哪里存在?

注3:尽管它不会影响问题,但使用场景是对各种大型,高维数据集进行建模,其中研究议程学习(通过人和机器;-)数据的结构。与单变量,双变量和其他低维方案不同,该结构不容易推断。随着我们对结构的深入了解,能够生成具有相似属性的数据集是很重要的,以便了解建模方法如何与数据交互(例如,检查参数稳定性)。但是,有关低维合成数据的较旧指南可能是一个起点,可以扩展或适用于高维数据集。

Answers:


7

我不知道有用于生成合成数据的标准做法-它的使用如此巨资的研究,使许多不同的方面是特制的数据似乎是比较常见的,可以说是比较合理的做法。

对我来说,我的最佳标准做法是制作数据集,因此它可以与模型很好地配合使用。那是研究阶段的一部分,而不是数据生成阶段的一部分。相反,应将数据设计为反映数据生成过程。例如,对于流行病学的模拟研究,我总是从一个已知分布的大假设种群开始,然后从该种群模拟研究样本,而不是直接生成“研究种群”。

例如,根据下面的讨论,我制作了两个模拟数据示例:

  • 类似于下面的SIR模型示例,我曾经使用疾病在网络上传播的数学模型通过仿真向自己展示,如果将结果视为结果,则特定的恒定参数不一定意味着恒定的危害。队列研究 当我去寻找分析解决方案时,这是一个有用的概念证明。
  • 我想探讨某种抽样方案对案例对照研究的影响。我没有尝试直接进行研究,而是完成了该过程的每个步骤。人口为1,000,000,具有已知的疾病患病率和已知的协变量模式。然后,通过模拟采样过程-在这种情况下,如何从总体中抽取病例和对照。只有到那时,我才在收集的“模拟研究”中投入实际的统计模型。

在检查研究募集方法,控制协变量的统计方法等的影响时,类似后者的模拟非常普遍。


谢谢回答。但是,根据我对流行病学的了解,在开发相当有用的随机模型(尤其是SIR模型)方面已经做了很多工作。在许多其他领域中,情况并非如此,尽管快速开发可接受的随机数据模型是我的意图之一。
Iterator

@Iterator在很大程度上取决于您所在的位置以及您所谈论的流行病学的哪个方面。例如,一位癌症流行病学家可能会震惊地得知,SIR模型已经完成了“更多工作”,而他们在工作中可能从未遇到过。尽管SIR型模型是流行病学特定部分(传染病的流行病,甚至是ID Epi 的很大一部分)的一个方面,但流行病学作为一个领域却大量使用了统计模型,特别是通用线性模型,生存率分析和时间序列。
Fomite

哇 我无意冒犯,我只说过SIR模型是标准数据生成模型的一个很好的例子。当然,我知道Epi的其他领域也使用了各种建模方法。如果您对流行病学中使用的其他数据生成方法有一些指示或参考,那么我对他们很开放。
Iterator

1
@Iterator对不起,如果我给人以冒犯我的印象。非常不是;)。这是我得到的,因为我坐在数学流行病与观察流行病学之间的交汇处,而一个地区的人们对另一个地区的存在感到震惊。我将使用非SIR类型的示例来编辑答案。
Fomite

2

R统计软件包具有一个模拟功能,它将基于适合现有数据的模型来模拟数据。这将拟合的模型用作“已知”总体关系,然后基于该模型模拟新数据。lme4软件包中提供了用于此功能的方法。这些拟合对象可以考虑随机和固定效果以及相关性(包括时间序列的自相关)。

这可能会做您想要的。


谢谢你的建议。尽管我的兴趣更多地集中在统计实践和方法论上,而不是针对特定的解决方案进行编码,但此功能当然很有用。这类似于询问采样方法或可再现分析,而不是询问实现所述方法和分析的特定程序包。但是,好的方法应该成为包。:)
Iterator
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.