作为上下文:当处理非常大的数据集时,有时会问我们是否可以创建一个综合数据集,以“了解”预测变量与响应变量之间的关系,或预测变量之间的关系。
多年来,我似乎遇到了一次性的综合数据集(看起来像是临时创建的),或者遇到了结构化的数据集,这些数据集特别适合研究人员提出的建模方法。
我相信我正在寻找创建综合数据集的标准方法。尽管引导重采样是创建综合数据集的一种常用方法,但它不满足我们 先验知道结构的条件。此外,与其他交换引导程序样本本质上需要交换数据,而不是数据生成方法。
如果我们可以将参数分布拟合到数据中,或者找到足够接近的参数化模型,那么这就是我们可以生成综合数据集的一个示例。
还有什么其他方法?我对高维数据,稀疏数据和时间序列数据特别感兴趣。对于高维数据,我将寻找可以生成感兴趣的结构(例如协方差结构,线性模型,树等)的方法。对于时间序列数据,来自FFT,AR模型或各种其他过滤或预测模型的分布似乎是一个开始。对于稀疏数据,再现稀疏模式似乎很有用。
我相信这些只是表面上的内容-这些是启发式的,不是正式的做法。是否有参考或资源来生成从业人员应了解的综合数据?
注意1:我意识到这个问题是针对文献的,该文献如何像一个特定的时间序列模型那样生成数据。这里的区别在于实践,特别是为了指示已知结构(我的问题),而不是与现有数据集的相似性/保真度。在我的情况下,不必像已知结构一样具有相似性,尽管相似性比不相似性更受重视。模型显示有希望的奇特的综合数据集比现实的模拟更受青睐。
注2:维基百科关于综合数据的条目指出,鲁宾和费恩伯格等名人已经解决了这个问题,尽管我没有找到最佳实践的参考。知道诸如《应用统计年鉴》(或《 AOS》)或这些或其他期刊的评论工作将使哪些事情通过会很有趣。用简单而异想天开的术语,人们可能会问,“(可以接受)煮熟”和“煮得太熟”之间的界限在哪里存在?
注3:尽管它不会影响问题,但使用场景是对各种大型,高维数据集进行建模,其中研究议程是学习(通过人和机器;-)数据的结构。与单变量,双变量和其他低维方案不同,该结构不容易推断。随着我们对结构的深入了解,能够生成具有相似属性的数据集是很重要的,以便了解建模方法如何与数据交互(例如,检查参数稳定性)。但是,有关低维合成数据的较旧指南可能是一个起点,可以扩展或适用于高维数据集。