汇总中保留哪些统计信息?


12

如果我们有一个较长的高分辨率时间序列,并且有很多杂讯,通常有必要将数据聚合为较低的分辨率(例如,从每日到每月的值),以更好地了解正在发生的事情,从而有效地去除一些噪音。

我已经看过至少一篇论文,然后将一些统计信息应用于汇总数据,包括对单独变量进行线性回归的。那有效吗?我本来以为,由于降低了噪声,平均过程会稍微修改结果。r2

通常,是否可以将某些统计信息应用于汇总的时间序列数据,而其他统计信息则不能?如果是这样,哪个?是线性组合的,也许吗?


相关,见生态谬误
Andy W

1
关于@cbeleites的评论,我认为这里有一个理论上的答案-您的建议是保留线性组合。但是,在实际应用中,很难对一种方法的有效性做出一般性结论,因此需要一个具体的例子。
乔纳森

Answers:


6

我认为标题中的问题范围太广,无法以有用的方式回答,因此问题可能更多地取决于汇总方法和相关统计信息。

  • 这甚至适用于“均值”:您是要保留信号的形状和强度(例如Savitzky-Golay滤波器),还是要保留信号下方的区域(例如黄土)?

  • 与噪声有关的统计信息显然受到影响:通常这是聚合的目的

我看过至少一篇论文,然后将一些统计信息应用于汇总数据[...]是有效的吗?我本来以为,由于降低了噪声,平均过程会稍微修改结果。

这种修改很可能是聚合的目的

通常,您可以对数据做很多事情,但是您需要

  • 说出自己在做什么(最好也说明为什么这样做)
  • 显示结果模型的质量(使用独立数据进行测试)

什么是有效聚合还取决于您的应用程序。
例如:我正在处理光谱数据。将单个光谱汇总为平均光谱是非常普遍的:测量过程意味着我可以“一次性”获得光谱质量的某些限制。但是,对于许多应用程序,指定一个采集程序(总是应进行重复测量并取平均值)是完全有效的。另一方面,如果应用程序是实时/ 在线或在线分析,例如FIA(流量注入分析),则意味着对可能的聚合方案进行了限制。n


5

在回归设置中,您实际上可以测试简单聚合是否是正确的选择。假设您有每月数据和每日数据(一个月中固定的天)。假设您对回归感兴趣:YtXτm

Yt=α+βX¯t+ut,(1)

其中

X¯t=1mh=0m1Xtmh.

在这里,我们假设每个月的每日观测。在这种情况下,我们假设每天的体重相同,这显然是一个限制。因此,我们可以假设更通用的模型成立:tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

Xt(w)=h=1m1whXtmh.

有很多文章探讨了不同可能选择。对于某些依赖于参数函数,通常假设。这种类型的回归模型称为MIDAS(混合DAta采样)回归。瓦特ħ = ħ α αwhwh=g(h,α)gα

模型(2)嵌套了模型(1),因此可以检验的假设。本文中提出了一个这样的测试(我是作者之一,对这个无耻的插件感到抱歉,我也写了一个R包midasr来估计和测试实现该测试的MIDAS回归)。wh=1m

在非回归设置中,有结果表明,聚合可以更改时间序列的属性。例如,如果聚合具有短期记忆的AR(1)进程(当时间序列的两个观测值之间的距离增加时,它们之间的相关性就会迅速消失),则可以获得具有长期记忆的进程。

因此,总而言之,答案是将统计数据应用于汇总数据的有效性是一个统计问题。根据模型,您可以构造一个假设,不管它是否有效。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.