“合并数据”到底意味着什么?


16

我认为,“合并数据”只是意味着将以前划分为多个类别的数据进行合并……实质上是忽略类别,并使数据集成为一个巨大的数据“合并”。我想这更多是关于术语的问题,而不是统计学的应用。

例如:我想比较两个站点,并且在每个站点中,我有两种年份类型(好和差)。如果我想比较两个站点的“整体”(即忽略年份类型),那么说我在每个站点内汇总数据是否正确?除此之外,由于数年的数据包含好和坏的年份类型,所以说我将数据汇总到不同年份以实现每个站点内的“好年”和“差年”数据集是否正确呢?谢谢你的帮助!猫

Answers:


13

是的,您的例子是正确的。

牛津英语词典将pool定义为:

游泳池

(ː)

1.1反。投入将普通股或基金按照协议分配;为共同利益而合并(资本或权益);规格 竞争的铁路公司等的信息:共享或划分(交通或收据)。

另一个示例是:

您测量男性和女性中X物质的血液水平。您看不到两组之间的统计差异,因此可以将数据汇总在一起,而忽略了实验对象的性别。

这样做在统计上是否正确,在很大程度上取决于具体情况。


12

池化可以指合并数据,但也可以指合并信息而不是原始数据。合并的最常见用途之一是估计方差。如果我们认为2个总体具有相同的方差,但均值不必相同,则可以从2组样本中计算2个方差的估计值,然后将它们合并(采用加权平均值)以得到1个估计值。共同方差。我们不会从组合数据中计算出一个方差估计值,因为如果均值不相等,则会使方差估计值膨胀。


谢谢@Greg。为了弄清楚(因为我也在尝试结合文献中的方差),您要说的是要获得多个总体的“平均”方差,我可以采用计算出的方差的加权平均值?我将如何加权这些差异?每个人口都不等于1吗?
莫格

如果样本数量相等,则简单平均值趋于起作用。通常,我们给每个数据点相等的权重,标准公式是将每个方差乘以自由度(或n组中分母中的数字n-1),然后将所有部分相加,然后除以自由度(所有n_i-1)。
格雷格·斯诺
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.