计数标准误


14

我有按罕见疾病季节划分的事件案例数据集。例如,假设春季有180例,夏季有90例,秋季有45例,冬季有210例。我正在努力将标准错误附加到这些数字上是否合适。就我们正在寻找将来可能再次发生的疾病发病率的季节性模式而言,研究目标具有推论性。因此,直观地感觉到应该有可能将不确定性的度量附加到总数上。但是,我不确定在这种情况下如何计算标准误,因为我们处理的是简单的计数而不是均值或比例。

最后,答案是否取决于数据代表病例总数(曾经发生过的每个病例)还是随机样本?如果我没记错的话,由于没有推断,通常用人口统计数据来表示标准错误是没有意义的。


计数只是未归一化的比例,因此您可以计算st。比例误差,如果对您有意义,则将其“归一化”为计数单位。你说的没错 错误仅适用于样本。在人口方面,没有错误。
ttnphns 2012年

Answers:


14

人口是所有有患病风险的人(假设)的集合。通常,它由居住在研究区域内的所有人员(或一些可明确标识的人群)组成。明确定义此总体非常重要,因为它是研究的目标,也是从数据得出的所有推论的目标。

如果疾病病例是独立的(当疾病不易于在人与人之间传播且不是由当地环境条件引起的时候,这可能是一个合理的假设)并且很罕见,则计数应严格遵循泊松分布。对于这种分布,对其标准偏差的一个很好的估计是计数的平方根

180904521013.49.56.714.5事件中,一个季节内观察到的实际疾病数量将与实际比率有所不同。真实(但未知!)速率的平方根量化了可能发生的变化量。因为观察到的计数应该接近真实利率,所以它们的平方根应该是真实利率平方根的合理代理。这些代理正是“标准错误”的含义。

1657714.577

920105234.53.22.24.894028.52044

这些有限的数据可以做到这一点。这些简单的计算表明:

  • 表征人口至关重要

  • 计数的平方根是评估其标准误差的粗略起点,

  • 平方根必须乘以(大致)乘以某种因素,以反映疾病病例中缺乏独立性(并且该因素大约与疾病簇的大小有关),

  • 这些计数之间的差异主要反映了疾病率随时间的变化,而不是不确定性(关于潜在的泊松强度)。


1
非常周到,彻底的回答!非常感谢。
半点通过

2

当我问“什么是标准错误?”时,我并不是很滑稽。您可以取这四个数字的平均值,然后可以计算该平均值的标准误差。如果您认为您有理由将这4个季节视为可以概括的所有4个季节的集合的代表,那么该统计数据以及由此产生的置信区间就很有意义。在如此合理的程度上,您拥有的数据确实是总体的随机样本。您提到的抽样将需要附加一层抽样-您可以将其称为集群抽样,其中每年构成一个集群。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.