审查数据到底是什么?


14

我已经阅读了审查数据的不同描述:

A)如线程中所述,审查低于或高于某个阈值的未量化数据。未量化表示数据高于或低于某个阈值,但我们不知道确切值。然后在回归模型中将数据标记为低阈值或高阈值。它与本演示文稿中的描述相符,我发现它很清楚(第一页的第二张幻灯片)。换句话说,因为我们不知道该范围之外的真实值,所以将Y限制为最小值,最大值或两者均设为上限。

B)一个朋友告诉我,只要我们至少有一些关于未知Y i结果的极限信息,我们就可以对部分未知的 Y观测值应用审查数据模型。例如,我们希望基于一些定性标准(商品类型,国家/地区,投标人的财富等)来估计无声拍卖和公开拍卖的最终价格。对于公开拍卖,我们知道所有最终价格Y i,对于无声拍卖,我们只知道第一个出价(例如$ 1,000),而不是最终价格。有人告诉我,在这种情况下,数据是从上方进行审查的,因此应采用审查后的回归模型。YiYi

C)最后是Wikipedia给出的定义,其中Y完全缺失,但预测变量可用。我不确定此示例与截断的数据有何不同。

那么,检查数据到底是什么呢?


6
有关Wikipedia的文章更相关,请访问en.wikipedia.org/wiki/Censoring_%28statistics%29。尽管不全面,但它至少描述了类型I和类型II审查,并确认了间隔审查以及左右审查。
ub

Answers:


8

考虑以下关于结果和协变量x的数据yx

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

对于用户1,我们拥有完整的数据。对于其他所有人,我们的数据不完整。用户2、3和4都经过审查:与协变量的已知值相对应的结果未观察到或未正确观察到(左,右和区间检查)。有时,这是调查设计中的隐私考虑因素。在其他时候,它是由于其他原因发生的。例如,我们没有观察到低于最低工资的任何工资,也没有观察到超出竞技场容量的对演唱会门票的实际需求。

用户5被截断:结果和协变量均缺失。这通常是因为我们只收集有关做某事的人的数据。举例来说,我们只买谁的东西调查人(),所以我们排除与任何人Ÿ = 0与他们一起X秒。尽管我们知道它们的存在是因为我们知道用于生成样本的规则,但我们甚至可能没有针对此类用户的行。另一个例子是偶然的截断:我们仅观察劳动力中的工资,因为我们假定工资是您工作时的工资。截断是偶然的,因为它不取决于yy>0y=0xy,但在另一个变量上。

简而言之,截短意味着比检查(点A和B)更大的信息丢失。这两种“缺失”都是系统的。

处理此类数据通常涉及对错误进行强有力的分布假设,并修改将其考虑在内的可能性。更灵活的半参数方法也是可能的。这在您的B点中是隐含的。


2
这个答案的两个方面使我感到困惑。首先,纯粹缺失的值不一定反映出截断。其次,检查的方式(“随机”与“信息性”)通常与检查的事实一样重要,这表明检查的意义远不只是记录间隔值数据。
ub

这是一个很好的例子。这是否意味着可以对每个应用不同的“检查限制” ?在这种情况下,我们如何制定模型?这将验证我在B)中的朋友声明。y
罗伯特·库布里克

1
如果你愿意承担同方差,正态分布的错误,可能可以这样写这个,你可以用MLE与特定的观察删失阈值。
Dimitriy V. Masterov 2014年

3
@Peter是不是(正确的)审查?当所有此类人员都被排除在样本之外而根本不计在内时,将发生截断。参见en.wikipedia.org/wiki/Truncation_(statistics)
whuber

1
@Peter您写的是“那么我们确实知道该人的BMI超过30”,这令人感到困惑:您怎么可能指的是样本中甚至没有的人(“未被计数”)?对形式为“ BMI> 30”的观察将进行审查,而将所有此类观察从分析中完全排除,即使它们可能存在于总体中也截断。 在后一种情况下,您只能说“ BMI大于30的人已从样本中排除”。
whuber

9

从描述上讲,我将提供“如果某个数据样本中的某些观察值接受或构成了该样本的极值,但其真实值超出了所观察的样本范围,则该数据样本将被审查”。但这看似简单。

因此,让我们首先讨论如何得出数据集被审查的结论,这自然会导致我们讨论问题中提出的案例。

假设我们从离散随机变量获得以下数据集,对此我们唯一知道的是它不是负数:X

{0,1,1,2,2,2,2,2,2,2}

我们可以说数据集是经过审查的吗?好吧,我们有权认为可能如此,但不一定如此:

1)可具有范围{ 0 1 2 }和一概率分布{ 0.1 0.1 0.8 }。如果确实如此,那么这里似乎没有审查,只是来自这样一个随机变量的“预期”样本,具有有限的支持和高度不对称的分布。 X{0,1,2}{0.1,0.1,0.8}

2),但它可以是的情况下具有范围{ 0 1 9 }与均匀概率分布{ 0.1 0.1 .0 .1 },在这种情况下,我们的数据样本很可能会受到审查。 X{0,1,...,9}{0.1,0.1,...0.1}

我们怎么知道?除非我们拥有先验知识或信息否则我们将不能使我们为一种或另一种情况辩护。问题中提出的三个案例是否代表了审查效果的先验知识?让我们来看看:

情况A)描述了一种情况,对于某些观察,我们仅获得定性信息,例如“非常大”,“非常小”等,这使我们为观察分配了极值。注意,仅仅不知道实际的实现值并不能证明分配一个极值。因此,我们必须掌握一些信息,以使这些观察的值超过或低于所有观察到的值。在这种情况下,随机变量的实际范围是未知的,但是我们的定性信息使我们可以创建一个经过审查的样本(这是关于为什么我们不只是舍弃我们没有实际实现价值的观察结果的另一种讨论)。

案例B)没有审查的情况下,如果我理解正确,而是受污染样本的情况:我们的先验信息告诉我们,随机变量的最大值不能超过(一个物理定律或因发言权社会法-suppose这是从分级系统分级数据仅使用值1 2 3)。但是我们也观察到了值4和值5。怎么会这样?数据记录错误。但是在这种情况下,我们不确定45是否应全部为331,2,345453的(事实上,看着键盘侧的计算机的,它更可能的是, 's为1的与5 's为2的!)。通过以任何方式“校正”样本,我们都不会使其成为被检查样本,因为随机变量首先不应该位于已记录范围内(因此,没有为值45分配真正的概率))。 415245

情况C)是指联合样本,其中我们有因变量和预测变量。在这里,我们可能有一个样本,由于所研究现象的结构,因变量的值集中在一个或两个极端上:在“工作时间”通常的示例中,失业人员没有工作,但他们会起作用(请仔细考虑:此案例在此答案的开头是否真的属于描述性的“定义”?)。因此,将它们包括在记录的小时数为“零”的回归中会产生偏差。另一个极端是,认为可以达到的最大工作小时数为16/天,也许有些员工愿意为给定的薪水工作这么多员工。但是法律框架不允许这样做,因此我们没有遵守这种“工作时间”。在这里,我们试图估计“ 预期的劳动力供应函数”,并且就此变量而言,样本被表征为被审查。
但是,如果我们宣布要做的是估计“ 考虑到失业现象和法律框架的劳动力供给函数”,则该样本将不会受到审查,因为它将反映这两个方面的影响,这是我们想要的它要做。

因此,我们看到将数据样本表征为被检查的
a)可能来自不同的情况,
b)仅需要谨慎
就可以将其与截断的情况相混淆。


6
这似乎是计量经济学的观点。请注意,在生物医学研究中,通常以持续时间(可能是生存时间)作为响应,并在观察期结束前对患者进行检查以使其没有经历过事件。还要让患者在观察期内退学或迷路。(也许他们移走了,失去了联系。)我们可以知道生存时间大于最后一次联系,但可能比观察期结束的时间短。
gung-恢复莫妮卡

情况B不是错误或受污染的数据。假设我们要根据一些定性标准(商品类型,国家/地区,投标人的财富...)来估计无声拍卖和公开拍卖的最终价格。对于无声拍卖,我们只知道第一个出价(例如$ 1,000),而不是最终价格。有人告诉我们可以使用某种形式的审查模型来使用无声拍卖数据。
罗伯特·库布里克

1
鉴于谁写了答案,@ gung当然是计量经济学的方法!
2014年

1
@RobertKunrick您所描述的与案例B不匹配。描述案例B的方式是,我们观察到一系列值,然后被告知实际上观察到的某些值是不可能的。这与拍卖示例如何匹配?
Alecos Papadopoulos 2014年

请不要批评@AlecosPapadopoulos。我认为没有任何不正确的地方。我只想指出,术语在不同领域中的用法有所不同,这不是stat / biostat的约定。
gung-恢复莫妮卡

2

对我来说,审查意味着我们观察到有关观测部分信息。我这个意思是说,而不是观察ž = ž ,我们观察ž 一个在那里一个是认识的一个,这是样本空间的一些随机粗化。我们可以想象,我们先选择一个分区一个的样本空间的ž,然后ž 产生,并且我们报告的一个一个这样ZiZi=ziZiaiaiAiAiZZiAiAi(等同于我们报道ž 为所有)。例如, Z i的无信息审查意味着 A i独立于 Z iZiAiI(ZiA)AAiZiAiZi

这有点启发和草率。我们也许应该还需要分配非简并考虑ž 审查。我们还可能注意到,按照定义,这是丢失数据的一般化,其中对于Z i = X iY i),如果a i = { x } × Y,则可能会说缺少Y i,其中Y[ZiZiai]ZiZi=(Xi,Yi)Yiai={x}×YY是的样本空间和说ž 缺少如果一个 = ž。当人们说“ Z i被审查”时,如果他们遵循我的定义,通常的意思是“ Z i被审查但没有丢失”。YZiai=ZZiZi


1

重要的是要区分审查截断缺失数据。

审查专门适用于生存分析和事件发生时间的问题,其中假定手头的事件发生在您停止观察那个人的那一点之后的某个时间。一个例子是男人与男人发生性行为(MSM),以及在前瞻性研究中移居并停止与研究协调员联系的艾滋病毒感染风险。

截断适用于连续变量,该变量求值到已知实际值大于或小于该点的特定点。一个例子是监测艾滋病病毒感染者和完全感染艾滋病的发展,将低于300的CD4细胞计数评估为检测下限300。

最后,丢失的数据是具有任何意义上都未观察到的实际值的数据。被检查的数据不会丢失事件时间数据,也不会被截断。


1
“截断”还有另一种用法:描述无法获得高于或低于临界值的观察值的数据生成过程。一个典型的例子是计数只能从鸡蛋中识别出的特定鸟类物种的巢中发现的卵数。空巢可能来自任何物种,所以没有。零是未知的。如果没有。卵遵循泊松分布,非空巢中的卵计数遵循截短的泊松分布。因此,截断会根据明确定义的特定机制生成丢失的数据。
Scortchi-恢复莫妮卡

1
……您的细胞计数数据确实是根据许多人对该术语的理解而审查的,该术语不限于事件发生时间的测量,因为您了解每个受试者的所有知识,除了他的细胞计数低于300之外。“截短”此处(或者“极值调整”)描述的分析方法,即低于300的值,好像他们是等于300的治疗
Scortchi -恢复莫妮卡

有关审查的生存分析概念的明确参考:itl.nist.gov/div898/handbook/apr/section1/apr131.htm
Eric O Lebigot

-1
  1. Censored: This is a term used to indicate that the period of observation was cut off before the event of interest occurred. So ''censored data'' indicate that the period of a particular event as not or never occurred

3
Welcome to the site. If this is copied from some source, please cite the source.
gung - Reinstate Monica

3
Censoring applies to much more than time-dependent observations. For instance, chemical concentrations measurements that are below the limit of detection are censored, too.
whuber

@whuber: May I offer a friendly amendment to that observation. The chemical concentrations that fall below the limit of detection are indeed censored, but since they cannot possibly be negative, analyses should consider them as truncated at zero. My own understanding of the truncation-censoring distinction is that truncation applies to the range of parameters that are possible for the underlying distribution.
DWin

@DWin感谢您的深思熟虑。我只能同意第一点。不过,在我分析过的绝大多数数据集中,有必要将浓度重新表达为对数,并且这种区别消失了。在减去背景的其他数据集中(例如放射测量),也没有明确的左端点。您的第二点让我感到与众不同:我从未见过“截断”曾经被用来指代发行家族的一个子集。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.