从描述上讲,我将提供“如果某个数据样本中的某些观察值接受或构成了该样本的极值,但其真实值超出了所观察的样本范围,则该数据样本将被审查”。但这看似简单。
因此,让我们首先讨论如何得出数据集被审查的结论,这自然会导致我们讨论问题中提出的案例。
假设我们从离散随机变量获得以下数据集,对此我们唯一知道的是它不是负数:X
{0,1,1,2,2,2,2,2,2,2}
我们可以说数据集是经过审查的吗?好吧,我们有权认为可能如此,但不一定如此:
1)可具有范围{ 0 ,1 ,2 }和一概率分布{ 0.1 ,0.1 ,0.8 }。如果确实如此,那么这里似乎没有审查,只是来自这样一个随机变量的“预期”样本,具有有限的支持和高度不对称的分布。 X{0,1,2}{0.1,0.1,0.8}
2),但它可以是的情况下具有范围{ 0 ,1 ,。。。,9 }与均匀概率分布{ 0.1 ,0.1 ,。。.0 .1 },在这种情况下,我们的数据样本很可能会受到审查。 X{0,1,...,9}{0.1,0.1,...0.1}
我们怎么知道?除非我们拥有先验知识或信息,否则我们将不能使我们为一种或另一种情况辩护。问题中提出的三个案例是否代表了审查效果的先验知识?让我们来看看:
情况A)描述了一种情况,对于某些观察,我们仅获得定性信息,例如“非常大”,“非常小”等,这使我们为观察分配了极值。注意,仅仅不知道实际的实现值并不能证明分配一个极值。因此,我们必须掌握一些信息,以使这些观察的值超过或低于所有观察到的值。在这种情况下,随机变量的实际范围是未知的,但是我们的定性信息使我们可以创建一个经过审查的样本(这是关于为什么我们不只是舍弃我们没有实际实现价值的观察结果的另一种讨论)。
案例B)是没有审查的情况下,如果我理解正确,而是受污染样本的情况:我们的先验信息告诉我们,随机变量的最大值不能超过(一个物理定律或因发言权社会法-suppose这是从分级系统分级数据仅使用值1 ,2 ,3)。但是我们也观察到了值4和值5。怎么会这样?数据记录错误。但是在这种情况下,我们不确定4和5是否应全部为331,2,345453的(事实上,看着键盘侧的计算机的,它更可能的是, 's为1的与5 's为2的!)。通过以任何方式“校正”样本,我们都不会使其成为被检查样本,因为随机变量首先不应该位于已记录范围内(因此,没有为值4和5分配真正的概率))。 415245
情况C)是指联合样本,其中我们有因变量和预测变量。在这里,我们可能有一个样本,由于所研究现象的结构,因变量的值集中在一个或两个极端上:在“工作时间”通常的示例中,失业人员没有工作,但他们会起作用(请仔细考虑:此案例在此答案的开头是否真的属于描述性的“定义”?)。因此,将它们包括在记录的小时数为“零”的回归中会产生偏差。另一个极端是,认为可以达到的最大工作小时数为16/天,也许有些员工愿意为给定的薪水工作这么多员工。但是法律框架不允许这样做,因此我们没有遵守这种“工作时间”。在这里,我们试图估计“ 预期的劳动力供应函数”,并且就此变量而言,样本被表征为被审查。
但是,如果我们宣布要做的是估计“ 考虑到失业现象和法律框架的劳动力供给函数”,则该样本将不会受到审查,因为它将反映这两个方面的影响,这是我们想要的它要做。
因此,我们看到将数据样本表征为被检查的
a)可能来自不同的情况,
b)仅需要谨慎
就可以将其与截断的情况相混淆。