如何从大型整体数据集中制作具有代表性的样本集?


Answers:


8

如果您不想解析整个数据集,那么您可能不能使用分层抽样,因此我建议采取一个简单的大样本。通过随机抽样,您可以确保样本平均代表整个数据集,并且标准精度的标准统计量度(例如标准误差和置信区间)将告诉您样本估计值可能离总体值有多远因此,除非您确实担心某些问题是真正随机抽样的,否则没有必要真正验证样本是否代表总体。

一个简单的随机样本有多大?好吧,样本越大,您的估计就越精确。由于已经有了数据,传统的样本量计算实际上并不适用-您可能会使用尽可能多的数据集进行计算。除非您打算进行一些复杂的分析,而这将使计算时间成为问题,否则一种简单的方法将是使简单的随机样本尽可能大,可以在您的PC上进行分析而不会导致分页。或其他内存问题。一条经验法则将数据集的大小限制为不超过计算机RAM的一半,以便有空间进行操作,并为OS以及其他一些较小的应用程序(例如编辑器和Web浏览器)留出空间)。另一个限制是32位Windows操作系统不允许任何单个应用程序的地址空间大于字节= 2.1GB,因此,如果您使用的是32位Windows,则1GB可能是数据集大小的合理限制。231

然后,通过一些简单的算法就可以计算出给定每个观测值有多少个变量以及每个变量占用了多少个字节就可以采样多少个观测值。


感谢您的回答。我想我正在寻找分层抽样。(我一直在寻找的算法,这是不计算非常昂贵,不分析整个人口,使一批有代表性的,甚至是没有意义:-))
莫希特Ranka

2

首先要问第二个问题,您可能会问:“如何输入数据?” 如果您认为数据是以相对任意的方式输入的(即独立于观察结果的任何可观察或不可观察特征,而这些特征可能会影响使用该数据的最终分析),则可以考虑使用前500万您可以轻松地与许多人合作,作为完整样本的代表,并从该组中随机选择以创建可以使用的样本。

要比较两个经验分布,可以使用qq-plots和两个样本的Kolmogorov–Smirnov非参数检验来检验分布的差异(例如,请参见此处:http : //en.wikipedia.org/wiki/Kolmogorov%E2 %80%93Smirnov_test)。在这种情况下,您将对照“完整”数据集中该变量的分布来测试样本中每个变量的分布(同样,从完整样本中可能只有500万个观测值)。KS检验的功效可能很低(即很难拒绝两组之间没有差异的零假设),但是,有了这么多观察结果,您就可以了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.