4
大数据假设检验
您如何对大数据进行假设检验?我写了以下MATLAB脚本来强调我的困惑。它所做的只是生成两个随机序列,并对另一个变量进行简单的线性回归。它使用不同的随机值多次执行此回归,并报告平均值。趋向于发生的是,随着我增加样本数量,平均p值变得很小。 我知道,由于测试的功效随样本数量的增加而增加,因此,给定足够大的样本,即使使用随机数据,p值也将变得足够小,以拒绝任何假设检验。我四处询问,有人说,“大数据”对效果大小的影响更为重要。测试是否显着并且影响足够大,我们需要关注。这是因为在大样本的p值将挑选的非常小的差异时,就像是解释在这里。 但是,效果大小可以通过缩放数据来确定。在下面,我将解释变量缩放到足够小的大小,从而在给定足够大的样本量的情况下,它对因变量产生了重大影响。 所以我想知道,如果存在这些问题,我们如何从大数据中获得任何见解? %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, %do regression loop %number of observations n = 1000; %first independent variable (constant term) x(1:10,1) = 1; %create dependent variable and the one …