统计和大数据 hypothesis-testing

4

您如何对大数据进行假设检验？我写了以下MATLAB脚本来强调我的困惑。它所做的只是生成两个随机序列，并对另一个变量进行简单的线性回归。它使用不同的随机值多次执行此回归，并报告平均值。趋向于发生的是，随着我增加样本数量，平均p值变得很小。我知道，由于测试的功效随样本数量的增加而增加，因此，给定足够大的样本，即使使用随机数据，p值也将变得足够小，以拒绝任何假设检验。我四处询问，有人说，“大数据”对效果大小的影响更为重要。测试是否显着并且影响足够大，我们需要关注。这是因为在大样本的p值将挑选的非常小的差异时，就像是解释在这里。但是，效果大小可以通过缩放数据来确定。在下面，我将解释变量缩放到足够小的大小，从而在给定足够大的样本量的情况下，它对因变量产生了重大影响。所以我想知道，如果存在这些问题，我们如何从大数据中获得任何见解？ %make average %decide from how many values to make average obs_inside_average = 100; %make average counter average_count = 1; for average_i = 1:obs_inside_average, %do regression loop %number of observations n = 1000; %first independent variable (constant term) x(1:10,1) = 1; %create dependent variable and the one …

12 hypothesis-testing large-data

1

检验vs检验？

我正试图弄清楚检验和检验之间的区别。Ťttžzz 据我所知，对于这两种测试，都使用相同的测试统计量，其形式如下 b^− CSEˆ（b^）b^-CSE^（b^）\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} 其中是一些样本统计信息，是某个参考（位置）常量（取决于测试的详细信息），而是标准错误。b^b^\hat{b}CCCSEˆ（b^）SE^（b^）\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} 那么，这两类测试之间的唯一区别是，在检验的情况下，上面的检验统计量遵循（对于某些样本确定的自由度），而在检验，相同的检验统计量遵循标准正态分布。（这反过来表明，选择检验还是检验取决于样本是否足够大。）ŤŤtŤŤtdddžžzñ（0 ，1 ）ñ（0，1个）\mathcal{N}(0, 1)žžzŤŤt 这个对吗？

12 hypothesis-testing t-test small-sample

4

有哪些标准的统计检验来查看数据是否遵循指数分布或正态分布？

12 distributions hypothesis-testing normal-distribution

6

解释R的ur.df（Dickey-Fuller单位根测试）结果

我正在使用软件包中的ur.df()功能在时间序列上运行以下单位根测试（Dickey-Fuller）urca。该命令是： summary(ur.df(d.Aus, type = "drift", 6)) 输出为： ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

12 r time-series hypothesis-testing unit-root

3

为什么用于贝叶斯因子和p值的临界值如此不同？

我想了解贝叶斯因子（BF）。我相信它们就像两个假设的似然比。因此，如果BF为5，则意味着H1的可能性是H0的5倍。值3-10表示中度证据，而值> 10表示有力证据。但是，对于P值，传统上将0.05作为截止值。在此P值下，H1 / H0似然比应约为95/5或19。那么，为什么BF的截止值> 3，而P值的截止值> 19？这些值也不是很接近。

11 hypothesis-testing bayesian p-value bayes-factors

2

有没有非常低的功效的“深奥”统计检验？

背景在计算机科学，数学以及某些其他领域，“深奥”的例子不仅很有趣，而且有助于说明某些概念，例如： Bogosort和Slowsort是效率很低的排序算法，可用于了解算法的属性，特别是与其他排序算法相比时。神秘的编程语言证明了编程语言的概念具有深远的意义，并有助于欣赏优质的编程语言。该魏尔斯特拉斯函数和狄氏功能主要发现使用说明关于连续性的概念，某些误解。我目前正在准备一些有关使用假设检验的教学方法，并认为以极低的功效（但没有其他缺陷）进行检验将有助于说明统计功效的概念。（当然，我仍然必须自己决定一个给定的例子对我的听众是否有教益或仅仅是令人困惑。）实际问题是否有任何故意降低功耗的统计测试，更具体地说：该检验符合假设检验的一般框架，即，它适用于原假设，具有要求并返回（正确的）p 值。它不打算/不建议用于严重的应用。它具有非常低的功率（由于故意的设计缺陷，而不是由于样本或效应量较小）。如果您可以从根本上说不存在这样的测试，我也将认为这是对我的问题的有效答案。另一方面，如果存在大量这样的测试，那么我对教学上最有效的测试感兴趣，也就是说，它应该易于获得并且具有惊人的效果。请注意，我并不是要对统计错误（樱桃采摘等）或类似情况进行一般选择。我到目前为止发现的互联网搜索对我没有任何回报。每次构建这样的东西的尝试都以某种（有用的）现有测试或格式不是常规测试而告终。例如，我考虑过一个检验，如果总体样本中位数为正，则总体中位数是否为正，则仅返回是。但是该测试不会返回p 值，因此不适合通常的测试框架。如果仅将正负号作为测试统计量（并相应地计算p 值），那么我最终会进行正负号test，这是一个合理的测试。

11 hypothesis-testing teaching humor

5

置信区间有用吗？

在常客统计中，置信区间为95％是一个区间生成过程，如果重复无数次，则95％的时间将包含真实参数。为什么这有用？置信区间常常被误解。它们不是我们可以95％确定参数所在的间隔（除非您使用的是类似的贝叶斯可信度间隔）。置信区间对我来说就像个诱饵和开关。我可以想到的一个用例是提供不能拒绝参数为该值的原假设的值范围。p值不能提供此信息，但是更好吗？不会这么误导？简而言之：为什么我们需要置信区间？如果正确解释，它们如何有用？

11 hypothesis-testing bayesian mathematical-statistics confidence-interval frequentist

5

为什么我们拒绝0.05级而不是0.5级的原假设（就像我们在分类中所做的那样）

假设检验类似于分类问题。可以这么说，对于观察（主题），我们有2个可能的标签-有罪与无罪。令“非罪”为原假设。如果我们从分类的观点来看问题，我们将训练一个分类器，该分类器在给定数据的情况下预测受试者属于这两个分类中的每一个的概率。然后，我们将选择概率最高的类别。在那种情况下，0.5的概率将是自然阈值。如果我们将不同的成本分配给误报与误报错误，我们可能会更改阈值。但是很少有我们会极端地将阈值设置为0.05，即仅在概率为0.95或更高的情况下才将主体分配为“有罪”类别。但是如果我了解得很好，当我们将相同的问题视为假设检验的问题时，这就是我们作为标准实践所做的事情。在后一种情况下，仅当“非罪犯”的概率小于5％时，我们才不会分配标签“非罪犯”（等同于分配标签“有罪”）。如果我们真正想避免对无辜者定罪，也许这可能是有道理的。但是，为什么在所有领域和所有情况下都应遵循此规则？确定采用哪种假设等同于在给定数据的情况下定义真相的估计量。在最大似然估计中，我们接受给定数据的可能性更高的假设-尽管绝对可能性更大，但不一定。参见下图：如果预测变量的值大于3（例如4），则使用最大似然方法在此示例中我们会偏爱替代假设，尽管从零假设得出该值的可能性将大于0.05。虽然我开始撰写该帖子的示例可能会引起感慨，但我们可以想到其他情况，例如技术改进。当数据告诉我们新解决方案是一种改进的可能性大于非新解决方案的可能性时，为什么要对状态现状给予这样的优势？

11 probability hypothesis-testing classification p-value

3

贝叶斯参数估计还是贝叶斯假设检验？

对于我们应该进行贝叶斯参数估计还是贝叶斯假设检验，贝叶斯社区内部似乎正在进行辩论。我有兴趣征求对此的意见。这些方法的相对优点和缺点是什么？在哪一种情况下比另一种情况更合适？我们应该同时进行参数估计和假设检验吗？

11 hypothesis-testing bayesian

2

使用ANOVA而不是t检验来比较两个均值是错误的吗？

我有薪水分配，我想比较男性和女性在收入上的差异。我知道有用于比较两种均值的学生T检验，但在建议ANOVA之后，我收到了一些批评，说ANOVA用于比较两种以上均值。使用它仅比较两个均值有什么错误（如果有的话）？

11 hypothesis-testing anova t-test

1

如何测试交叉协方差矩阵是否为非零？

我的研究背景：在吉布斯采样中，我们分别从P（X | Y）和P（Y | X）采样（感兴趣的变量）和，其中X和Y是k维随机向量。我们知道该过程通常分为两个阶段：XXXYYYP(X|Y)P(X|Y)P(X|Y)P(Y|X)P(Y|X)P(Y|X)XXXYYYkkk 老化期，我们丢弃所有样品。将样本表示为X1∼XtX1∼XtX_1\sim X_t和Y1∼YtY1∼YtY_1\sim Y_t。 “后烙印”时期，我们将样本\ bar {X} = \ frac {1} {k} \ sum_ {i = 1} ^ k X_ {t + i}平均X¯=1k∑ki=1Xt+iX¯=1k∑i=1kXt+i\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i}作为最终期望的结果。但是，“预烧”序列Xt+1∼Xt+kXt+1∼Xt+kX_{t+1}\sim X_{t+k}中的样本并不是独立分布的。因此，如果我要检查最终结果的方差，它将变为 Var[X¯]=Var[∑i=1kXt+i]=1k2(∑i=1kVar[Xt+i]+∑i=1k−1∑j=i+1kCov[Xt+i,Xt+j])Var⁡[X¯]=Var⁡[∑i=1kXt+i]=1k2(∑i=1kVar⁡[Xt+i]+∑i=1k−1∑j=i+1kCov⁡[Xt+i,Xt+j])\operatorname{Var}[\bar{X}] = \operatorname{Var}\left[\sum_{i=1}^k X_{t+i}\right] = \frac{1}{k^2}\left(\sum_{i=1}^k\operatorname{Var}[X_{t+i}] + \sum_{i=1}^{k-1} \sum_{j=i+1}^k \operatorname{Cov}[X_{t+i},X_{t+j}]\right) 这里，术语Cov[Xt+i,Xt+j]Cov⁡[Xt+i,Xt+j]\operatorname{Cov}[X_{t+i},X_{t+j}]是一个k×kk×kk\times k的互协方差矩阵适用于任何(i,j)(i,j)(i,j)与i<ji<ji<j。例如，我有 Xt + 1= （1 …

11 hypothesis-testing covariance covariance-matrix gibbs

2

p值的两个定义：如何证明它们的等价性？

我正在阅读拉里·瓦瑟曼（Larry Wasserman）的《所有统计》一书，目前正在阅读有关p值的信息（第187页）。首先让我介绍一些定义（我引用）：定义1的拒绝区域中的试验的幂函数RRR由下式定义 β(θ)=Pθ(X∈R)β(θ)=Pθ(X∈R)\beta(\theta)=P_{\theta}(X\in R) 的测试的大小被定义为如果测试的大小小于或等于\ alpha，则称该测试具有\ alpha级别。α=supθ∈Θ0β(θ)α=supθ∈Θ0β(θ)\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)αα\alphaαα\alpha 这基本上说αα\alpha，大小是类型I的错误的“最大”概率。然后通过（I quote）定义ppp值。定义2假设对于每个α∈(0,1)α∈(0,1)\alpha\in(0,1)我们都有一个带有拒绝区域R_ \ alpha的大小αα\alpha测试。然后， p \ text {-value} = \ inf \ {\ alpha：T（X ^ n）\ in R_ \ alpha \} 其中X ^ n =（X_1，\ dots，X_n）。RαRαR_\alphap-value=inf{α:T(Xn)∈Rα}p-value=inf{α:T(Xn)∈Rα}p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}Xn=(X1,…,Xn)Xn=(X1,…,Xn)X^n=(X_1,\dots,X_n) 对我来说，这意味着：给定特定的αα\alpha有一个测试和拒绝区域RαRαR_\alpha以便α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)。对于ppp值，我只需取所有\ alpha中的最小值即可αα\alpha。问题1如果是这种情况，那么对于任意小的，我可以清楚地选择。我对定义2的错误解释是什么，即它的确切含义是什么？εα=ϵα=ϵ\alpha = \epsilonϵϵ\epsilon 现在，Wasserman连续并陈述了一个定理，以具有我所熟悉的值的“等效”定义（我引用）：ppp 定理假设大小检验的形式为然后，其中，是的观测值。拒绝 H …

11 hypothesis-testing mathematical-statistics p-value

1

似然比检验的“理想”统计特性是什么？

我正在阅读一篇文章，其方法完全基于似然比检验。作者说，针对单方面选择的LR测试是UMP。他继续声称 “ ...即使无法证明[LR测试]的功能最强大，LR测试通常也具有理想的统计特性。“ 我想知道这里的统计属性是什么意思。鉴于作者提到的是顺带一提，我认为它们是统计学家中的常识。到目前为止，我设法找到的唯一理想的属性是（在某些规则性条件下）的渐近卡方分布，其中是LR比率。λλ− 2 日志λ−2log⁡λ-2 \log \lambdaλλ\lambda 我还要感谢对经典文本的引用，在该文本中可以阅读有关这些所需属性的信息。

11 hypothesis-testing power-analysis power likelihood-ratio neyman-pearson-lemma

2

按家庭划分的错误界限：重用关于独立问题的不同研究的数据集是否会导致多个测试问题？

如果一组研究人员对给定的数据集执行多项（假设）检验，则有大量文献断言，即使检验是独立的，他们也应使用某种形式的校正进行多重检验（Bonferroni等）。我的问题是：这种逻辑是否适用于多个团队在同一数据集上测试假设？换句话说，家庭误差计算的障碍是什么？研究人员应该被限制为仅将数据集用于勘探吗？

11 hypothesis-testing multiple-comparisons

1

整体p值和成对p值？

我已经拟合了通用线性模型其对数似然为。大号ùy=β0+β1x1+β2x2+β3x3,y=β0+β1x1+β2x2+β3x3,y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,LuLuL_u 现在，我想测试系数是否相同。首先，整体测试：简化模型对数似然为。通过似然比检验，完整模型明显优于简化模型（。大号- [R p = 0.02y=β0+β1⋅(x1+x2+x3)y=β0+β1⋅(x1+x2+x3)y=\beta_0+\beta_1\cdot(x_1+x_2+x_3)LrLrL_rp=0.02p=0.02p=0.02 接下来，β1=β2β1=β2\beta_1=\beta_2？简化模型为y=β0+β1⋅(x1+x2)+β2x3y=β0+β1⋅(x1+x2)+β2x3y=\beta_0+\beta_1\cdot(x_1+x_2)+\beta_2x_3。其结果是，β1β1\beta_1不是从不同β2β2\beta_2与p=0.15p=0.15p=0.15。同样，β1=β3β1=β3\beta_1=\beta_3吗？它们与p = 0.007不同p=0.007p=0.007p=0.007。最后，β2=β3β2=β3\beta_2=\beta_3吗？它们与p=0.12p=0.12p=0.12。这让我很困惑，因为我希望总体ppp小于0.0070.0070.007，因为显然β1=β2=β3β1=β2=β3\beta_1=\beta_2=\beta_3比β1=β3β1=β3\beta_1=\beta_3（生成p=0.007p=0.007p=0.007）要严格得多。也就是说，由于我已经“ 0.0070.0070.007确信” β1=β3β1=β3\beta_1=\beta_3不成立，因此我应该“更加确信” β1=β2=β3β1=β2=β3\beta_1=\beta_2=\beta_3不成立。所以我的ppp应该下降。我测试不正确吗？否则，我在上述推理中哪里错了？

11 hypothesis-testing

Questions tagged «hypothesis-testing»