Questions tagged «assumptions»

指统计程序产生有效估计和/或推断的条件。例如,许多统计技术都要求假设数据是以某种方式随机抽样的。有关估计量的理论结果通常需要对数据生成机制进行假设。

6
逻辑回归的样本量?
我想从调查数据中建立一个物流模型。这是对四个住宅殖民地的小规模调查,仅对154名受访者进行了采访。我的因变量是“令人满意的工作过渡”。我发现,在154位受访者中,有73位表示他们已经令人满意地过渡到工作,而其余的则没有。因此,因变量本质上是二进制的,因此我决定使用逻辑回归。我有七个独立变量(三个连续变量和四个名义变量)。一项指南建议,每个预测变量/自变量应有10个案例(Agresti,2007年)。根据该指南,我认为可以进行逻辑回归。 我对吗?如果没有,请让我知道如何确定自变量的数量?

4
在R中检查假设lmer / lme混合模型
我进行了重复的设计,在三个不同的任务中测试了30位男性和30位女性。我想了解男性和女性的行为有何不同,以及如何取决于任务。我同时使用了lmer和lme4软件包对此进行了研究,但是,我坚持尝试检查两种方法的假设。我运行的代码是 lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 通过将其与没有交互的较简单模型进行比较并运行方差分析,我检查了交互是否是最佳模型: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) 问题1:可以在线性混合模型中使用这些分类预测变量吗? 问题2:我是否正确理解结果变量(“行为”)不需要本身正态分布(跨性别/任务)吗? 问题3:如何检查方差的均匀性?对于简单的线性模型,我使用plot(LM$fitted.values,rstandard(LM))。使用plot(reside(lm.base1))足够了吗? Q4:检查正常使用下面的代码好吗? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

5
当样本的分布为非正态分布时,独立样本的t检验有多强?
我已经读过,当样本的分布偏离正态分布时,t检验是“合理可靠的”。当然,重要的是差异的抽样分布。我有两组数据。这些组之一在因变量上有很大的偏差。两组的样本量都非常小(一组中n = 33,另一组中n = 45)。我是否应该假设在这些条件下,我的t检验对于违反正态性假设会很可靠?

5
线性模型的假设以及残差不是正态分布时的处理方法
我对线性回归的假设有些困惑。 到目前为止,我检查了是否: 所有的解释变量都与响应变量线性相关。(就是这种情况) 解释变量之间存在共线性。(几乎没有共线性)。 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。 残差是正态分布的。(事实并非如此) 但是我然后阅读以下内容: 经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。 问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗? 问题2 我的残差的QQ正态图如下所示: 这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设: > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差与拟合值看起来像: 如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?

4
相关性假设与显着性回归斜率检验之间的假设差异
我的问题来自与@whuber的讨论,涉及另一个问题的评论。 具体来说,@ whuber的评论如下: 您可能会感到惊讶的一个原因是,相关检验和回归斜率检验所基于的假设是不同的,因此,即使我们了解到相关性和斜率确实在衡量同一事物,为什么它们的p值也应该相同?这表明,与简单地确定和在数值上是否相等相比,这些问题要深得多。β[R[Rrββ\beta 这引起了我的思考,我遇到了许多有趣的答案。例如,我发现了这个问题“ 相关系数的假设 ”,但是看不到如何澄清上面的评论。 我在简单的线性回归中找到了有关Pearson的和斜率的关系的更有趣的答案(例如,请参见此处和此处),但它们似乎都没有回答@whuber在他的评论中所指的内容(至少不明显)。对我来说)。β[R[Rrββ\beta 问题1:相关性检验和回归斜率检验的假设是什么? 对于我的第二个问题,请考虑以下输出R: model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.3807 4.4224 1.895 …

2
为什么为了估计回归线,残差的正态“根本不重要”?
Gelman and Hill(2006)在第46页上写道: 通常最不重要的回归假设是误差呈正态分布。实际上,出于估计回归线的目的(与预测单个数据点相比),假设正态性一点也不重要。因此,与许多回归教科书相比,我们不建议对回归残差的正态性进行诊断。 盖尔曼和希尔似乎没有进一步解释这一点。 盖尔曼和希尔正确吗?如果是这样,则: 为什么“根本不重要”?为什么既不重要也不完全不相关? 为什么在预测单个数据点时残差的正态性很重要? Gelman,A.,&Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社

2
岭回归的假设是什么,以及如何对其进行检验?
考虑用于多元回归的标准模型,其中,因此误差的正态性,同和不相关性都成立。Y=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) 假设我们通过向的对角线的所有元素添加相同的少量量来执行岭回归:XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y 尽管\ beta_ \ mathrm {ridge}是\ beta的有偏估计量,但仍有一些值的岭系数比OLS的均方根误差小。实际上,k是通过交叉验证获得的。kkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk 这是我的问题:岭模型背后的假设是什么?更具体地说, 普通最小二乘法(OLS)的所有假设在岭回归中是否有效? 如果对问题1回答为“是”,我们如何使用\ beta的有偏估计量来检验同方差和缺乏自相关性ββ\beta? 是否有任何工作可用于在岭回归下测试其他OLS假设(均方差性和缺乏自相关性)?

5
多元回归的假设:正态性假设与恒定方差假设有何不同?
我读到这些是使用多元回归模型的条件: 模型的残差几乎是正常的, 残差的变异性几乎恒定 残差是独立的,并且 每个变量都与结果线性相关。 1和2有何不同? 您可以在这里看到一个: 因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?


2
在检验和检验之间选择
背景:我正在向工作中的同事进行假设检验的介绍,并且对它的大部分内容都了解得很好,但是有一个方面是我将自己束之高阁,试图理解并向他人解释。 这就是我想知道的(如果错误,请更正!) 如果方差已知,则统计量将是正常的;如果方差未知,则遵循分布ttt CLT(中心极限定理):样本平均值的采样分布对于足够大的大约是(对于高度偏斜的分布,可能是,最大可能是)nnn303030300300300 该 -配送可以认为是正常的自由度ttt&gt;30&gt;30> 30 如果满足以下条件,则使用 -test:zzz 已知总体正态和方差(对于任何样本量) 总体正常,方差未知且(由于CLT)n&gt;30n&gt;30n>30 人口二项式,,np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 如果满足以下条件,则使用检验:ttt 总体正常,方差未知,n&lt;30n&lt;30n<30 不了解总体或方差且,但样本数据看起来正常/通过测试等,因此可以认为总体正常n&lt;30n&lt;30n<30 所以我剩下: 对于样本和(?),不知道有关总体和方差的已知/未知信息。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 所以我的问题是: 当抽样分布看起来非正态时,您可以假设在什么样本量下(对总体分布或方差一无所知)均值的抽样分布是正态的(即CLT已经加入)?我知道有些发行版需要,但是有些资源似乎说每当时就使用 -test 。n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 对于我不确定的情况,我想我看一下数据是否正常。现在,如果样本数据看起来正常,我是否应该使用 -test(因为假设总体正常,并且因为)?zzzn&gt;30n&gt;30n>30 我不确定的案例样本数据在哪里看起来不正常呢?在任何情况下,您仍然会使用检验或检验,还是总是希望转换/使用非参数检验?我知道,由于CLT,在的某个值处,均值的采样分布将近似于正态,但是样本数据不会告诉我值是多少。样本数据可能是非正态的,而样本均值遵循正态/。在某些情况下,您会进行转换/使用非参数检验,而实际上均值的采样分布是正态/但您无法分辨吗? tttzzznnnnnntttttt

4
实际上,当数据与假设不完全一致时,人们如何处理方差分析?
这不是一个严格的统计问题-我可以阅读所有有关ANOVA假设的教科书-我试图弄清楚实际工作的分析师如何处理不完全符合假设的数据。我在该网站上遇到了很多问题,寻找答案,并且不断寻找有关何时不使用ANOVA(在抽象的,理想化的数学上下文中)或如何完成我在R中描述的某些事情的文章。我实际上是在试图弄清人们实际做出的决定以及原因。 我正在对来自四组树(实际树,而非统计树)中的分组数据进行分析。我已经为每棵树获取了大约35个属性的数据,并且正在研究每个属性以确定这些属性上的组是否存在显着差异。但是,在某些情况下,由于方差不相等,因此违反了ANOVA假设(根据Levene检验,使用alpha = .05)。 正如我所看到的,我的选择是:1.对数据进行功率变换,看看它是否会改变Levene p值。2.使用非参数测试,例如Wilcoxon(如果是,是哪个?)。3.对方差分析结果进行某种校正,例如Bonferroni(我实际上不确定是否存在这样的东西吗?)。我尝试了前两个选项,但结果略有不同-在某些情况下,一种方法很重要,而另一种则没有。我担心会掉入p值钓鱼陷阱,并且正在寻找可以帮助我确定使用哪种方法的建议。 我还读过一些东西,表明除非方差和方差相互关联(即,两者都一起增加),否则异方差对ANOVA来说并不是真正的大问题,因此,除非我看到Levene的结果,否则我可以忽略它这样的模式?如果是这样,是否有测试方法? 最后,我应该补充一点,我正在做此分析,以便在同行评审的期刊上发表,因此,无论我采用哪种方法,都必须通过评审员的评审。因此,如果任何人都可以提供指向相似的已发布示例的链接,那就太好了。

1
预测建模-我们是否应该关注混合建模?
对于预测建模,我们是否需要关注统计概念,例如随机效应和观测值的非独立性(重复测量)?例如.... 我有5个直接邮件广告系列(一年中发生)的数据,这些数据具有各种属性和购买标记。理想情况下,我会结合使用所有这些数据来为广告系列制定时给定的客户属性建立购买模型。原因是购买事件很少见,我想使用尽可能多的信息。给定的客户有可能出现在1至5个广告系列中的任何位置-这意味着记录之间没有独立性。 使用时是否重要? 1)机器学习方法(例如,树,MLP,SVM) 2)统计方法(逻辑回归)? **ADD:** 我对预测建模的想法是,如果模型有效,请使用它。因此,我从未真正考虑过假设的重要性。考虑到我上面描述的情况,我很纳闷。 采取机器学习算法,例如MLP and SVM。这些已成功用于对二进制事件进行建模,例如上面的示例,而且还对时间序列数据进行了清晰的关联。然而,许多使用损失函数是似然的,并假设误差为id。例如,R中的梯度增强树gbm使用从二项式(第10页)得出的偏差损失函数。

2
是否存在逻辑回归的iid假设?
是否存在逻辑回归的响应变量的iid假设? 例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp 因此,它们是“独立的”,但不是“相同的”。 我对吗? PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。 我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。

1
LASSO假设
在LASSO回归方案中, y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon, LASSO估计值由以下优化问题给出 minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 是否有关于分布假设?ϵϵ\epsilon 在OLS场景中,人们会期望ϵϵ\epsilon是独立的并且是正态分布的。 在LASSO回归中分析残差是否有意义? 我知道LASSO估计可以作为\ beta_j的独立双指数先验下的后验模式获得βjβj\beta_j。但是我还没有找到任何标准的“假设检查阶段”。 提前致谢 (:

4
聚类分析的假设
对于基本问题,我很抱歉这种分析形式,并且到目前为止对原理的理解非常有限。 我只是想知道多变量/单变量测试的许多参数假设是否适用于聚类分析?我已经阅读了许多有关聚类分析的信息资源,但未指明任何假设。 我对观察独立性的假设特别感兴趣。我的理解是,违反此假设(例如在ANOVA和MAVOVA中)很严重,因为它会影响误差估计。从到目前为止的阅读来看,聚类分析似乎主要是一种描述性技术(仅在某些特定情况下涉及统计推断)。因此,是否需要诸如独立性和正态分布数据之类的假设? 任何讨论此问题的文章的建议,将不胜感激。非常感谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.