Questions tagged «assumptions»

指统计程序产生有效估计和/或推断的条件。例如,许多统计技术都要求假设数据是以某种方式随机抽样的。有关估计量的理论结果通常需要对数据生成机制进行假设。

2
重复测量方差分析:正态性假设是什么?
我对重复测量方差分析中的正态性假设感到困惑。具体来说,我想知道究竟应该满足哪种常态。在阅读有关简历的文献和答案时,我遇到了这种假设的三种不同的措词。 每个(重复)条件中的因变量应正常分布。 人们常说rANOVA与ANOVA具有相同的假设,另外还有球形度。这就是Field的发现统计资料以及Wikipedia 关于该主题和Lowry的文章的主张。 残差(所有可能的对之间的差异?)应正态分布。 我发现在多个答案此声明CV(1,2)。通过将rANOVA 与配对t检验进行类比,这似乎也很直观。 应该满足多元正态性。 维基百科和此资源提到了这一点。另外,我知道,朗诺可以换用MANOVA,这可能值得这个要求。 这些等效吗?我知道多元正态性意味着DV的任何线性组合都是正态分布的,因此3.如果我正确理解后者,自然会包括2.。 如果这些都不相同,那么rANOVA的“真实”假设是什么?你能提供参考吗? 在我看来,对第一个主张的支持最大。但是,这与此处通常提供的答案不一致。 线性混合模型 由于@utobi的提示,我现在了解如何将rANOVA重新描述为线性混合模型。具体来说,为了建模血压随时间的变化,我将期望值建模为: 其中y i j是血压的测量值,a i是平均血压第i个对象的压力,而t i j为第i个对象被测量的第j次,b iE[yij]=ai+bitij,E[yij]=ai+bitij, \mathrm{E}\left[y_{ij}\right]=a_{i}+b_i t_{ij}, yijyijy_{ij}aiaia_{i}iiitijtijt_{ij}jjjiiibibib_i表示该变化的血压是跨学科的不同了。两种效果都被认为是随机的,因为受试者的样本只是人群的随机子集,这是最主要的兴趣所在。 最后,我尝试考虑这对正常性意味着什么,但收效甚微。释义McCulloch和Searle(2001,p。35. Eq。(2.14)): E[yij|ai]yij|aiai=ai∼indep. N(ai,σ2)∼i.i.d. N(a,σ2a)E[yij|ai]=aiyij|ai∼indep. N(ai,σ2)ai∼i.i.d. N(a,σa2)\begin{align} \mathrm{E}\left[y_{ij}|a_i\right] &= a_i \\[5pt] y_{ij}|a_i &\sim \mathrm{indep.}\ \mathcal{N}(a_i,\sigma^2) \\[5pt] a_i &\sim \mathrm{i.i.d.}\ \mathcal{N}(a,\sigma_a^2) \end{align} 我明白这意味着 4.每个人的数据都需要正态分布,但这在很少的时间点进行测试是不合理的。 我用第三种表达的意思是 5.各个主题的平均值呈正态分布。请注意,这是上述三种基础之上的另外两种不同的可能性。 McCulloch,CE和Searle,SR(2001)。广义模型,线性模型和混合模型。纽约:John …

5
线性回归中的假设条件是什么?
在线性回归中,我们做出以下假设 每个预测变量值的响应平均值 E(Yi)E(Yi)E(Y_i)是预测变量的线性函数。(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 误差εiεiε_i是独立的。 在预测变量的每个值集(x_ {1i},x_ {2i},…)处的误差ε_i正态分布。εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 每个预测变量值 (x_ {1i},x_ {2i},...)的误差ε_i具有相等的方差(表示为σ2)。εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)σ2σ2σ2 解决线性回归的方法之一是通过正态方程,我们可以写成 θ=(XTX)−1XTYθ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TY 从数学的角度来看,上述等式仅需要XTXXTXX^TX是可逆的。那么,为什么我们需要这些假设呢?我问了几个同事,他们提到这是要获得良好的结果,而正规方程是实现该目标的算法。但是在那种情况下,这些假设有何帮助?坚持使用它们如何有助于建立更好的模型?

3
ANOVA假设(方差相等,残差的正态性)为何重要?
在运行方差分析时,我们被告知必须进行某些测试假设才能使其适用于数据。对于测试起作用的必要条件,我从未理解以下原因: 在设计的每个单元格中,因变量(残差)的方差应相等 对于设计的每个单元,您的因变量(残差)应近似正态分布 我了解关于是否需要满足这些假设存在一些灰色区域,但是出于争论的目的,如果在给定的数据集中完全不满足这些假设,那么使用ANOVA将会带来什么问题?

3
我们真的需要包括“所有相关的预测变量”吗?
使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。 但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等... 此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。 我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议? 这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题?

2
为什么线性回归对残差有假设,而广义线性模型对响应有假设?
为什么线性回归和广义模型的假设不一致? 在线性回归中,我们假设残差来自高斯 在其他回归(逻辑回归,毒物回归)中,我们假设响应来自某种分布(二项式,泊松等)。 为什么有时会假设剩余而其他时间会在响应时?是因为我们要导出不同的属性? 编辑:我认为mark999的显示两种形式是相等的。但是,我对iid还有其他疑问: 我的另一个问题 是,逻辑回归是否有iid假设?显示广义线性模型没有iid假设(独立但不相同) 对于线性回归,是否真的成立,如果我们对残差进行假设,我们将有iid,但是如果对响应进行假设,我们将拥有独立但不相同的样本(具有不同不同高斯样本)?μμ\mu

3
推导OLS估计量的假设
有人可以为我简要解释一下,为什么要计算OLS估计量需要六个假设中的每一个?我只发现了多重共线性-如果存在多重共线性,则无法求反(X'X)矩阵,进而无法估计总体估计量。其他的怎么样(例如,线性度,零均值误差等)?

1
广义线性模型的假设
我制作了一个具有单个响应变量(连续/正态分布)和4个解释变量(其中3个是因子,第四个是整数)的广义线性模型。我使用了具有身份链接功能的高斯误差分布。我目前正在检查模型是否满足广义线性模型的假设,即: Y的独立性 正确的链接功能 解释变量的正确计量范围 没有影响力的观察 我的问题是:如何检查模型是否满足这些假设?最好的起点似乎是针对每个解释变量绘制响应变量。但是,有3个解释变量是分类的(具有1-4个级别),那么在图中我应该寻找什么? 另外,我是否需要检查解释变量之间的多重共线性和相互作用?如果是,我该如何使用分类解释变量?

3
为什么高阳性峰度对于假设检验有问题?
我听说过(抱歉,我无法提供到文本的链接,有人告诉我)对于正确的假设检验和置信区间,残差的高正峰度可能会成问题(因此存在统计推断问题)。这是真的吗?如果是这样,为什么?残差的高正峰度是否不表示大部分残差都接近零均值,因此存在的残差较小?(如果您有答案,请尝试在数学方面不多的情况下给出答案,因为我不太喜欢数学)。

2
偏最小二乘(PLS)回归的模型假设
我正在尝试查找有关PLS回归假设的信息(单)。我对将PLS的假设与OLS回归的假设进行比较特别感兴趣。 ÿyy 我已经阅读/浏览了有关PLS主题的大量文献;Wold(Svante and Herman),Abdi和许多其他人的论文,但找不到令人满意的来源。 沃尔德等。(2001)PLS回归:化学计量学的基本工具确实提到了PLS的假设,但是只提到了 X不必独立, 该系统是一些潜在变量的函数, 该系统在整个分析过程中应表现出同质性,并且 测量误差是可以接受的。 XXX 没有提及观察到的数据或模型残差的任何要求。有谁知道解决这个问题的资源吗?考虑基础数学类似于PCA(以最大化ÿyy和X之间的协方差为目标XXX)是(y,X)(y,X)(y, X)的多元正态性吗?模型残差是否需要表现出方差均匀性? 我也相信我在某处读到,观察不必是独立的。就重复测量研究而言,这意味着什么?

2
如何在多元回归分析中使用
下图是回归测试的残留散点图,对于这些测试,可以肯定已经满足“正态性”,“均方差性”和“独立性”的假设!为了测试“线性”假设,尽管通过查看图表可以推测出该关系是曲线的,但是问题是:“ R2线性”的值如何用于测试线性假设?“ R2线性”值确定该关系是否为线性的可接受范围是什么?如果不满足线性假设并且对IV进行转换也无济于事怎么办? 这是测试完整结果的链接。 散点图:

6
内生性与未观察到的异质性
内生性和未观察到的异质性有什么区别?我知道内生性来自例如省略的变量吗?但是据我了解,未观察到的异质性会导致相同的问题。但是,这两个概念之间的区别到底在哪里?

2
GLM族代表响应变量或残差的分布?
我一直在与几个实验室成员讨论这个问题,我们已经到了多个来源,但仍然没有答案: 当我们说一个GLM有一个泊松族时,我们说的是在谈论残差或响应变量的分布吗? 争论点 阅读此文章也指出,GLM的假设是观察的统计独立性,链接和方差函数的正确规范(这让我想起了残差,不响应变量),计量正确的比例为响应变量且缺乏单点的不当影响 这个问题有两个答案,每个答案都有两点,出现的第一个是关于残差的,第二个是关于响应变量的,是吗? 在此博客文章中,当谈到假设时,他们说“ 残差的分布可以是其他分布,例如二项式 ” 在年初这一章他们说,错误的结构必须是泊松,但残差必将有积极和消极的价值观,怎么可能泊松? 这个问题经常在诸如此类的问题中被引用,以使它们重复,但没有公认的答案 这个问题的答案谈论的是回应而不是残差 在这个从Pensilvania大学课程说明他们谈论的假设,而不是残差响应变量

3
在逻辑回归(或其他形式的回归)中测试非线性
Logistic回归的一种假设是logit中的线性。因此,一旦我建立了模型并开始运行,就可以使用Box-Tidwell测试来测试非线性。我的一个连续预测变量(X)对非线性进行了正面测试。我接下来该怎么办? 因为这违反了假设,所以我应该摆脱预测变量(X)或包括非线性变换(X * X)。还是将变量转换为分类变量?如果您有参考,也可以给我指出吗?

4
在逻辑回归分析中,对于连续自变量,我应如何检查对数线性的假设?
我对逻辑回归分析中连续预测变量的logit线性假设感到困惑。在使用单变量logistic回归分析筛选潜在预测指标时,我们是否需要检查线性关系? 就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分结果)相关的因素。连续变量包括年龄,Charlson合并症评分,Barthel指数评分,握力,GDS评分,BMI等。我的第一步是使用简单的逻辑回归筛选重要变量。在每个连续变量的简单逻辑回归分析过程中,是否需要检查线性假设?还是应该在最终的多元逻辑回归模型中进行检查? 此外,据我了解,我们需要先将非线性连续变量转化为模型,然后再进行转换。我可以对非线性连续变量进行分类而不是进行转换吗?

3
正常误差的假设是否暗示Y也是正常的?
除非我没有弄错,否则在线性模型中,假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?我认为确实可以,但是随后的诸如此类的陈述似乎相当混乱: 您可以清楚地看到,此模型中“正态性”的唯一假设是残差(或“错误”)应呈正态分布。没有关于预测变量或响应变量的分布的假设。X 我ÿ 我ϵiϵi\epsilon_ixixix_iyiyiy_i 来源:预测变量,响应和残差:真正需要正态分布的是什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.