Questions tagged «sums-of-squares»

平方和在基于ANOVA的基于正态分布的统计模型中起着重要作用。

1
如何解释I型,II型和III型ANOVA和MANOVA?
我的主要问题是进行I型(顺序)方差分析时如何解释输出(系数,F,P)? 我的具体研究问题要复杂一些,因此我将把例子分成几部分。首先,如果我对蜘蛛密度(X1)对植物生长(Y1)的影响感兴趣,并且我在围墙内种植了幼苗并控制了蜘蛛密度,那么我可以使用简单的ANOVA或线性回归分析数据。然后,对于ANOVA使用I,II或III平方和(SS)都没关系。就我而言,我有5个密度级别的4个副本,因此可以将密度用作因子或连续变量。在这种情况下,我更喜欢将其解释为连续的独立(预测变量)变量。在RI中可以运行以下命令: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) 运行方差分析功能对于以后的比较很有希望,因此请在这里忽略它的奇怪之处。输出为: Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 现在,让我怀疑我无法控制的土壤中无机氮的起始水平可能也显着影响了植物的生长。我对这种效果并不特别感兴趣,但是想潜在地解释它引起的变化。确实,我的主要兴趣在于蜘蛛密度的影响(假设:蜘蛛密度的增加会导致植物生长的增加-大概是通过减少草食性昆虫引起的,但我只测试这种作用而不是机理)。我可以将无机氮的影响添加到我的分析中。 出于我的问题,让我们假设我测试了交互作用密度* inorganicN,并且它并不重要,因此我将其从分析中删除并运行以下主要效果: > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

7
R中带有对比代码的III型SS ANOVA如何处理?
请提供R代码,该代码允许以-3,-1、1、3的对比度进行对象间ANOVA。我了解对于此类分析的适当平方和(SS)类型存在争议。但是,由于SAS和SPSS中使用的默认SS类型(III型)被认为是我所在地区的标准。因此,我希望此分析的结果与那些统计程序生成的结果完全匹配。要被接受,答案必须直接调用aov(),但其他答案可能会被投票(尤其是如果它们易于理解/使用)。 sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) 编辑:请注意,我要求的对比度不是简单的线性或多项式对比度,而是通过理论预测得出的对比度,即Rosenthal和Rosnow讨论的对比度类型。

2
方差分析中变量的顺序很重要,不是吗?
我是否正确理解,在多元ANOVA中指定变量的顺序会有所不同,但是在进行多元线性回归时顺序并不重要? 因此,假设存在诸如测得的失血量 y和两个分类变量之类的结果 增殖腺切除术的方法 a, 扁桃体切除方法 b。 该模型y~a+b不同于该模型y~b+a(或因此我在R中的实现似乎表明了这一点)。 我是否正确理解这里的术语是方差分析是一种层次模型,因为它在尝试将剩余方差归因于第二因素之前首先将尽可能多的方差归因于第一因素? 在上面的示例中,层次结构是有道理的,因为我总是在进行扁桃体切除术之前先进行腺样体切除术,但是如果一个人有两个没有内在顺序的变量会怎样?

4
我是否应该在ezANOVA中包含一个参数以请求III型平方和?
我为R开发了ez软件包,以帮助人们从SPSS之类的统计软件包过渡到R。(希望)通过简化各种ANOVA的规格并提供类似于SPSS的输出(包括效果大小和假设)来实现测试),以及其他功能。该ezANOVA()函数主要用作的包装car::Anova(),但是当前版本的ezANOVA()实现仅实现II型平方和,而car::Anova()允许指定II型或-III平方和。正如我可能期望的那样,一些用户要求我在ezANOVA()允许用户请求II型或III型。我一直不愿这样做,并在下面概述了我的推理,但是我希望社区对我或与该问题有关的其他推理提供意见。 原因不包括在“SS_type”的说法ezANOVA(): I,II和III型和平方之间的差异仅在数据不平衡时才会出现,在这种情况下,我想说,通过进一步收集数据来改善不平衡比使用ANOVA计算可带来更多的收益。 II型和III型之间的差异适用于由高阶效应限定的低阶效应,在这种情况下,我认为低阶效应在科学上没有意义。(但请参阅下文了解参数的可能复杂之处) 对于那些不适用(1)和(2)的罕见情况(当无法进行进一步的数据收集并且研究人员对我目前无法想象的合格主效应具有有效的科学兴趣时),可以相对轻松地进行修改的ezANOVA()源或采用car::Anova()本身就实现III型试验。通过这种方式,我将获得III型测试所需的额外工作/理解视为确保只有那些真正了解自己在做什么的人才能走这条路。 现在,最新的III类请求者指出,考虑到以下情况会破坏论点(2),在这种情况下,存在但不重要的高阶效应可能会使平方和的计算偏向于低阶效应。在这种情况下,可以想象的是,研究人员将寻求更高阶的效果,而发现它是“不重要的”,而转向尝试解释对研究人员而言并不为人所折衷的较低阶效果。我最初的反应是,这不是平方和的问题,而是p值和原假设检验的传统。我怀疑,更明确的证据度量(例如,似然比)可能更可能产生与数据一致的支持模型的模棱两可图像。但是,我还没有

1
SAS和R中ANOVA中III型平方和的冲突结果
我从不平衡因子实验都与分析数据SAS和R。双方SAS并R提供平方类似的I型和广场,但他们的III型总和彼此不同。以下是SAS和R代码以及输出。 DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; CLASS T B; MODEL Y=T|B; RUN; SAS的I型SS Source …
15 r  anova  sas  sums-of-squares 


1
LDA的代数。变量的Fisher判别力和线性判别分析
显然, Fisher分析的目的是同时最大化类之间的距离,同时最小化类内离散。因此,对角线量给出了变量判别力的有效度量。Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html 我了解p x p之间(B)和内部类(W)矩阵的大小()由输入变量的数量给出p。鉴于此,Bii/WiiBii/WiiB_{ii}/W_{ii}如何成为单个变量的“有用的判别量”?构造矩阵B和W至少需要两个变量,因此各个迹线将代表一个以上的变量。 更新:我是否认为不是隐含总和的迹线,而是矩阵元素除以的迹线?目前,这是使表达式与概念保持一致的唯一方法。 B 我我 W¯¯ 我我Bii/WiiBii/WiiB_{ii}/W_{ii}BiiBiiB_{ii}WiiWiiW_{ii}


2
如何为使用汽车的重复测量方差分析指定特定的对比?
我正在尝试在R中运行重复测量Anova,然后对该数据集进行一些特定的对比。我认为正确的方法是 Anova()从汽车包装中使用。 让我们用?Anova使用 OBrienKaiser数据的示例来说明我的问题(注意:我省略了示例中的性别因素): 我们设计了一个在受试者因素,治疗之间(3个级别:对照,A,B)和两个重复的因素-测量(在受试者内)因素,阶段(3个级别:测试前,测试后,随访)和小时(5个级别:1至5)。 标准ANOVA表的给出方式为(与example(Anova)不同,我切换到Type 3 Squares of Squares,这是我的领域想要的): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) …

2
T分布随机变量平方和的分布
我正在查看T分布随机变量平方和的分布,其尾指数为。其中X是RV,傅立叶变换为,给我的卷积之前为方形的溶液。 αα\alphaX2X2X^2F(t)F(t)\mathscr{F}(t)F(t)nF(t)n\mathscr{F}(t)^nF(t)=∫∞0exp(itx2)⎛⎝⎜⎜⎜(αα+x2)α+12α−−√ B(α2,12)⎞⎠⎟⎟⎟dxF(t)=∫0∞exp⁡(itx2)((αα+x2)α+12α B(α2,12))dx\mathscr{F}(t)=\int_0^{\infty } \exp \left(i\, t\, x^2\right)\left(\frac{\left(\frac{\alpha }{\alpha +x^2}\right)^{\frac{\alpha +1}{2}} }{\sqrt{\alpha }\ B\left(\frac{\alpha }{2},\frac{1}{2}\right)}\right) \, \mathrm{d}x 在,解决方案是可行的,但笨拙且不可能对傅立叶逆。因此,问题是:是否已对样本分布或T分布随机变量的标准偏差的分布进行了研究?(对于学生来说,卡方对高斯就是什么)。谢谢。α=3α=3\alpha=3F(t)nF(t)n\mathscr{F}(t)^n (可能的解决方案)我发现是Fisher分布的,因此将查看Fisher分布变量的总和。X2X2X^2F(1,α)F(1,α)F(1,\alpha) (可能的解决方案)根据特征函数,当求和的的平均值 存在分布时,它们的前两个矩相同。因此,利用u的平方根并在概率分布内进行变量的变化,可以用以下近似估计n个样本T变量的标准偏差的密度: n−n−n-X2X2X^2F(n,α)F(n,α)F(n,\alpha)g(u)=2αα/2nn/2un−1(α+nu2)−α2−n2B(n2,α2)g(u)=2αα/2nn/2un−1(α+nu2)−α2−n2B(n2,α2)g(u)=\frac{2 \alpha ^{\alpha /2} n^{n/2} u^{n-1} \left(\alpha +n u^2\right)^{-\frac{\alpha }{2}-\frac{n}{2}}}{B\left(\frac{n}{2},\frac{\alpha }{2}\right)}

2
分类变量之间的共线性
关于连续预测变量的共线性有很多,但我在分类预测变量上找不到太多。我的数据如下所示。 第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因在疾病之前,并且是显示导致诊断的症状的因素。但是,像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单(因为它与订单有关)时,我进行平方和分析的类型就会选择它。此外,疾病过程中可能存在与基因无关的额外成分,这些成分与II型或III型不能很好地鉴定,请参阅下面的anova (lm1) vs lm2或Anova。 示例数据: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, …

3
线性多元回归方程中所有IV之间的共享方差在哪里?
在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,那么在回归方程中,所有IV共享的预测DV的方差是什么? 例如,如果下面显示的维恩图(并取自CV的“关于”页面:https://stats.stackexchange.com/about)被重新标记为3 IV和1 DV,带有星号的区域将输入到哪里进入多元回归方程?

1
为什么在论文中很少报道Anova结果中使用哪种平方和?
根据我短暂的统计经验,似乎用于获得方差分析结果的平方和类型(I,II,III,IV等)可能会极大地影响测试结果(尤其是存在相互作用且缺失的模型)数据)。但是,我还没有看到一篇报告它的论文。为什么会这样? 如果有人能提供一种示例文件以某种方式报告该报告(而不是统计信息本身),或者不常见的原因,我将不胜感激。

2
线性回归:*为什么*可以划分平方和?
这篇文章引用了一个二元线性回归模型。我一直将基于信度的总平方和(SSTO)分为误差平方和(SSE)和模型的平方和(SSR),但是一旦我开始认真考虑,我就不明白为什么起作用...Yi=β0+β1xiYi=β0+β1xiY_i = \beta_0 + \beta_1x_i 我的部分不理解: yiyiy_i:y的观测值 y¯y¯\bar{y}:所有观测到的 s 的平均值yiyiy_i y^iy^i\hat{y}_i:给定观察值x的y的拟合/预测值 yi−y^iyi−y^iy_i - \hat{y}_i:残差/误差(如果平方和加总为所有观察值,则为SSE) y^i−y¯y^i−y¯\hat{y}_i - \bar{y}:模型拟合值与平均值相差多少(如果对所有观察值进行平方和加和,则为SSR) yi−y¯yi−y¯y_i - \bar{y}:观测值与平均值相差多少(如果对所有观测值进行了求和,则为SSTO)。 我可以理解为什么,对于一次观察,不求平方,。我能理解为什么,如果要将所有观测值相加,则必须将它们平方,否则它们的总和将为0。(yi−y¯)=(y^i−y¯)+(yi−y^i)(yi−y¯)=(y^i−y¯)+(yi−y^i)(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i) 我不明白的部分是为什么(例如,SSTO = SSR + SSE)。看来,如果您遇到,那么,而不是。为什么这里不是这种情况?(yi−y¯)2=(y^i−y¯)2+(yi−y^i)2(yi−y¯)2=(y^i−y¯)2+(yi−y^i)2(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2A=B+CA=B+CA = B + CA2=B2+2BC+C2A2=B2+2BC+C2A^2 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.