Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


2
R中lm中的调整后R平方公式是什么,应如何解释?
调整后的R平方在R中使用的确切公式是什么lm() ?我该怎么解释? 调整后的r平方公式 似乎存在一些公式来计算调整后的R平方。 Wherry的公式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} 麦克尼马尔公式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 洛德公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 斯坦因公式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科书说明 根据菲尔德的教科书《使用R发现统计信息》(2012年,第273页),R使用了Wherry方程,“告诉我们如果该模型是从采样样本中得出的,则Y可以解释多少差异”。他没有给出Wherry的配方。他建议(手动)使用Stein的公式来检查模型的交叉验证程度。 Kleiber / Zeileis,《应用计量经济学与R》(2008年,第59页)声称它是“ Theil的R平方调整后的值”,并且没有确切说明其解释与多个R平方的差异。 Dalgaard在Introductory Statistics with R(2008,p。113)中写道:“如果[调整后的R平方]乘以100%,则可以解释为'%方差减少'”。他没有说这对应哪个公式。 我以前曾想并广泛地读到R平方会给模型增加其他变量而受到惩罚。现在,使用这些不同的公式似乎需要不同的解释。我还研究了有关堆栈溢出的一个相关问题(在单变量最小二乘回归中,多个R平方和调整R平方之间有什么区别?),以及UPenn的Wharton学校统计词典。 问题 哪个公式用于通过R调整的r平方 lm()? 我该怎么解释?

7
选择要包含在多元线性回归模型中的变量
我目前正在使用多元线性回归建立模型。在摆弄我的模型之后,我不确定如何最好地确定要保留哪些变量以及要除去哪些变量。 我的模型从DV的10个预测变量开始。当使用所有10个预测变量时,有4个被认为是重要的。如果仅删除一些明显不正确的预测变量,那么一些最初不重要的预测变量将变得很重要。这使我想到了一个问题:如何确定要在模型中包括哪些预测变量?在我看来,您应该对所有预测变量运行一次模型,删除不重要的预测变量,然后重新运行。但是,如果只删除其中一些预测变量会使其他预测变量变得重要,那么我想知道我是否对所有这些方法都采用了错误的方法。 我认为该主题与我的问题类似,但是我不确定我是否正确解释了讨论内容。也许这更多是一个实验性设计主题,但也许有人可以分享一些经验。

5
识别交互作用的最佳实践是什么?
除了从字面上测试模型(x1:x2或x1*x2 ... xn-1 * xn)中每个可能的变量组合之外。您如何确定您的独立(希望)变量之间是否应该存在交互作用? 尝试识别交互的最佳实践是什么?有没有可以使用或可以使用的图形技术?

1
逻辑回归:方差卡方检验与系数的显着性(R中的anova()vs summary())
我有一个8个变量的逻辑GLM模型。我在R中进行了卡方检验,anova(glm.model,test='Chisq')当在测试的顶部进行排序时,其中两个变量可预测,而在底部的排序中则没有那么多。在summary(glm.model)表明它们的系数不显着(高p值)。在这种情况下,变量似乎并不重要。 我想问问哪个是变量显着性更好的检验-模型摘要中的系数显着性或来自的卡方检验anova()。还有-什么时候一个比另一个更好? 我想这是一个广泛的问题,但是任何有关考虑因素的建议将不胜感激。

3
线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着
我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。 回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pppFFFppp.11.11.11 我的问题:我应该如何解释这些结果?其中ppp我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与000显着不同?α=.05α=.05\alpha = .05 我已经看到了相关的问题,FFF和ttt的回归统计,但有相反的情况:高ttt -test ppp -值和低FFF -test ppp -值。老实说,我不太了解为什么除了t检验外还需要FFF检验,以了解线性回归系数是否显着不同于零。ttt



5
如果我的线性回归数据包含多个混合线性关系,该怎么办?
假设我正在研究水仙花对各种土壤条件的反应。我收集了有关土壤pH值与水仙花成熟高度的数据。我期望线性关系,所以我开始进行线性回归。 但是,当我开始研究时,并没有意识到该种群实际上含有两种水仙花,每种水仙花对土壤pH的反应都非常不同。因此,该图包含两个不同的线性关系: 当然,我可以盯着它并手动将其分离。但我想知道是否有更严格的方法。 问题: 是否有统计检验来确定一个数据集适合单行还是N行? 如何运行线性回归以拟合N条线?换句话说,如何解开混合数据? 我可以想到一些组合方法,但它们在计算上似乎很昂贵。 说明: 在数据收集时,尚不存在两种变体。未观察到,未记录和未记录每种水仙花的变化。 无法恢复此信息。自收集数据以来,水仙花已经死亡。 我的印象是,该问题类似于应用集群算法,因为您几乎需要在开始之前就知道集群的数量。我相信,使用任何数据集,增加行数将减少总均方根误差。在极端情况下,您可以将数据集分为任意对,并在每对之间画一条线。(例如,如果您有1000个数据点,则可以将它们分成500对任意对,并在每对之间画一条线。)拟合将是精确的,并且rms误差将恰好为零。但这不是我们想要的。我们想要“正确”的行数。

3
R-对残留术语感到困惑
根均方误差 残差平方和 残留标准误差 均方误差 测试错误 我以为我曾经理解这些术语,但是我做统计问题的次数越多,我就越会感到困惑。我想要一些保证和具体的例子 我可以很容易地在网上找到这些方程式,但是我很难得到这些术语的“像我5岁时那样的解释”,因此我可以在脑海中清楚地看到它们之间的差异以及如何导致另一差异。 如果有人可以在下面使用此代码并指出如何计算这些术语中的每一个,我将不胜感激。R代码会很棒。 使用下面的示例: summary(lm(mpg~hp, data=mtcars)) 在R代码中向我展示如何查找: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ 像我5岁时解释这些区别/相似之处的加分点。例: rmse = squareroot(mss)

2
解释残差与拟合值的关系图,以验证线性模型的假设
考虑下Faraway的带有R的线性模型的图形(2005年,第59页)。 第一个图似乎表明残差和拟合值不相关,因为它们应该在具有正态分布误差的均线线性模型中。因此,第二和第三幅图似乎表明了残差和拟合值之间的相关性,提出了不同的模型。 但是,正如Faraway所述,为什么第二个图建议一个异方差线性模型,而第三个图建议一个非线性模型呢? 第二个图似乎表明残差的绝对值与拟合值强烈正相关,而在第三个图中没有明显的趋势。因此,从理论上讲,如果存在具有正态分布误差的异方差线性模型, 肺心病(ē,y^)=⎡⎣⎢⎢1个⋮1个⋯⋱⋯1个⋮1个⎤⎦⎥⎥肺心病(Ë,ÿ^)=[1个⋯1个⋮⋱⋮1个⋯1个] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (其中左侧的表达式是残差和拟合值之间的方差-协方差矩阵),这可以解释为什么第二和第三曲线与Faraway的解释一致。 但是是这样吗?如果不是,那么法拉威对第二和第三情节的解释又如何呢?另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

4
X和Y没有相关性,但是X是多元回归中Y的重要预测因子。这是什么意思?
X和Y不相关(-.01);但是,当我将X放入预测Y的多元回归中时,与其他三个(A,B,C)变量(相关)并列,X和另外两个变量(A,B)是Y的重要预测因子。请注意,另外两个( A,B)变量在回归之外与Y显着相关。 我应该如何解释这些发现?X可以预测Y的唯一方差,但是由于这些不相关(Pearson),因此难以解释。 我知道相反的情况(即,两个变量是相关的,但回归不显着),从理论和统计的角度来看,它们相对较容易理解。请注意,一些预测变量之间的相关性很高(例如,.70),但与我预期的实质多重共线性的程度不同。不过,也许我误会了。 注意:我之前曾问过这个问题,所以已经关闭了。合理的理由是,该问题与“ 回归如何显着而所有预测变量都不显着? ”这样的问题是多余的。“。也许我不理解另一个问题,但我认为这些问题在数学和理论上都是完全独立的问题。我的问题与“回归显着”是否完全独立。此外,有几个预测变量也很重要,而另一个问题包含的变量并不重要,因此我看不到重叠之处。如果由于我不理解的原因这些问题是多余的,请在关闭此问题之前插入一条评论。此外,我也希望向主持人关闭另一个问题,以避免相同的问题,但我找不到这样做的选择。


3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.