Questions tagged «r-squared»

确定系数通常用,是总响应方差的比例,由回归模型解释。也可以用于建议的各种伪R平方,例如用于逻辑回归(和其他模型)。 R2


1
如何获得黄土拟合的R平方?
如何计算R 和/或函数输出的R平方()统计量?例如,此数据:r2r2r^2loesspredict cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lp有两个fit用于模型和se.fit标准误差的数组。
15 r  r-squared  loess 

2
如何在不同的
我想到了以下提出的调整后的R平方公式: 以西结(1930),我相信这是目前SPSS中使用的一种。 R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) 奥尔金和普拉特(1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} 在什么情况下(如果有)我应该更喜欢“调整”而不是“无偏”?R2R2R^2 参考文献 Ezekiel,M.(1930年)。相关分析方法。纽约约翰·威利父子。 奥尔金(Olkin I.),普拉特(Pratt)JW(1958)。某些相关系数的无偏估计。数理统计年鉴,29(1),201-211。

2
基于“ F回归”和基于
比较特征是否与将特征分别F-regression与标签关联并观察值相同?[R2R2R^2 我经常看到我的同事F regression在他们的机器学习管道中使用进行特征选择sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 有些人请告诉我-为什么它给出与将其与label / depedendent变量相关联时相同的结果? 对我来说,尚不清楚F_regression在特征选择中使用优势。 这是我的代码:我正在使用mtcars来自的数据集R: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical columns as features ['mpg', 'disp', 'drat', …


4
为什么
注意:SSTSSTSST =总和的平方和,SSESSESSE =误差平方和,SSRSSRSSR =回归平方和。标题中的等式通常写为: ∑我=1ñ(y一世-ÿ¯)2= ∑我= 1ñ(y一世- ÿ^一世)2+ ∑我= 1ñ(y^一世- ÿ¯)2∑一世=1个ñ(ÿ一世-ÿ¯)2=∑一世=1个ñ(ÿ一世-ÿ^一世)2+∑一世=1个ñ(ÿ^一世-ÿ¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 问题很简单,但我正在寻找一个直观的解释。直观地说,在我看来,像会更有意义。例如,假设点X 我已对应的y值ÿ 我 = 5和ÿ我 = 3,其中ÿ我是关于回归线的对应点。还假定对于该数据集的平均值y值是ˉ Ŷ小号小号Ť≥S小号Ë+SSRSST≥SSE+SSRSST\geq SSE+SSRxixix_iyi=5yi=5y_i=5y^i=3y^i=3\hat y_i=3y^iy^i\hat y_i。那么对于这个特定点我, Sy¯=0y¯=0\bar y=0,而小号小号Ë = (5 - 3 )2 = 2 2 = 4和小号小号- [R = (3 - 0 )2 = 3 2 …

2
逐步回归是否提供总体r平方的有偏估计?
在心理学和其他领域,通常采用逐步回归的形式,涉及以下内容: 查看其余的预测变量(最初在模型中没有),并确定导致最大r平方变化的预测变量; 如果r平方变化的p值小于alpha(通常为.05),则包括该预测变量并返回步骤1,否则停止。 例如,请参阅SPSS中的此过程。 出于各种原因,通常会对该程序进行批判(请参阅Stata网站上的讨论并提供参考资料)。 特别是,Stata网站总结了Frank Harrell的一些评论。我对索赔感兴趣: [逐步回归]产生严重偏高的R平方值。 具体来说,我目前的一些研究集中在估计总体r平方。通过总体r平方,我指的是总体中由总体数据生成方程式解释的方差百分比。我正在审查的许多现有文献都使用了逐步回归程序,我想知道所提供的估计数是否有偏差,以及有多少偏差。特别是,典型的研究将有30个预测变量,n = 200,输入的alpha为0.05,r平方估计约为0.50。 我所知道的: 渐近地,具有非零系数的任何预测变量将是统计上显着的预测变量,并且r平方将等于调整后的r平方。因此,渐进式逐步回归应该估计真实的回归方程和真实的总体r平方。 对于较小的样本量,与模型中所有预测变量相比,某些预测变量的可能省略将导致较小的r平方。但是,通常r平方对样本数据的偏见也会增加r平方。因此,我天真的想法是,这两个相反的力在一定条件下可能导致无偏的r平方。更一般而言,偏差的方向将取决于数据的各种特征和alpha包含标准。 设置更严格的alpha包含准则(例如.01,.001等)应会降低预期的估计r平方,因为在任何数据生成中包含任何预测变量的可能性都较小。 通常,r平方是总体r平方的向上偏差估计,并且随着更多的预测变量和较小的样本量,该偏差的程度也会增加。 题 最后,我的问题是: 逐步回归的r平方在多大程度上导致总体r平方的估计偏差? 这种偏差在多大程度上与样本数量,预测变量数量,alpha包含标准或数据属性有关? 是否有关于此主题的参考?

1
总体R平方的无偏估计是多少?
我有兴趣在多元线性回归中获得的无偏估计。R2R2R^2 通过反思,我可以想到的无偏估计可能试图匹配的两个不同值。R2R2R^2 出样品的:R2R2R^2如果从样品获得的回归方程时得到的R平方(即)施加于外部的样本数据的无限量,但是从同一数据生成处理。β^β^\hat{\beta} 人口R2R2R^2:如果获得了一个无限样品并且装配到无穷大样品(即,模型时得到的R平方),或者只是R平方由已知数据生成处理暗示。ββ\beta 我知道调整后的R2R2R^2旨在补偿样品观察到的过拟合。尽管如此,现在还不清楚是否调整ř 2实际上是的无偏估计- [R 2,并且如果它是一个无偏估计,其中上述两个定义的R2R2R^2R2R2R^2R2R2R^2它的目标是估计。R2R2R^2 因此,我的问题是: 我对以上所说的样本的无偏估计是多少 ?R2R2R^2 我所说的高于人口的无偏估计是多少 ?R2R2R^2 有没有提供模拟或其他证明无偏见的参考文献?


1
线性模型中的R平方与广义线性模型中的偏差成正比?
这是我针对这个问题的上下文:据我所知,使用加权数据和数据survey包时,我们无法在R中运行普通的最小二乘回归。在这里,我们必须使用svyglm(),而不是运行一个广义线性模型(可能是同一件事?在这里我不清楚什么是不同的)。 在OLS中,通过该lm()函数,它可以计算R平方值,我确实理解其解释。但是,svyglm()似乎并没有计算出这个误差,而是给了我一个偏差,我在互联网上的短暂旅行告诉我,这是一种拟合优度度量,其解释与R平方不同。 所以我想我基本上有两个我希望得到指导的问题: 为什么survey似乎无法在Stata中使用加权数据来在包中运行OLS ? 广义线性模型的偏差和r平方值在解释上有什么区别?

2
选择将组分开的PCA组件
我经常使用PCA诊断我的多元数据(具有数十万个变量和数十个或数百个样本的组学数据)。数据通常来自具有定义某些组的几个类别自变量的实验,在找到能够显示感兴趣的组之间分离的组件之前,我经常必须经过几个组件。我想出了一种相当原始的方式来找到这种可区分的组件,我想知道 在何种程度上是合理/合理的,并且 是否有更好的方法可以达到相同目的。 请注意,这是探索性的。在说服别人之前,我想说服自己。如果我发现有一些组件可以清楚地区分感兴趣的组(例如,控制组与治疗组),即使它们是响应方差的一小部分,则我更相信它,而不是受监督机器的结果学习。 这是我的方法。我将使用R中pca3d的“ metabo”示例数据集。 这个想法是评估独立变量可以解释每个分量有多少差异。为此,我为每个组件计算一个简单模型,并使用作为度量标准,以将组件从“最有趣”到“最不有趣”进行排序。R2R2R^2 require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the independent variable pca <- prcomp( metabo[,-1], scale.= T ) # create a model for each component lm.m <- lm( pca$x ~ metabo[,1] …

2
如何在多元回归分析中使用
下图是回归测试的残留散点图,对于这些测试,可以肯定已经满足“正态性”,“均方差性”和“独立性”的假设!为了测试“线性”假设,尽管通过查看图表可以推测出该关系是曲线的,但是问题是:“ R2线性”的值如何用于测试线性假设?“ R2线性”值确定该关系是否为线性的可接受范围是什么?如果不满足线性假设并且对IV进行转换也无济于事怎么办? 这是测试完整结果的链接。 散点图:

2
95%置信区间的公式
我在stats.stackexchange上进行了搜索和搜索,但是找不到用于为线性回归计算值的95%置信区间的公式。有人可以提供吗?R2R2R^2 更好的是,假设我在下面的R中运行了线性回归。如何使用R代码为R2R2R^2值计算95%的置信区间。 lm_mtcars <- lm(mpg ~ wt, mtcars)

2
使用Nakagawa&Schielzeth(2013)R2glmm方法在混合模型中计算
我一直在阅读有关在混合模型中计算值的信息,在阅读了R-sig常见问题解答之后,该论坛上的其他帖子(我会链接一些但我没有足够的声誉)以及其他一些参考资料,我知道使用在混合模型的上下文中,值很复杂。R2R2R^2R2R2R^2 但是,我最近在下面看到了这两篇论文。尽管这些方法对我来说确实很有希望,但我不是统计学家,因此我想知道其他人是否会对他们提出的方法以及与其他提出的方法进行比较有任何见解。 Nakagawa,Shinichi和Holger Schielzeth。“从广义线性混合效应模型获得R2的通用且简单的方法。” 《生态与进化中的方法》 4.2(2013):133-142。 约翰逊,保罗CD。“将Nakagawa&Schielzeth的R2GLMM扩展到随机斜率模型。” 《生态与进化中的方法》(2014年)。 也可以使用MuMIn包中的r.squaredGLMM函数来实现is方法,该方法提供了对该方法的以下描述。 对于混合效应模型,可以分为两种类型。边际代表用固定因子解释的方差,并定义为: 条件R ^ 2被解释为由固定和随机因素(即整个模型)解释的方差,并根据以下公式计算: R_ {GLMM}(c)^ 2 = \ frac {(σ_f ^ 2 + \ sum(σ_l^ 2))} {(σ_f^ 2 + \ sum(σ_l^ 2)+σ_e^ 2 +σ_d^ 2} 其中σ_f^ 2是固定效应分量的方差,并且\ sum (σ_l^ 2)是所有方差分量(组,个体等)的总和,σ_l^ 2R2R2R^2R2R2R^2RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}R2R2R^2RGLMM(c)2=(σ2f+∑(σ2l))(σ2f+∑(σ2l)+σ2e+σ2dRGLMM(c)2=(σf2+∑(σl2))(σf2+∑(σl2)+σe2+σd2R_{GLMM}(c)^2= \frac{(σ_f^2 …

1
在原假设下,确定系数期望值
我对本文第一页底部 关于调整的声明感到好奇R2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). 文本指出: 调整的逻辑如下:在普通多元回归中,随机预测变量平均解释响应变化的比例1/(n–1)1/(n–1)1/(n – 1),因此mmm随机预测变量平均一起解释m/(n–1)m/(n–1)m/(n – 1)响应的变化;换句话说,R ^ 2的期望值R2R2R^2为E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)。将[ R2adjustedRadjusted2R^2_\mathrm{adjusted} ]公式应用于该值(所有预测变量都是随机的),得出R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0。” 对于R ^ 2_ \ mathrm {adjusted},这似乎是一个非常简单且可解释的动机R2adjustedRadjusted2R^2_\mathrm{adjusted}。但是,对于单个随机(即不相关)的预测变量,我无法得出E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1))的值。 有人可以在这里指出正确的方向吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.