Questions tagged «r-squared»

确定系数通常用,是总响应方差的比例,由回归模型解释。也可以用于建议的各种伪R平方,例如用于逻辑回归(和其他模型)。 R2

6
是有用的或危险的?
我浏览了 Cosma Shalizi的一些讲义(特别是第二堂课的 2.1.1节),并被提醒您,即使具有完全线性的模型,您也可以获得非常低的。R2R2R^2 用Shalizi的示例来解释:假设您有一个模型,其中是已知的。然后\ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon],解释的方差量为a ^ 2 \ Var [X],因此R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ …


2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

3
R何时平方负数?
我的理解是不能为负,因为它是R的平方。但是,我在SPSS中运行了具有单个自变量和因变量的简单线性回归。我的SPSS输出给我R 2的负值。如果我要根据R手动计算,则R 2将为正。SPSS做了什么将其计算为负值?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 我使用的代码: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 我得到负值。谁能解释这意味着什么?

7
报告哪种逻辑度量用于逻辑回归(Cox&Snell或Nagelkerke)?
我有SPSS逻辑回归模型的输出。输出报告模型拟合的两个度量,Cox & Snell和Nagelkerke。 因此,根据经验,您会在模型适合时报告哪些R2R²R^²度量? 或者,期刊中通常会报告哪些适合指数? 一些背景:回归试图从一些环境变量(例如,陡度,植被覆盖等)中预测鸟类的存在与否。不幸的是,这只鸟很少出现(35次击中468次未中),因此回归表现很差。Cox&Snell是.09,Nagelkerke是.23。 主题是环境科学或生态学。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
与相关系数之间的关系
比方说,我有两个一维数组,一种1个a1a_1和一种2a2a_2。每个包含100个数据点。一种1个a1a_1是实际数据,一种2a2a_2是模型预测。在这种情况下,[R2R2R^2值为: [R2= 1 - S小号[R Ë 小号小号小号吨ö 吨 (1 )。R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). 同时,这将等于相关系数的平方值, [R2= (相关系数)2(2 )。R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). 现在,如果我交换两个:一种2a2a_2是实际的数据,和一种1个a1a_1是模型预测。根据等式(2 )(2)(2),由于相关系数无关紧要,因此[R2R2R^2值相同。然而,从等式(1 )(1)(1),小号小号吨ö 吨= ∑一世(y一世- ÿ¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2时,[R2R2R^2值将改变,因为小号小号吨ö 吨SStotSS_{tot}如果我们切换已经改变ÿyy从一种1个a1a_1到一种2a2a_2 ; 在此同时,小号小号[R Ë 小号= ∑一世(f一世- ÿ¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2也不会改变。 我的问题是:这些如何相互矛盾? 编辑: …

1
手动计算的
我知道这是一个相当具体的R问题,但我可能正在考虑错误解释的比例方差。开始。[R2R2R^2 我正在尝试使用该R包装randomForest。我有一些训练数据和测试数据。当我拟合随机森林模型时,该randomForest函数允许您输入新的测试数据进行测试。然后,它告诉您此新数据中说明的方差百分比。当我看到这个时,我得到一个数字。 当我使用该predict()函数基于训练数据的模型拟合来预测测试数据的结果值时,并取这些值与测试数据的实际结果值之间的平方相关系数,得出一个不同的数字。这些值不匹配。 这是一些R代码来演示该问题。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set (column …

2
R中lm中的调整后R平方公式是什么,应如何解释?
调整后的R平方在R中使用的确切公式是什么lm() ?我该怎么解释? 调整后的r平方公式 似乎存在一些公式来计算调整后的R平方。 Wherry的公式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} 麦克尼马尔公式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 洛德公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 斯坦因公式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科书说明 根据菲尔德的教科书《使用R发现统计信息》(2012年,第273页),R使用了Wherry方程,“告诉我们如果该模型是从采样样本中得出的,则Y可以解释多少差异”。他没有给出Wherry的配方。他建议(手动)使用Stein的公式来检查模型的交叉验证程度。 Kleiber / Zeileis,《应用计量经济学与R》(2008年,第59页)声称它是“ Theil的R平方调整后的值”,并且没有确切说明其解释与多个R平方的差异。 Dalgaard在Introductory Statistics with R(2008,p。113)中写道:“如果[调整后的R平方]乘以100%,则可以解释为'%方差减少'”。他没有说这对应哪个公式。 我以前曾想并广泛地读到R平方会给模型增加其他变量而受到惩罚。现在,使用这些不同的公式似乎需要不同的解释。我还研究了有关堆栈溢出的一个相关问题(在单变量最小二乘回归中,多个R平方和调整R平方之间有什么区别?),以及UPenn的Wharton学校统计词典。 问题 哪个公式用于通过R调整的r平方 lm()? 我该怎么解释?

1
“确定系数”和“均方误差”之间有什么区别?
对于回归问题,我已经看到人们使用“确定系数”(aka R平方)执行模型选择,例如,找到适当的惩罚系数以进行正则化。 但是,通常也使用“均方误差”或“均方根误差”作为回归精度的量度。 那么,这两者之间的主要区别是什么?是否可以将它们互换用于“规范化”和“回归”任务?每种方法在实践中的主要用途是什么,例如在机器学习,数据挖掘任务中?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
GLM的伪R平方公式
我在《用R扩展线性模型》一书朱利安·J·法拉维(第59页)中找到了伪的公式。[R2[R2R^2 1 - ResidualDeviance空距离1个-残差空距离1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 这是GLM的伪的通用公式吗?[R2[R2R^2

2
零假设下线性回归中的分布是什么?为什么当时其模式不为零?
在原假设下,线性单变量多元回归中的确定系数或R平方的分布是什么?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 它如何取决于预测变量数量和样本数量?此分布方式是否有封闭形式的表达式?kkkn&gt;kn&gt;kn>k 特别是,我有一种感觉,对于简单回归(具有一个预测变量),此分布的众数为零,但对于多重回归,其众数为非零正值。如果确实是这样,是否对这种“相变”有直观的解释?xxx 更新资料 如下@Alecos所示,当和时,分布确实在零处达到峰值,而当时,分布则不在零处。我觉得应该对这种相变有一个几何的看法。考虑OLS的几何视图:是的向量,在此处定义一个维子空间。OLS等于将投影到该子空间上,并且是和其投影之间的角度的平方余弦。k=2k=2k=2k=3k=3k=3k&gt;3k&gt;3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2ÿyy\mathbf yy^y^\hat{\mathbf y} 现在,从@Alecos的答案可以得出结论,如果所有向量都是随机的,则对于和,该角度的概率分布将在处达到峰值,但在对于。为什么?!90∘90∘90^\circk=2k=2k=2k=3k=3k=3&lt;90∘&lt;90∘<90^\circk&gt;3k&gt;3k>3 更新2:我接受@Alecos的回答,但仍然感觉我在这里缺少一些重要的见解。如果有人对这种现象提出任何其他(无论是几何还是非几何)观点,使它变得“显而易见”,我将很乐意提供悬赏。

9
测量基于逻辑回归的模型的准确性
我有一个训练有素的逻辑回归模型,该模型将应用于测试数据集。因变量是二进制(布尔值)。对于测试数据集中的每个样本,我应用逻辑回归模型来生成因变量为true的概率百分比。然后我记录实际价值是对还是错。我正在尝试计算线性回归模型中的或Adjusted数字。R 2[R2R2R^2[R2R2R^2 这为我提供了测试集中每个样本的记录,例如: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... 我想知道如何测试模型的准确性。我的第一个尝试是使用列联表,并说“如果prob_value_is_true&gt; 0.80,则猜测实际值为真”,然后测量正确分类与错误分类的比率。但我不喜欢这样,因为感觉更像是我只是以0.80为边界进行评估,而不是整个模型以及所有prob_value_is_true值的准确性。 然后,我尝试仅查看每个prob_value_is_true离散值,例如查看prob_value_is_true= 0.34的所有样本,并测量实际值是真实的那些样本的百分比(在这种情况下,如果样本的百分比为%,则将具有完美的准确性正确= 34%)。我可以通过将的每个离散值的差值相加来创建模型准确性得分prob_value_is_true。但是这里的样本大小是一个巨大的问题,尤其是对于极端情况(接近0%或100%),这样实际值的平均值就不准确,因此使用它们来衡量模型的准确性似乎并不正确。 我什至尝试创建巨大的范围以确保足够的样本量(0-.25,.25-.50,.50-.75,.75-1.0),但是如何测量实际值的%的“好” 。假设所有prob_value_is_true介于0.25和0.50之间的样本的平均值acutal_value为0.45。既然在范围内,那好吗?不好,因为它不在37.5%(范围的中心)附近? 因此,我被困在似乎应该是一个简单的问题上,希望有人可以将我指向一种资源或方法,以计算逻辑回归模型的静态精度。

1
多重相关系数和确定系数几何解释
我对回归的多重相关性和确定系数的几何含义感兴趣或矢量记号,RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} 这里的设计矩阵有行和列,其中第一个是,它是1s的向量,对应于截距。XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 在维主题空间而不是维变量空间中,几何更有趣。定义帽子矩阵:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top 这是的列空间上的正交投影,即 由代表每个变量的向量跨越的原点的平坦部分,其中第一个是。然后将观测到的响应投影到平面上的“阴影”上,拟合值的向量,如果沿着投影的路径看,我们会看到残差向量形成了三角形的第三边。这应该为我们提供两种途径来对进行几何解释XX\mathbf{X}kkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}ý = ħ Ŷ ë = ÿ - ÿ - [R 2yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}R2R2R^2: 多重相关系数的平方,它定义为和之间的相关性。这将在几何上显示为角度的余弦。RRRÿyy\mathbf{y}y^y^\mathbf{\hat{y}} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.