Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
KKT与套索回归的无约束公式
L1惩罚回归(又名套索)以两种形式表示。设两个目标函数为 Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. 然后将两种不同的制剂是 argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 受 ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, 和等同 argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. 使用Karush-Kuhn-Tucker(KKT)条件,很容易看出第一种配方的平稳性条件等同于采用第二种配方的梯度并将其设置为0。我找不到,也找不到,是第一种配方的补充松弛条件λ(||β||1−t)=0λ(||β||1−t)=0\lambda\left(||\beta||_1 - t\right) = 0如何通过第二种配方的溶液保证得到满足。

2
将多元线性模型转换为多元回归
将多元线性回归模型重铸为多元线性回归是否完全等效?我指的不是简单地运行单独的回归。ttt 我已经在几个地方(贝叶斯数据分析-Gelman等人,以及Multivariate Old School-Marden)中读到了这一点,可以很容易地将多元线性模型重新参数化为多元回归。但是,两个消息来源都没有对此进行详细说明。他们本质上只是提到它,然后继续使用多元模型。数学上,我将首先编写多元版本, Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 其中粗体变量是矩阵,其大小在其下方。和往常一样,是数据,是设计矩阵,是正态分布的残差,而是我们感兴趣的推理对象。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} 要将其重新参数化为熟悉的多元线性回归,只需将变量重写为: ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, 其中使用的重新参数化为y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) ,β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})和D=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()表示矩阵的行首尾相连排列成一个长向量,⊗⊗\otimes是kronecker或外部乘积。 …

3
当响应由第四根转换时,如何解释回归系数?
1/4由于异方差性,我在响应变量上使用了四次root()幂转换。但是现在我不确定如何解释回归系数。 我假设我在进行逆变换时需要将系数取四次方(请参见下面的回归输出)。所有变量均以百万美元为单位,但我想知道数十亿美元的变化。 在使另一个自变量保持恒定的同时,平均费用变化10亿美元会导致32收款变化(或32,000美元)。我接受0.000075223 * 1000(达到数十亿美元)^ 4 = 0.000032。现在,我是否将此数字乘以100万或10亿(因变量的原始单位为百万)? lm(formula = (Collections^(1/4)) ~ Fees + DIR) Estimate Std. Error t value Pr(>|t|) (Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151 Fees **0.000075223 **0.000008411 8.943 0.0000000131878713 DIR 0.000022279 0.000004107 5.425 0.0000221138881913

4
在beta回归中处理0.1值
我在[0,1]中有一些数据,希望通过beta回归进行分析。当然,需要做一些事情来容纳0,1值。我不喜欢修改数据以适合模型。我也不认为通货膨胀为零和1是个好主意,因为我认为在这种情况下,应将0视为很小的正值(但我不想确切地说出什么值是合适的。一个合理的选择我相信应该选择.001和.999这样的较小值,并使用beta的累积距离来拟合模型,因此对于观测值y_i,对数似然度LL_i应该为 if y_i < .001 LL+=log(cumd_beta(.001)) else if y_i>.999 LL+=log(1.0-cum_beta(.999)) else LL+=log(beta_density(y_i)) 我喜欢这个模型的地方在于,如果beta回归模型有效,那么该模型也是有效的,但是它消除了对极值的敏感性。但是,这似乎是一种自然的方法,我想知道为什么我在文献中找不到任何明显的参考文献。所以我的问题是不是修改数据,而不是修改模型。修改数据会使结果产生偏差(基于原始模型有效的假设),而通过对极值进行装仓来修改模型不会使结果产生偏差。 也许有一个我忽略的问题?

1
计算预测间隔以进行逻辑回归
我想了解如何为逻辑回归估计生成预测间隔。 建议我遵循Collett的Modeling Binary Data,第二版,第98-99页中的步骤。在实现了此过程并将其与R进行比较之后predict.glm,我实际上认为这本书展示的是计算置信区间而非预测区间的过程。 与相比predict.glm,Collett实施了该程序,如下所示。 我想知道:如何从这里开始产生预测间隔而不是置信区间? #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df …


6
何时从回归模型中删除一项?
任何人都可以建议以下是否有意义: 我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除:将这个术语的估计值乘以(例如)该变量的样本数据的四分位数范围,可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低,大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内,因此我认为该变量在临床上不具有重大意义,因此可以删除以给出更简化的模型,甚至尽管降低它会稍微降低调整后的R 2。pppR2R2R^2

2
二项式回归和逻辑回归之间有什么区别?
我一直认为逻辑回归只是二项式回归的一种特殊情况,其中链接函数是逻辑函数(而不是概率函数)。 但是,通过阅读我遇到的另一个问题的答案,听起来我可能会感到困惑,并且逻辑回归和具有逻辑联系的二项式回归之间存在差异。 有什么不同?

6
简单的线性回归输出解释
我对2个变量的自然对数进行了简单的线性回归,以确定它们是否相关。我的输出是这样的: R^2 = 0.0893 slope = 0.851 p < 0.001 我很困惑。查看R2R2R^2值,我会说两个变量不相关,因为它非常接近。但是,回归线的斜率几乎为(尽管看起来在图中几乎是水平的),并且p值表明回归非常显着。000111 这是否意味着这两个变量是高度相关?如果是这样,值表示什么?R2R2R^2 我应该补充一点,Durbin-Watson统计数据已在我的软件中进行了测试,并且没有拒绝原假设(等于)。我认为这测试了变量之间的独立性。在这种情况下,我希望变量是相关的,因为它们是单个鸟的测量。我将这种回归作为确定个人身体状况的已发布方法的一部分,因此我认为以这种方式使用回归是有意义的。但是,考虑到这些输出,我想也许对这些鸟来说,这种方法不合适。这似乎是一个合理的结论吗?1.3571.3571.357222222

4
平均相关值
假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图: 上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。 我想之间计算“平均相关性”(或“平均关系”)X和Y。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2R2R^2rR2R2R^2

2
从惩罚回归模型估计R平方和统计显着性
我使用受罚的R包来获取数据集的压缩系数估计,在该数据集中,我有很多预测变量,而对于哪些预测变量很重要则知之甚少。在选择了调整参数L1和L2并且对系数感到满意之后,是否有一种统计上合理的方法来汇总模型拟合度(如R平方)? 此外,我对测试模型的整体重要性感兴趣(即R²= 0还是全部= 0)。 我已仔细阅读了此处提出的类似问题的答案,但并没有完全回答我的问题。我在这里使用的R包有一个很好的教程,作者Jelle Goeman在教程的最后有关于注释式回归模型的置信区间的以下注释: 要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用引导程序。 尽管如此,该程序包还是故意不提供它们。这样做的原因是,标准误差对于严重偏差的估算(例如由惩罚估算方法产生的估算)不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此,每个估计量的偏差都是其均方误差的主要组成部分,而其方差可能只占很小的一部分。 不幸的是,在惩罚回归的大多数应用中,不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时,才可以使用偏差的可靠估计,而在使用罚分估计的情况下,情况通常并非如此。 因此,报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象,而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明,例如基于引导程序的置信区间,确实是一个错误。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


2
选择LASSO变量后进行OLS有何意义?
最近,我发现在应用的计量经济学文献中,当处理特征选择问题时,通常会执行LASSO,然后使用所选变量进行OLS回归。 我想知道如何才能证明这种程序的有效性。会引起诸如变量遗漏之类的麻烦吗?有没有证据表明它更有效,或者结果更容易解释? 这里是一些相关的讨论: LASSO进行变量选择 使用套索/随机变量选择变量后使用树 如前所述,如果这样的程序总体上是不正确的,那么为什么还有如此多的研究呢?我可以说由于LASSO估算器的某些不可靠特性以及人们对OLS的偏爱,这只是一个经验法则,一个折衷的解决方案?

2
残差图:为什么要比较拟合值而不是观测到的
在OLS回归的背景下,我了解到,通常会查看残差图(相对于拟合值)来测试常数方差并评估模型规格。为什么针对拟合而不是值绘制残差?信息与这两个图有何不同?YYY 我正在研究产生以下残差图的模型: 因此,该图与拟合值的关系一目了然,但是针对值的第二个图具有模式。我想知道为什么这样的明显模式也不会在残差vs拟合图中显示出来....YYY YYY 22^2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.