Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
在线性回归中,为什么正则化也会同时惩罚参数值?
目前正在学习岭回归,对于更复杂的模型(或更复杂的模型的定义)的惩罚我感到有些困惑。 据我了解,模型复杂度不一定与多项式阶数相关。因此:是比更复杂的模型2 + 3 + 4 x2+ 5 x3+ 6 x42+3+4X2+5X3+6X4 2 + 3+ 4x^2 + 5x^3 + 6x^45 x55X5 5x^5 而且我知道正则化的目的是保持模型复杂度低,例如说我们有一个五阶多项式F(x ; w )= w0+ w1个x + w2X2+ w3X3+ w4X4+ w5X5F(X;w)=w0+w1个X+w2X2+w3X3+w4X4+w5X5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 参数越多,则0越好。 但是我不明白的是,如果是相同阶数的多项式,为什么较低的参数值会减少较少的损失?那么为什么会: 2 + …


3
在其他回归变量上回归Logistic回归残差
将OLS回归应用于连续响应后,可以通过依次运行每个协变量上的残差回归来建立多元回归方程。我的问题是,有没有办法通过逻辑回归残差进行逻辑回归呢? 也就是说,如果我想使用标准的广义线性建模方法来估计,有没有一种方法可以对x进行逻辑回归并获得伪残差R_1,然后对z回归R_1到得到逻辑回归系数的无偏估计量。对教科书或文献的参考将不胜感激。Pr(Y=1|x,z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)xxxR1R1R_1R1R1R_1zzz

1
正则化线性与RKHS回归
我正在研究RKHS回归中的正则化与线性回归之间的差异,但是我很难理解两者之间的关键差异。 给定的输入-输出对,我想估计的函数如下 ,其中是内核函数。可以通过求解来找到 系数 其中,在某种程度上滥用符号的情况下,内核矩阵K的第i,j个条目是{\ displaystyle K(x_ {i},x_ {j})}。这给出 \ begin {equation} \ alpha ^ * =(K + \ lambda nI)^ {-1} Y。\ end {equation}(xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation}K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)αmαm\alpha_m我,Ĵķķ(X我,XĴ)α*=(ķ+λÑ我)-1ÿ。minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}i,ji,ji,jKKKK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation} 另外,我们可以将该问题视为正常的岭回归/线性回归问题: 分α ∈ [Rñ1个ñ∥ ÿ− Kα ∥2[Rñ+ λ αŤα,分α∈[Rñ1个ñ‖ÿ-ķα‖[Rñ2+λαŤα,\begin{equation} {\displaystyle \min …

4
拟合线性模型后,是否可以将拟合残差分解为偏差和方差?
我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。 是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助? 如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?

1
线性回归偏差方差分解中的方差项
在“统计学习的要素”中,线性模型的偏差方差分解的表达式为 其中是实际目标函数,是模型和是对线性估计。˚F (X 0)σ 2 ε ÿ = ˚F (X )+ εEr r (x0)=σ2ϵ+E[f(x0)- ËF^(x0)]2+ | | h (x0)| |2σ2ϵ,E[R[R(X0)=σϵ2+Ë[F(X0)-ËF^(X0)]2+||H(X0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,F(x0)F(X0)f(x_0)σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilonf^(x)f^(x)\hat f(x)f(x)f(x)f(x) 方差项在这里令我感到困扰,因为等式暗示如果目标无噪声,即,方差将为零但这对我来说没有意义,因为即使噪声为零,对于不同的训练集,我仍然可以获得不同的估计值,这意味着方差不为零。σ2ϵ=0.σϵ2=0.\sigma_\epsilon^2=0.f^(x0)f^(x0)\hat f(x_0) 例如,假设目标函数是二次方,并且训练数据包含从该二次方随机采样的两个点;显然,每次从二次目标中随机采样两个点时,我都会得到不同的线性拟合。那么方差如何为零?f(x0)f(x0)f(x_0) 谁能帮助我找出我对偏差方差分解的理解中存在的问题?

1
为什么多项式回归中的贝叶斯可信区间偏向而置信区间正确?
考虑下面的绘图,在该绘图中,我模拟了以下数据。我们看一下二元结果,用黑线表示真实概率为1。协变量x和p (y o b s = 1 | x )之间的函数关系是具有逻辑链接的三阶多项式(因此在双向过程中是非线性的)。yobsyobsy_{obs}xxxp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 绿线是GLM logistic回归拟合,其中被引入为三阶多项式。虚线绿线是围绕预测的95%置信区间p (Ý ø b 小号 = 1 | X ,β),其中β拟合回归系数。我曾经和这个。xxxp(yobs=1|x,β^)p(yobs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm 类似地,pruple线与95%可信区间的平均后的使用均匀现有贝叶斯逻辑回归模型的。为此,我使用了具有功能的软件包(设置提供了统一的先验信息)。p(yobs=1|x,β)p(yobs=1|x,β)p(y_{obs}=1 | x, \beta)MCMCpackMCMClogitB0=0 红点表示数据集中的观测值,黑点表示y o b s = 0的观测值。请注意,在分类/离散分析中常见的是y,但没有观察到p (y o b s = 1 | x )。yobs=1yobs=1y_{obs}=1yobs=0yobs=0y_{obs}=0yyyp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 可以看到几件事: 我故意模拟了左手稀疏。我希望由于缺乏信息(观察)而在这里扩大信心和可信区间。xxx …

1
何时使用Deming回归
我目前正在研究一种将两种不同的磷测试值相互转换的方法。 背景 存在许多(提取)方法来测量土壤中植物有效磷的含量。不同的国家采用不同的方法,因此要比较各个国家的P生育率,有必要根据P检验值y计算P检验值x,反之亦然。因此,响应和协变量是可互换的。 萃取剂1中的P含量= [mg / 100g土壤]中的P_CAL 萃取剂2中的P量= [mg / 100g土壤]中的P_DL 为了建立这样的“转化方程”,用CAL和DL提取物分析了136个土壤样品的P含量。还测量了其他参数,例如土壤pH值,总有机碳,总氮,粘土和碳酸盐。目的是得出一个简单的回归模型。第二步也是多重模型。 为了提供数据概述,我向您展示了两个具有简单线性(OLS)回归线的散点图。 问题: 据我了解,如果respone(y)和解释性(x)变量都具有(测量)错误并且可以互换,则进行deming回归是合适的。Deming回归假设方差比是已知的。由于我没有关于P提取测量准确度的详细信息,是否还有另一种确定方差比的方法?此处表示哪个差异?我假设它不是计算出来的var(DL_P)/var(CAL_P)? 问题1:如何确定抽样回归的方差比? 定型回归的一种特殊情况是正交回归。假设方差比= 1。 问题2:是否有一种方法可以诊断假设δ= 1是否“大致”正确,或者(假)假设需要很高的预测误差? 如果我假设δ= 1,则正交回归将提供以下(四舍五入)的输出 library(MethComp) deming <- Deming(y=P_CAL, x=P_DL, vr=1) 截距:0.75;斜率:0.71;sigma P_DL:3.17;sigma P_CAL:3.17 在上面的图中绘制deming回归线,表明deming回归与a)CAL-P = f(DL-P)回归非常接近,但与b)DL-P = f(CAL-P)非常不同方程。 问题3:在正交回归中,CAL-P = f(DL-P)和DL-P = f(CAL-P)用相同的方程表示是正确的吗?如果没有,如何为两者推导正确的方程式?我在这里想念什么? 由于两种萃取液的特性,DL-P值往往比CAL-P值高25%左右,因此CAL-P = f(DL-P)的斜率应高于DL-P = f(CAL -P)。但是,只有一个斜率时,这不会在deming回归中表达。这给了我最后一个问题。 问题4:对我而言,定义回归是一种有效的方法吗?

3
在存在多重共线性的情况下确定线性回归系数的统计显着性
假设我有一堆人口规模不同的城市,我想看看城市中酒类商店的数量与DUI的数量之间是否存在正线性关系。我根据估计的回归系数的t检验确定这种关系是否重要。 现在显然是流行音乐。城市的规模将与DUI的数量以及酒类商店的数量呈正相关。因此,如果我仅对酒类商店进行简单的线性回归,并查看其回归系数是否在统计上有意义,那么我可能会遇到多重共线性问题,并高估了酒类商店对DUI的影响。 我应该使用两种方法中的哪一种来纠正此问题? 我应该将城市中的酒类商店数量除以其人口数,以获得人均酒类商店价值,然后以此为基础进行回归。 我应该对白酒储存量和大小进行回归,然后查看在控制大小时白酒储存系数是否显着。 还有其他方法吗? 老实说,我无法确定哪个看起来更明智。我在他们之间摇摆不定,这取决于我想到的那一个,我是否能够使自己确信这是正确的方法。 一方面,人均酒类商店似乎是使用的正确变量,因为DUI是由个人实施的,但是从统计角度来看,这似乎并不十分严格。另一方面,控制大小似乎在统计上是严格的,但是是间接的。此外,如果在计算了人均酒量变量后重新定标,则两种方法之间的回归系数非常相似,但是方法1会产生较小的p值。

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
为什么在论文中很少报道Anova结果中使用哪种平方和?
根据我短暂的统计经验,似乎用于获得方差分析结果的平方和类型(I,II,III,IV等)可能会极大地影响测试结果(尤其是存在相互作用且缺失的模型)数据)。但是,我还没有看到一篇报告它的论文。为什么会这样? 如果有人能提供一种示例文件以某种方式报告该报告(而不是统计信息本身),或者不常见的原因,我将不胜感激。

2
线性回归:*为什么*可以划分平方和?
这篇文章引用了一个二元线性回归模型。我一直将基于信度的总平方和(SSTO)分为误差平方和(SSE)和模型的平方和(SSR),但是一旦我开始认真考虑,我就不明白为什么起作用...Yi=β0+β1xiYi=β0+β1xiY_i = \beta_0 + \beta_1x_i 我的部分不理解: yiyiy_i:y的观测值 y¯y¯\bar{y}:所有观测到的 s 的平均值yiyiy_i y^iy^i\hat{y}_i:给定观察值x的y的拟合/预测值 yi−y^iyi−y^iy_i - \hat{y}_i:残差/误差(如果平方和加总为所有观察值,则为SSE) y^i−y¯y^i−y¯\hat{y}_i - \bar{y}:模型拟合值与平均值相差多少(如果对所有观察值进行平方和加和,则为SSR) yi−y¯yi−y¯y_i - \bar{y}:观测值与平均值相差多少(如果对所有观测值进行了求和,则为SSTO)。 我可以理解为什么,对于一次观察,不求平方,。我能理解为什么,如果要将所有观测值相加,则必须将它们平方,否则它们的总和将为0。(yi−y¯)=(y^i−y¯)+(yi−y^i)(yi−y¯)=(y^i−y¯)+(yi−y^i)(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i) 我不明白的部分是为什么(例如,SSTO = SSR + SSE)。看来,如果您遇到,那么,而不是。为什么这里不是这种情况?(yi−y¯)2=(y^i−y¯)2+(yi−y^i)2(yi−y¯)2=(y^i−y¯)2+(yi−y^i)2(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2A=B+CA=B+CA = B + CA2=B2+2BC+C2A2=B2+2BC+C2A^2 …


1
对高斯过程回归方程推导的怀疑
我正在阅读本文的预印本,在他们推导高斯过程回归方程式时遇到了困难。他们使用Rasmussen&Williams的设置和符号。因此,假定具有方差加性,零均值,平稳和正态分布噪声:σ2Ñ ø 我小号ËσñØ一世sË2\sigma^2_{noise} ÿ= f(x)+ ϵ ,ε 〜Ñ(0 ,σ2Ñ ø 我小号Ë)ÿ=F(X)+ϵ,ϵ〜ñ(0,σñØ一世sË2)y=f(\mathbf{x})+\epsilon, \quad \epsilon\sim N(0,\sigma^2_{noise}) 对于假定GP均值为零,这意味着,\ mathbf {f} = \ {f(\ mathbf {x_1}),\ dots,f (\ mathbf {x_d})\}是具有均值0和协方差矩阵的高斯向量F(x)F(X)f(\mathbf{x})∀ d ∈ ñ∀ d∈ñ\forall \ d\in NF= { f(x1个),…,f(xd)}f={f(x1),…,f(xd)}\mathbf{f}=\{f(\mathbf{x_1}),\dots,f(\mathbf{x_d})\} Σd=⎛⎝⎜⎜k(x1,x1)k(xd,x1)⋱k(x1,xd)k(xd,xd)⎞⎠⎟⎟Σd=(k(x1,x1)k(x1,xd)⋱k(xd,x1)k(xd,xd))\Sigma_d=\pmatrix{k(\mathbf{x_1},\mathbf{x_1})& & k(\mathbf{x_1},\mathbf{x_d}) \\ & \ddots & \\k(\mathbf{x_d},\mathbf{x_1})& & k(\mathbf{x_d},\mathbf{x_d}) } 从现在开始,我们假设超参数是已知的。那么,论文的等式(4)是显而易见的: p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(f,f∗)=N(0,(Kf,fKf∗,fKf∗,fKf∗,f∗))p(\mathbf{f},\mathbf{f^*})=N\left(0,\pmatrix { K_{\mathbf{f},\mathbf{f}} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.