Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
控制和治疗之间的差异应该显式还是隐式建模?
给出以下实验设置: 从受试者中采集多个样品,并对每个样品进行多种处理(包括对照治疗)。主要有趣的是对照和每种处理之间的差异。 我可以为这个数据想到两个简单的模型。以样本,处理,处理0为对照,令为数据,为样本的基线,为处理的差。第一个模型同时考虑了控制和差异:一世iiĴjjÿ我ĴYijY_{ij}γ一世γi\gamma_i一世iiδĴδj\delta_jĴjj ÿ我Ĵ=γ一世+δĴ+ϵ我ĴYij=γi+δj+ϵij Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij} δ0= 0δ0=0 \delta_0=0 虽然第二种模型仅着眼于差异。如果我们预先计算预先 然后 d我Ĵdijd_{ij}d我Ĵ=ÿ我Ĵ-ÿ我0dij=Yij−Yi0 d_{ij}=Y_{ij}-Y_{i0} d我Ĵ=δĴ+ε我Ĵdij=δj+εij d_{ij}=\delta_j+\varepsilon_{ij} 我的问题是这两种设置之间的根本区别是什么?尤其是,如果这些级别本身没有意义,而只有差异很重要,那么第一个模型是否做得太多并且动力不足?

1
有条件异方差的线性模型的推论
假设我观察到独立变量向量和以及因变量y。我想拟合以下形式的模型: y = \ vec {x} ^ {\ top} \ vec {\ beta_1} + \ sigma g \ left(\ vec {z} ^ {\ top} \ vec {\ beta_2} \ right)\ epsilon, 其中g是某个正值二次可微函数,\ sigma是未知的缩放参数,\ epsilon是零均值,单位方差高斯随机变量(假定独立于\ vec {x}和\ vec {z})。这实质上是Koenker异方差检验的设置(至少据我所知)。x⃗ x→\vec{x}z⃗ z→\vec{z}yyyy=x⃗ ⊤β1→+σg(z⃗ ⊤β2→)ϵ,y=x→⊤β1→+σg(z→⊤β2→)ϵ,y = \vec{x}^{\top}\vec{\beta_1} + \sigma g\left(\vec{z}^{\top} \vec{\beta_2}\right) \epsilon,gggσσ\sigmaϵϵ\epsilonx⃗ x→\vec{x}z⃗ …

2
您希望LARS找到的模型与穷举搜索找到的模型有何不同?
更多信息;假设 您事先知道要选择多少个变量,并且您在LARS过程中设置了复杂度损失,例如要使具有不为0系数的变量恰好有多少, 计算成本不是问题(变量的总数很小,例如50), 所有变量(y,x)都是连续的。 在什么设置下,LARS模型(即LARS拟合中具有非零系数的那些变量的OLS拟合)与系数相同但通过穷举搜索找到的模型(la regsubsets())最大不同? 编辑:我使用的是50个变量和250个观测值,它们的真实系数是从标准高斯得出的,除了10个变量的“真实”系数为0(并且所有特征彼此之间具有很强的相关性)。这些设置显然不好,因为两组所选变量之间的差异很小。这实际上是一个问题,应该模拟哪种类型的数据配置以获得最大的差异。

2
如何测试回归系数是否受分组变量影响?
我根据调节变量(例如性别)对两组样本进行了回归。我正在通过检查回归的显着性是否在一组中丢失而在另一组中保留,来对调节效果进行简单测试。 Q1:上述方法是有效的,不是吗? 问题2:我的研究的置信度设置为95%。对于一组,回归显着为.000。另一方面,它在0.038处是显着的。因此,我相信我必须接受两个回归都是显着的,并且没有缓和作用。通过接受回归在显着性不是0.01时很重要,是否会导致I型错误(接受伪造的论点)?


1
多元正交多项式回归?
作为激励问题的一种方法,请考虑一个回归问题,我们试图使用观察到的变量来估计ÿÿY{ a ,b }{一个,b}\{ a, b \} 在进行多元多项式回归时,我尝试找到函数的最佳拟似化 F(y)=C1个一个+C2b +C3一个2+C4a b +C5b2+ ⋯F(ÿ)=C1个一个+C2b+C3一个2+C4一个b+C5b2+⋯f(y)=c_{1}a+c_{2}b+c_{3}a^{2}+c_{4}ab+c_{5}b^{2}+\cdots 在最小二乘意义上最适合数据。 然而,与此有关的问题是参数不是独立的。有没有办法对正交的不同“基本”向量集进行回归?这样做有很多明显的优势C一世C一世c_i 1)系数不再相关。2)本身的值不再取决于系数的程度。3)这也具有计算上的优势,即能够舍弃高阶项,从而对数据进行更粗略但仍准确的近似。C一世C一世c_i 这在使用正交多项式的单变量情况下,以及经过深入研究的集合(如Chebyshev多项式)很容易实现。然而(无论如何对我来说)如何概括这一点并不明显!我想到我可以成对地切比雪夫多项式,但是我不确定这在数学上是否正确。 感谢您的帮助

1
泊松/对数线性模型的似然比检验是否需要调整零计数?
如果列联表中的数字为0,并且我们正在对嵌套的泊松/对数线性模型(使用R glm函数)进行似然比检验,那么在拟合glm模型之前是否需要调整数据(例如,将1/2加到所有计数)?显然,如果不进行一些调整就无法估计某些参数,但是调整/缺少调整对LR测试有何影响?

4
线性回归中变量阶重要吗
我正在研究两个变量(和)之间的相互作用。这些变量之间存在很大的线性相关,其中。从问题的本质上,我无法说出因果关系(是否导致或相反)。我想研究与回归线的偏差,以发现异常值。为了做到这一点,我可以建立作为的函数的线性回归,或者。我选择的可变顺序会影响我的结果吗?X1个X1个x_1X2X2x_2r > 0.9[R>0.9r>0.9X1个X1个x_1X2X2x_2X1个X1个x_1X2X2x_2


4
线性回归系数估计的解析解
我试图理解矩阵符号,并使用向量和矩阵。 现在,我想了解如何计算多元回归中的系数估计向量。β^β^\hat{\beta} 基本方程似乎是 ddβ(y−Xβ)′(y−Xβ)=0.ddβ(y−Xβ)′(y−Xβ)=0. \frac{d}{d\boldsymbol{\beta}} (\boldsymbol{y}-\boldsymbol{X\beta})'(\boldsymbol{y}-\boldsymbol{X\beta}) = 0 \>. 现在如何在这里求解向量ββ\beta? 编辑:等等,我被卡住了。我现在在这里,不知道如何继续: ddβ⎛⎝⎜(y1y2⋮yn)−⎛⎝⎜11⋮1x11x21xn1x12x22xn2………x1px2p⋮xnp⎞⎠⎟⎛⎝⎜β0β1⋮βp⎞⎠⎟⎞⎠⎟′⎛⎝⎜(y1y2⋮yn)−⎛⎝⎜11⋮1x11x21xn1x12x22xn2………x1px2p⋮xnp⎞⎠⎟⎛⎝⎜β0β1⋮βp⎞⎠⎟⎞⎠⎟ddβ((y1y2⋮yn)−(1x11x12…x1p1x21x22…x2p⋮⋮1xn1xn2…xnp)(β0β1⋮βp))′((y1y2⋮yn)−(1x11x12…x1p1x21x22…x2p⋮⋮1xn1xn2…xnp)(β0β1⋮βp)) \frac{d}{d{\beta}} \left( \left(\begin{smallmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{smallmatrix}\right) - \left(\begin{smallmatrix} 1 & x_{11} & x_{12} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & \dots & x_{2p} \\ \vdots & & & & …

1
R实现部分确定系数
有没有人有建议或一揽子计划来计算部分确定系数? 可以将部分确定系数定义为无法在简化模型中解释的变化百分比,但可以由完整模型中指定的预测变量解释。该系数用于深入了解一个或多个其他预测变量在更完全指定的回归模型中是否有用。 在估计您的两个模型并为它们生成ANOVA表后,部分r ^ 2的计算相对简单。局部r ^ 2的计算为: (减少SSE-减少SSEfull)/减少SSE 我已经编写了这个相对简单的函数,可以为多元线性回归模型计算该函数。我不熟悉R中的其他模型结构,其中该功能可能无法很好地发挥作用: partialR2 <- function(model.full, model.reduced){ anova.full <- anova(model.full) anova.reduced <- anova(model.reduced) sse.full <- tail(anova.full$"Sum Sq", 1) sse.reduced <- tail(anova.reduced$"Sum Sq", 1) pR2 <- (sse.reduced - sse.full) / sse.reduced return(pR2) } 对于完成该任务的更健壮的功能和/或以上代码的更有效实现的任何建议或技巧将不胜感激。
9 r  regression  anova 

1
使用奇异值分解从线性回归模型计算方差协方差矩阵
我有一个p个回归变量,n个观测值的设计矩阵,并且正在尝试计算参数的样本方差-协方差矩阵。我正在尝试使用svd直接计算它。 我正在使用R,当我取设计矩阵的svd时,我得到三个组件:矩阵为,矩阵为 x(可能是特征值),矩阵为。我将对角化,使其成为非对角线中矩阵。UUUn×pn×pn \times pDDD1×31×31\times 3VVV3×33×33\times 3DDD3×33×33\times 3 假设协方差的公式为:,但是矩阵不匹配,甚至不接近R的内置函数。有没有人有任何建议/参考?我承认我在这方面不熟练。VD2V′VD2V′V D^2 V'vcov
9 r  regression 

1
最小角度回归使相关性单调递减并受束缚?
我正在尝试解决最小角度回归(LAR)问题。这是一个问题3.23页面上97的黑斯蒂等,统计学习的要素,第2位。ed。(第5次打印)。 考虑所有变量和响应均值为零,标准差为1的回归问题。还假设每个变量与响应具有相同的绝对相关性: 1N|⟨xj,y⟩|=λ,j=1,...,p1N|⟨xj,y⟩|=λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p 令为上最小二乘系数,并令为。β^β^\hat{\beta}yy\mathbf{y}XX\mathbf{X}u(α)=αXβ^u(α)=αXβ^\mathbf{u}(\alpha)=\alpha \bf{X} \hat{\beta}α∈[0,1]α∈[0,1]\alpha\in[0,1] 要求我显示 ,我对此有疑问。请注意,这基本上可以说,随着我们向前进,每个与残差的相关性在大小上保持相等。1N|⟨xj,y−u(α)⟩|=(1−α)λ,j=1,...,p1N|⟨xj,y−u(α)⟩|=(1−α)λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y}-u(\alpha) \right \rangle | = (1 - \alpha) \lambda, j = 1, ..., p xjxjx_juuu 我也不知道如何显示相关性等于: λ(α)=(1−α)(1−α)2+α(2−α)N⋅RSS√⋅λλ(α)=(1−α)(1−α)2+α(2−α)N⋅RSS⋅λ\lambda(\alpha) = \frac{(1-\alpha)}{\sqrt{(1-\alpha)^2 + \frac{\alpha …

4
应用Tobit回归模型的假设是什么?
我对Tobit回归模型的(非常基础的)知识不是我喜欢的,而是来自一堂课。取而代之的是,我通过一些Internet搜索在这里和那里获取了一些信息。我对截断回归的假设的最佳猜测是,它们与普通最小二乘(OLS)假设非常相似。我不知道那是否正确。 因此,我的问题是:执行Tobit回归时应检查哪些假设? 注意: 这个问题的原始形式指的是截断回归,这不是我正在使用或询问的模型。我已经纠正了这个问题。

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.