Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
随机矩阵的稀疏诱导正则化
众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b},和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}

4
为什么要在差异中使用控制变量?
我对使用以下标准方程式的“差异中的差异”方法有疑问: 这里treat是治疗组和岗位的虚拟变量。 y=a+b1treat+b2post+b3treat⋅post+uy=a+b1treat+b2post+b3treat⋅post+u y= a + b_1\text{treat}+ b_2\text{post} + b_3\text{treat}\cdot\text{post} + u 现在,我的问题很简单:为什么大多数论文仍然使用其他控制变量?我认为,如果平行趋势假设是正确的,那么我们就不必担心额外的控制措施。我只能想到使用控制变量的2个可能原因: 没有它们,趋势将不会平行 因为DnD规范将治疗时治疗组和对照组之间趋势的任何差异归因于干预措施(即,交互作用术语*治疗后)-当我们不控制其他变量时,交互作用系数可能会超过-/低估了 有人可以阐明这个问题吗?我的理由1)或2)完全有意义吗?我对DnD中控制变量的使用不完全了解。

2
结合二进制和连续响应的最佳方法
我正在尝试提出预测收款公司付款金额的最佳方法。付款后,因变量仅为非零。可以理解的是,由于绝大多数人无法联系到或无法偿还债务,因此存在大量的零。 债务金额和还款可能性之间也存在非常强烈的负相关关系。通常,我会创建一个逻辑模型来预测支付/不支付的可能性,但这不幸的结果是找到了余额最低的人。 有没有一种方法可以将后勤支付/非支付模型与预测支付金额的单独模型结合起来?

1
是否有Pillai迹线和Hotelling-Lawley迹线的推广?
在多元多元回归(向量回归和回归)的设置中,一般假设的四个主要检验(Wilk's Lambda,Pillai-Bartlett,Hotelling-Lawley和Roy's最大根)都取决于矩阵的特征值。,其中和是“解释”和“总计”变异矩阵。高EHË− 1HE−1H E^{-1}HHHËEE 我注意到Pillai和Hotelling-Lawley统计信息都可以表示为 分别表示。我正在寻找一个应用,其中情况下,对于和的总体类似物定义的该迹线的分布是有意义的。(我的工作中存在模错误。)我很好奇,如果通用的样本统计信息存在某种已知的统一性,或者捕获了四个经典测试中的两个或多个的其他通用性。我意识到不等于或κ = 1 ,0 ħ ë κ = 2 κ κ 0 1ψκ= Tr (高[ κ ħ+ E]− 1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ = 1 , 0κ=1,0\kappa = 1, 0HHHËEEκ = 2κ=2\kappa = 2κκ\kappaκκ\kappa0001个11,分子在零下不再看起来像卡方,因此中心F逼近似乎值得怀疑,所以也许这是一个死胡同。 我希望对零下(即回归系数的真矩阵全为零)下和替代下的的分布进行一些研究。我对情况特别感兴趣,但是,如果在一般κ情况下有工作,我当然可以使用。ψκψκ\psi_{\kappa}κ = 2κ=2\kappa = 2κκ\kappa

2
正则化
执行正则化的方法有很多- 例如基于,L 1和L 2范数的正则化。根据Friedman Hastie和Tibsharani的说法,最佳正则化器取决于问题:即真正目标函数的性质,所使用的特定基础,信噪比和样本大小。大号0L0L_0大号1个L1L_1大号2L2L_2 是否有任何比较方法和各种正则化方法性能的实证研究?

1
具有学生t错误的回归没有用吗?
请参阅编辑。 当您的数据尾巴很重时,进行带有Student-t错误的回归似乎是一件直观的事情。在探索这种可能性时,我遇到了这篇论文: TS的Breusch,JC的Robertson和AH的威尔士(1997年11月1日)。皇帝的新装:对多元t回归模型的评论。Statistica Neerlandica,51,3.)(link,pdf) 该论据认为,在某种意义上,比例参数和自由度参数是无法相互识别的,因此,进行带有t误差的回归不会做超出标准线性回归的任何事情。 Zellner(1976)提出了一种回归模型,其中数据向量(或误差向量)表示为来自多元Student t分布的实现。该模型引起了相当大的关注,因为它似乎扩大了通常的高斯假设,以允许更严重的误差分布。文献中的许多结果表明,在较宽的分布假设下,高斯模型的标准推理程序仍然适用,从而导致了标准方法的鲁棒性。我们证明,尽管从数学上讲这两个模型是不同的,但出于统计推断的目的,它们是无法区分的。多元t模型的经验含义与高斯模型的经验含义完全相同。因此,建议采用更广泛的数据分布表示形式是虚假的,而健壮性的主张则具有误导性。这些结论是从频繁主义者和贝叶斯主义者的角度得出的。 这让我感到惊讶。 我没有数学上的技巧来很好地评估他们的论点,所以我有两个问题:确实,用t误差进行回归通常没有用吗?如果它们有时有用,是我误解了本文还是引起误解?如果它们没有用,这是众所周知的事实吗?还有其他方法可以处理大量拖尾的数据吗? 编辑:仔细阅读第3段和第4节,似乎下面的文章并没有在谈论我作为学生t回归的想法(错误是独立的单变量t分布)。错误是从单一分布中得出的,并且不是独立的。如果我理解正确,那么这种缺乏独立性正是解释为什么您无法独立估计自由度和自由度的原因。 我猜这篇文章提供了一份避免阅读的论文清单。



2
如何选择最佳变换以实现线性?
我想进行多元线性回归,然后以很少的推算来预测新值。我的响应变量的范围是-2到+7,并且有三个预测变量(范围是+10-+200)。分布几乎是正常的。但是响应和预测变量之间的关系不是线性的,我在图中看到了曲线。例如这样的例子:http : //cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg 我想应用变换来实现线性。我尝试通过检查不同的函数并查看生成的图来变换响应变量,以查看响应和预测变量之间的线性关系。而且我发现有很多函数可以给我可见的线性关系。例如功能 t1=log(y+2.5)t1=log⁡(y+2.5)t_1=\log(y+2.5) t2=1log(y+5)t2=1log⁡(y+5)t_2=\frac{1}{\log(y+5)} t3=1y+5t3=1y+5t_3=\frac{1}{y+5} t4=1(y+10)3t4=1(y+10)3t_4=\frac{1}{(y+10)^3} t5=1(y+3)13t5=1(y+3)13t_5=\frac{1}{(y+3)^\frac{1}{3}}等给出类似的结果:http : //cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg 在我将预测值进行反变换之后(对于为等)。分布或多或少与正态分布相似。t=1(y+10)3t=1(y+10)3t=\frac{1}{(y+10)^3}y′=1t13−10y′=1t13−10y’=\frac{1}{t^\frac{1}{3}}-10 如何为数据选择最佳转换?是否存在定量(且不是很复杂)的线性度评估方法?证明所选的转换是最好的,或者在可能的情况下自动找到它。 还是唯一的方法是进行非线性多元回归?

3
线性模型异方差
我有以下线性模型: 为了解决残差的异方差性,我尝试对因变量应用log转换为但我仍然看到对残差具有相同的扇出效果。DV值相对较小,因此在这种情况下,取对数前的+1常数加法可能不合适。日志(是+ 1 )log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 如何转换变量以改善预测误差和方差,尤其是对于最右边的拟合值?


3
当lm的预测值无方差时,为什么会有R ^ 2值(由它决定)?
考虑以下R代码: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000, the result for R^2 is NaN for #n = 2, 4, 16, …
10 r  regression 

4
如何在线性回归中解释对数变换的系数?
我的情况是: 我已经对数转换了1个连续因变量和1个连续预测变量,以对它们的残差进行归一化,以进行简单的线性回归。 对于将这些转换后的变量与其原始上下文相关联的任何帮助,我将不胜感激。 我想使用线性回归来基于2010年缺勤的天数来预测2011年缺勤的天数。大多数学生缺勤0天或仅几天,数据正向左偏斜。因此,需要进行变换以使用线性回归。 我对两个变量都使用了log10(var + 1)(对于缺勤0天的学生使用+1)。我使用回归是因为我也想添加分类因素-性别/种族等。 我的问题是: 我想反馈给的听众不会理解log10(y)= log(constant)+ log(var2)x(坦率地说,我也不是)。 我的问题是: a)是否有更好的方法来解释回归中的转换变量?即在2010年永远错失1天,而在2011年错失2天,而在2010年永远错失1个日志单位,2011年是否错失x个日志单位? b)具体而言,鉴于此消息来源的引用语段如下: “这是数学标准化考试成绩每增加一个单位的负二项式回归估计,因为模型中的其他变量保持不变。如果学生将她的数学考试成绩提高一个点,则对数的对数差在使模型中的其他变量保持不变的同时,预期计数将减少0.0016单位。” 我想知道: 这句话是不是说UNTRANSFORMED变量数学分数的每增加一单位,常数(a)UNTRANSFORMED就会减少0.0016 ,那么如果数学分数上升两点,我就要从常数a减去0.0016 * 2? 这是否意味着我通过使用指数(a)和指数(a + beta * 2)来获得几何平均值,并且我需要计算这两者之间的百分比差,以说明预测变量的影响/有因变量? 还是我完全错了? 我正在使用SPSS v20。很抱歉在一个很长的问题中提出这个问题。

4
R的summary.lm对象的LaTeX输出-在表外显示信息时[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 在我看来,这是基本知识,但似乎无法在线找到解决方案,因此我想知道自己可能会缺少什么。 我希望将lm摘要对象的输出包括在Sweave(.Rnw)文档中。我可以按原样输出summary.lm,也可以使用xtable / Hmisc包(通过xtable或latex命令)。是否有类似xtable的东西,它也提供了表外部可用的摘要信息?(,F统计等...?)R2R2R^2
10 r  regression 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.