Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
(线性回归)预测的调整
全面披露:我不是统计学家,也不声称自己是统计学家。我是一个低级的IT管理员。请和我一起玩。:) 我负责收集和预测我们企业的磁盘存储使用情况。我们每月收集存储使用情况,并使用简单的滚动式十二个月线性回归进行预测(换句话说,进行预测时仅考虑前十二个月的数据)。我们将这些信息用于分配和资本支出计划,例如“基于此模型,如果要在y个月内存储以满足我们的需求,我们将需要购买x数量。” 所有这些都能很好地满足我们的需求。 周期性地,我们的数字出现了一次大的波动,这使预测不合时宜。例如,某人发现不再需要的500GB旧备份,并将其删除。对他们有利于回收空间!但是,我们的预测现在因一个月的大幅下降而偏离了。我们一直都接受这样的下降需要9到10个月的时间才能摆脱模型,但是如果我们进入资本支出计划的季节,那可能会花费很长时间。 我想知道是否有一种方法可以处理这些一次性变化,以使预测值不会受到太大影响(例如,线的斜率不会发生太大变化),但是将它们考虑在内(例如与特定时间点相关的y值的一次变化)。我们为解决这个问题而进行的首次尝试已产生了一些丑陋的结果(例如指数增长曲线)。如果重要的话,我们将在SQL Server中进行所有处理。

1
角度/圆形数据的回归
我指导目标是角度的学习问题。如果我进行简单回归,则模型中的数字360和1会相距很远,但是实际上它们很接近,因此预测x和y坐标感觉不对,因为我试图在此处预测一个数字。解决此问题的正确方法是什么?

2
使用回归检测异常值
可以将回归用于异常检测。我了解可以通过消除异常值来改进回归模型的方法。但是这里的主要目的不是拟合回归模型,而是使用回归找出谎言

2
Logistic回归:解释连续变量
我有几个问题需要解释逻辑回归中连续变量的比值比。我觉得这些是关于逻辑回归的基本问题(可能还有关于回归的一般问题),尽管我为自己不知道答案感到as愧,但我还是要以我的骄傲为由并问他们,以便我在未来! 这是我的情况...我正在查看一个受审判的青年样本,作为试用期的一部分,他们参加了工作/生活技能培训计划。我想看看他们从计划中被释放的年龄在计划被释放六个月后的预期就业率。 (此外,请记住,模型中还有其他预测变量,但由于它们在统计上不显着,因此我将它们排除在外,我想尽可能地使之清晰。) 预测变量:从培训计划中释放的年龄(平均年龄= 17.4,SD = 1.2,范围14.3-20.5) 结果:是否就业(就业= 1,未就业= 0) 结果:赔率3.01(p <.005)(我已经排除了拟合优度等,因为我只寻求解释比值比的答案;我对模型拟合,CI的评估感到满意等) 简而言之:随着年龄增长一年,出院后六个月被雇用的几率增加了三个单位。 问题: 1)当我说“随着年龄的增长……”,年龄的起点是什么? 年龄从零开始吗?例如,“随着年龄从0开始增加(即,如果要将此模型放在图表上,则是最低年龄)...” 年龄是否从样本年龄范围内的最低年龄开始?例如,“随着年龄从14.3开始增加...” 要么 年龄是否从样本的平均年龄开始?例如,“随着年龄从17.4 ...开始增加”, 2)居中会帮助我解释这个结果,还是仅在解释y-int时有效?如果有帮助,我正在考虑进行平均居中或从样本中的所有其他年龄中减去该范围内的最低年龄。有什么建议么? 3)最后,是否恰当地说,与14岁的年轻人相比,17岁的年轻人受雇的可能性高9倍?我之所以问,是因为我知道逻辑回归假设为S型关系,并且我对这3个单位的几率增加是否在沿回归线的任何点都保持一致感到好奇。 非常感谢! 亚伦


1
如何选择罕见事件的Logistic回归的截止概率
我有100,000个观察值(9个虚拟指标变量),具有1000个正值。Logistic回归在这种情况下应该可以正常工作,但临界概率使我感到困惑。 在普通文献中,我们选择50%截止值来预测1和0。我无法执行此操作,因为我的模型给出的最大值约为1%。因此,阈值可以在0.007或附近。 我确实了解ROC曲线以及曲线下的面积如何帮助我在同一数据集的两个LR模型之间进行选择。但是,ROC并不能帮助我选择最佳截断概率,该概率可以用来对样本外数据进行模型测试。 我是否应该简单地使用最小化阈值的截止值misclassification rate?(http://www2.sas.com/proceedings/sugi31/210-31.pdf) 添加->对于如此低的事件发生率,我的错误分类率受到大量误报的影响。虽然总体宇宙的大小也很大,但总体上看来该比率很高,但是我的模型不应有那么多的误报(因为它是投资回报模型)。5/10系数很重要。

3
最小二乘什么时候会是个坏主意?
如果我有回归模型: 其中 和,ÿ= Xβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ [Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=(0,…,0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) 什么时候使用(的普通最小二乘估计量)对估计量而言是一个糟糕的选择?β最小二乘βOLS\beta_{\text{OLS}}ββ\beta 我试图找出一个最小二乘效果不好的例子。因此,我正在寻找能够满足先前假设但产生不良结果的错误分布。如果分布族由均值和方差决定,那将是很大的。如果没有,也可以。 我知道“不好的结果”有点模糊,但我认为这个想法是可以理解的。 为了避免混淆,我知道最小二乘不是最佳的,并且有更好的估算器,例如岭回归。但这不是我的目标。我想要一个最小二乘不自然的例子。 我可以想象,误差向量位于的非凸区域中,但是我不确定。ϵϵ\epsilon[RñRn\mathbb{R}^n 编辑1:作为帮助答案的想法(我想不出进一步的方法)。为蓝色。因此,考虑线性无偏估计量何时不是一个好主意可能会有所帮助。β最小二乘βOLS\beta_{\text{OLS}} 编辑2:正如Brian指出的那样,如果的条件不好,则是一个坏主意,因为方差太大,应改用Ridge回归。我更感兴趣的是知道应该采用哪种分布,以使最小二乘无效。XX′XX′XX'β最小二乘βOLS\beta_{\text{OLS}}εε\varepsilon β最小二乘〜β+(X′X)− 1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} \sim \beta+(X'X)^{-1}X'\varepsilon是否与零均值和方差的身份矩阵分布,使这个估计不是有效?εε\varepsilon


3
关于正规方程证明的问题
在不假设X是可逆的前提下,如何证明正则方程具有一个或多个解?(XTX)β=XTY(XTX)β=XTY(X^TX)\beta = X^TY 我唯一的猜测是它与广义逆有关,但是我完全迷失了。
11 regression  proof 

1
如何用样条/平滑回归预测新数据
在使用平滑/样条线作为预测模型时,谁能提供关于如何对新数据进行预测的概念性解释?例如,给定一个模型,该模型在R gamboost的mboost包中使用创建,带有p样条曲线,那么如何预测新数据?训练数据使用了什么? 假设自变量x有一个新值,并且我们要预测y。在训练模型时是否使用结或df将用于创建样条曲线的公式应用于该新数据值,然后将来自训练模型的系数应用于输出预测? 这是R的示例,对于新数据mean_radius = 15.99,预测在概念上将输出899.4139吗? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)


1
处理异常有限的响应变量的回归
我正在尝试对理论上限制在-225和+225之间的响应变量进行建模。变量是受试者在玩游戏时获得的总分。尽管从理论上讲,受试者有可能得分+225。尽管如此,这是因为得分不仅取决于对象的动作,而且还取决于其他动作的动作,任何人得分最多为125(这是两个互相玩的最高玩家都可以得分),这种情况的发生频率很高。最低分数是+35。 125的边界导致线性回归困难。我唯一想做的就是将响应重新缩放为0到1之间并使用beta回归。如果我这样做,虽然不确定,我真的可以说125是最高边界(或转换后的1),因为它有可能得分+225。此外,如果我这样做了,我的下界35是什么? 谢谢, 乔纳森

2
转换连续变量以进行逻辑回归
我有大量调查数据,一个二进制结果变量和许多解释性变量,包括二进制和连续变量。我正在建立模型集(使用GLM和混合GLM进行实验),并使用信息理论方法来选择顶级模型。我仔细检查了说明(连续的和分类的)之间的相关性,而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低AIC)。 我的第一个问题是:由于变换提高了logit的线性度,所以此改进是否在进行?还是通过使数据更加对称,校正偏斜以某种方式改善了解释变量的平衡?我希望我能理解其背后的数学原因,但就目前而言,如果有人可以轻松地解释这一点,那就太好了。如果您有任何我可以使用的参考,我将不胜感激。 许多互联网网站都说,由于正常性不是二进制逻辑回归的假设,因此请勿变换变量。但是我觉得,通过不对变量进行转换,与其他变量相比,我处于不利地位,这可能会影响顶级模型,并改变推理(好吧,通常不会,但是在某些数据集中会)。我的一些变量在对数转换时性能更好,一些在平方时(偏斜的不同方向),另一些未转换时。 有人可以给我一个指导原则,在为逻辑回归转换解释变量时要注意些什么,如果不这样做,为什么不这样做呢?

4
残差对拟合值的对角直线作多元回归
我正在观察数据残差的奇怪模式: [编辑]这是两个变量的部分回归图: [EDIT2]添加了PP图 分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗? [UPDATE 31.07] 事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。 现在,残差看起来好多了: 我还用黄土线包括了部分回归。

2
简单线性回归的报告结果:要包括哪些信息?
我刚刚在Genstat中执行了一些(非常简单的)线性回归,并希望在报告中包含输出的简要且有意义的摘要。我不确定我应该包括哪些信息或多少信息。 Genstat输出的主要部分如下所示: Summary of analysis Source d.f. s.s. m.s. v.r. F pr. Regression 1 8128935. 8128935. 814.41 <.001 Residual 53 529015. 9981. Total 54 8657950. 160332. Percentage variance accounted for 93.8 Standard error of observations is estimated to be 99.9. Estimates of parameters Parameter estimate s.e. t(53) t pr. Constant …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.