Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。

1
轮廓函数有趣特征是否通过回归获得?
我假设使用回归的一般设置,即从族\ {h_ \ theta \} _ \ theta中选择一个连续函数h_ \ theta:X \至\ mathbb R ^ n以适合给定数据(x_i,y_i)根据某些自然标准,X乘以X乘以R ^ n,i = 1,\ ldots,k(X可以是任何空间,例如立方体[0,1] ^ m或实际上是任何合理的拓扑空间)。hθ:X→Rnhθ:X→Rnh_\theta:X\to \mathbb R^n{hθ}θ{hθ}θ\{h_\theta\}_\theta(xi,yi)∈X×Rn,i=1,…,k(xi,yi)∈X×Rn,i=1,…,k(x_i,y_i)\in X\times \mathbb R^n, i=1,\ldots, kXXX[0,1]m[0,1]m[0,1]^m 是否有其中一个有兴趣的轮廓回归的应用h−1(y)h−1(y)h^{-1}(y)的hhh对于某些点y∈Rny∈Rny\in \mathbb R^n -例如零集合h−1(0)h−1(0)h^{-1}(0)? 我感兴趣的解释如下:由于在许多情况下,所学习的h_ \ theta都有不确定性hθhθh_\theta(数据的不精确或缺乏),因此人们可能想分析零集h−1(0)h−1(0)h^{-1}(0) “坚固”。即,研究h的所有“扰动”所共有的零集特征hhh。一个很好的了解已经非常一般设置在扰动最近开发fff可以任意连续映射接近hhh在ℓ∞ℓ∞\ell_\infty规范。或者,基本上等价地,fff是任意连续的,这样对于X中的每个x \,x∈Xx∈Xx\in X我们都有|f(x)−h(x)|≤c(x)|f(x)−h(x)|≤c(x)|f(x)-h(x)|\le c(x)其中c:X→Rc:X→Rc:X\to\mathbb R在每个x处给出一些置信度值xxx。 我们发展该理论和算法的主要动机是令人兴奋的数学背后(基本上所有问题/问题都归结为同伦理论)。但是,在当前阶段,为了进一步开发和实现算法,我们需要选择更具体的设置和目标。


3
如何将和包括在回归中,以及是否将它们居中?
我想将项及其平方(预测变量)包括在回归中,因为我假设低值对因变量有积极影响,而高值则有负面影响。在应该捕获更高价值的作用。因此,我期望的系数为正,的系数为负。除了,我还包括其他预测变量。xxxx2x2x^2xxxx2x2x^2xxxx2x2x^2xxx 我在这里读过一些文章,在这种情况下,最好将变量居中以避免多重共线性。 进行多元回归时,何时应将预测变量居中以及何时应对其进行标准化? 我应该分别将两个变量居中(平均)还是应该仅居中然后取平方,还是应该仅居中并包含原始?xxxx2x2x^2xxx 如果是一个计数变量,是否有问题?xxx 为了避免成为计数变量,我考虑过将其除以理论上定义的面积,例如5平方公里。这应该有点类似于点密度计算。xxx 但是,恐怕在这种情况下,如和x²= 4时,我对系数符号的最初假设将不再成立。x=2x=2x=2x²=4x²=4x²=4 x=2/5 km2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 km20.4 km20.4 \text{ km}^2 但是x2x2x^2会更小,因为 x2=(2/5)2=0.16x2=(2/5)2=0.16x^2= (2/5)^2= 0.16。

4
对连续因变量使用逻辑回归
我最近对研究论文进行了修订,以下是审稿人对我论文的评论: 从一个模型获得的结果并不令人信服,特别是线性回归通常在处理离群值方面存在缺陷。我建议作者还尝试进行逻辑回归,并将相应结果与当前结果进行比较。如果获得类似的观察结果,结果将更加可靠。 审稿人的评论正确吗?Logistic回归优于多元线性回归吗? 问题是我的因变量不是分类变量,而是比例变量。我现在能做什么?您建议使用什么其他回归方法评估模型? 得分是下表中的因变量。新近度,频率,任期和最后得分是独立变量。 我从一个站点中提取了这些变量,并假设这些自变量对得分有重大影响。因此,我代表以下模型: 顺便说一下,此线性模型的R平方值是0.316!审阅者也对此值发表了评论: 由于没有关于学习系数质量的指标,因此结果令人信服。小R ^ 2不能表示良好的性能,因为模型可能过拟合。 R平方的0.316非常低吗?在以前的论文中,我看到了很多类似的价值观。

2
帮助我拟合此非线性多元回归方法,该回归方法已经克服了之前的所有努力
编辑:自从发布此帖子以来,我在这里还跟了一个额外的帖子。 以下是本文的摘要:我正在研究一个模型,并尝试了线性回归,Box Cox变换和GAM,但并没有取得太大进展 R目前,我正在使用模型来预测大联盟(MLB)级别的小联盟棒球运动员的成功。因变量,进攻职业生涯胜过替补球员(oWAR),是美国职业棒球大联盟(MLB)级别成功的代名词,用球员在其职业生涯中参与的每场比赛的进攻贡献总和来衡量(详细信息此处-http ://www.fangraphs.com/library/misc/war/)。自变量是z得分的小联盟进攻变量,用于统计数据,被认为是在大联盟级别取得成功的重要预测指标,包括年龄(年轻球员的成功率更高,他们的前景更好),淘汰率[SOPct ],步行率[BBrate]和调整后的产量(进攻性产品的全球量度)。另外,由于次要联赛有多个级别,因此我为次要联赛的比赛水平提供了虚拟变量(双A,高A,低A,新秀和短赛季,三A [主要联赛之前的最高水平]作为参考变量])。注意:我已经将WAR重新缩放为一个从0到1的变量。 变量散点图如下: 作为参考,因变量oWAR具有以下图表: 我从线性回归开始,oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason获得了以下诊断图: 存在明显的问题,即缺乏残差的无偏性和缺乏随机变化。此外,残差不正常。回归结果如下所示: 遵循上一个线程中的建议,我尝试了Box-Cox转换,但没有成功。接下来,我尝试了带有日志链接的GAM,并收到了以下图表: 原版的 新的诊断图 样条曲线似乎有助于拟合数据,但诊断图仍显示拟合差。编辑:我以为我原来是在看残差与拟合值,但我不正确。最初显示的图被标记为“原始”(上方),我后来上传的图被标记为“新诊断图”(也在上方) 的 [R2[R2R^2 模型的数量增加了 但是该命令产生的结果gam.check(myregression, k.rep = 1000)并不令人满意。 谁能建议该模型的下一步?我很高兴提供您认为可能对理解我到目前为止所取得的进步有用的任何其他信息。感谢您的任何帮助,您可以提供。


2
问题计算,解释子集和有关模型选择过程的一般问题
我想使用选择模型regsubsets()。我有一个名为olympiadaten的数据框(上传的数据:http : //www.sendspace.com/file/8e27d0)。我首先附加此数据框,然后开始分析,我的代码是: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) 情节的屏幕截图: 现在的问题是,我想再次“手动”拟合最佳模型并进行查看,但是调整后的R平方的值与regsubsets输出中的值不同吗?其他模型也是如此,例如,当我在图形中执行最简单的模型时: summary(lm(Gesamt~ExpHealth)) 该图表示,它的调整后R平方应约为0.14,但是当我查看输出时,得到的值为0.06435。 这是输出summary(lm(Gesamt~ExpHealth)): Call: lm(formula = Gesamt ~ ExpHealth) Residuals: Min 1Q Median 3Q Max …

4
何时使用非参数回归?
我在SAS中使用PROC GLM来拟合以下形式的回归方程 ÿ=b0+b1个X1个+b2X2+b3X3+b4Ťÿ=b0+b1个X1个+b2X2+b3X3+b4Ť Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 产生的残差的QQ图表示偏离正常值。任何变换都无法使残差正常。ÿÿY 此时,我可以安全地切换到非参数方法,例如PROC LOESS。 我已经使用过PROC LOESS,并且看起来比PROC GLM更好。但是我对非参数回归没有太多的了解。我不知道何时选择非参数回归而不是参数回归。 有人可以帮我弄这个吗? 我将继续添加另一个问题。以下是模型中我的变量的描述。 有时我得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?ÿ= 医疗费用X1个= 注射次数X2= 手术数量X3= 物理疗法的数量t = 时间ÿ=医疗费用X1个=注射次数X2=手术数量X3=物理疗法的数量Ť=时间 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}


1
通过以坐标作为预测变量进行回归建模空间趋势
我打算将坐标作为协变量包括在回归方程中,以便针对数据中存在的空间趋势进行调整。之后,我想测试随机变化中空间自相关的残差。我有几个问题: 我应该执行线性回归,其中仅自变量是和坐标,然后测试空间自相关的残差,还是应该不仅包括坐标作为协变量,还包括其他变量,然后测试残差。xxxyyy 如果我期望具有二次趋势,然后不仅包括,还包括,和,那么其中的一些(和)的值将大于阈值-我应该排除那些值较高的变量不重要吗?那我该如何解释趋势,它肯定不再是二次方了?x,yx,yx,yxyxyxyx2x2x^2y2y2y^2xyxyxyy2y2y^2pppppp 我想我应该将和坐标视为其他任何协变量,并通过构造部分残差图来测试它们是否与因变量具有线性关系...但是一旦我对它们进行了变换(如果它们显示它们需要变换),那将不会不再是那种趋势(特别是如果我将,和在二次趋势中)。例如,它可能表明需要转换,而则不需要转换?在这些情况下我应该如何应对?xxxyyyxyxyxyx2x2x^2y2y2y^2x2x2x^2xxx 谢谢。

1
缺少预测变量的多元回归
假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 和 (y,X1个,X2,⋯ ,Xn − 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})。我们被赋予了预测的任务ÿyy 根据的值 Xxx。我们估计两个回归,其中: ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我们还估计了一个回归,该回归预测了 Xñxnx_{n} 根据的值 (X1个,⋯ ,Xn − 1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), 那是: Xñ=F3(X1个,⋯ ,Xn − 1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} 假设现在给我们的值为 (X1个,⋯ ,Xn …


4
减少多元回归中的变量数量
我有一个庞大的数据集,其中包含数百个金融变量的值,这些变量可以用于多元回归,以预测指数基金随时间的行为。我想将变量的数量减少到十个左右,同时仍保留尽可能多的预测能力。 补充:减少的变量集必须是原始变量集的子集,以保留原始变量的经济意义。因此,例如,我不应该以原始变量的线性组合或聚合结局。 有关如何执行此操作的一些想法(可能是幼稚的): 对每个变量执行简单的线性回归,然后选择具有最大值的十个变量。当然,不能保证十个最佳个体变量的组合将是十个最佳组。R2R2R^2 执行主成分分析,并尝试查找与前几个主轴关联最大的十个原始变量。 我认为我不能执行分层回归,因为变量不是真正嵌套的。尝试使用十个变量的所有可能组合在计算上是不可行的,因为组合太多。 是否有标准方法来解决减少多元回归中变量数量的问题? 似乎这将是一个足够普遍的问题,因此将存在一种标准方法。 一个非常有用的答案将是不仅提及标准方法,而且概述其工作方式和原因。或者,如果没有一种标准的方法,而是多种方法各有优缺点,那么讨论其优缺点的答案将非常有用。 Whuber在下面的评论表明,最后一段中的要求太宽泛。相反,我会接受一个主要方法列表作为一个好的答案,也许对每个方法都有一个非常简短的描述。一旦有了条款,我就可以挖掘每个人的详细信息。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.