Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
有关标准化岭回归的问题
大家好,我发现了一两篇使用山脊回归的论文(用于篮球数据)。如果运行ridge回归,总是被告知要标准化我的变量,但是却被告知要这样做,因为ridge是比例变量(ridge回归并不是我们课程的真正组成部分,因此我们的讲师会略过它)。 我读过的这些论文并未对它们的变量进行标准化,这让我感到有些惊讶。他们还通过交叉验证最终获得了很大的lambda值(大约在2000-4000水平),并且我被告知这是由于未对变量进行标准化。 不标准化变量到底会如何导致较高的lambda值,并且,一般而言,不标准化变量会有什么后果?真的有什么大不了的吗? 任何帮助深表感谢。

2
用于回归的多项式对比
我无法理解回归拟合中多项式对比的用法。特别是,我指的是,用于R表示此页面上描述的间隔变量(具有相等间距的正交变量)使用的编码。 在该页面的示例中,如果我理解正确的话,R适合间隔变量的模型,返回一些权重,以加权其线性,二次或三次趋势。因此,拟合模型应为: write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, 其中应取的值,,,或根据不同的电平的间隔可变的。XXX111222333444 它是否正确?而且,如果是这样,多项式对比的目的是什么?

2
如何在R中同时使用数字/分类值进行有序Logistic回归分析?
基本数据:我约有1,000个人标有评估:“ 1,” [好],“ 2”,[中]或“ 3” [差] –这些是我将来要为人们预测的价值。除此之外,我还有一些人口统计信息:性别(分类:男/女),年龄(数字:17-80)和种族(分类:黑人/高加索人/拉丁裔)。 我主要有四个问题: 我最初试图将上述数据集作为多元回归分析来运行。但是我最近了解到,由于我的依存关系是有序因素,而不是连续变量,因此我应该对此类情况使用序数逻辑回归。我最初使用的是这样的东西mod <- lm(assessment ~ age + gender + race, data = dataset),有人能指出我正确的方向吗? 从那里开始,假设我对系数感到满意,就知道如何仅将数值插入x1,x2等。但是,例如在有多种响应的情况下,我将如何处理种族:黑人/高加索人/拉丁美洲人?因此,如果它告诉我白种人系数为0.289,而我要预测的某个人是白种人,那么由于值不是数字,我该如何重新插入? 我还缺少一些随机值-有些是种族的,有些是性别的,等等。我是否还需要做其他一些事情以确保它不会歪斜任何东西?(我注意到,当我的数据集被加载到R-Studio中时,当丢失的数据被加载为时NA,R表示类似(162 observations deleted due to missingness)-但如果它们被加载为空白,则它什么都不做。) 假设所有这些都可以解决,并且我有我要预测的具有性别,年龄和种族的新数据-R中有没有更简单的方法可以通过我的新系数公式通过所有这些方法来运行所有这些数据,而不是手动进行?(如果这个问题在这里不合适,我可以将其带回R论坛。)


4
和F检验之间有什么关系?
我想知道R2R2R^2和F检验之间是否存在关系。 一般R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}和它测量在回归的线性关系的强度。 F检验只是证明了一个假设。 R2R2R^2和F检验之间有关系吗?

3
回归中R平方和p值之间的关系是什么?
tl; dr-对于OLS回归,较高的R平方是否还意味着较高的P值?专门针对单个解释变量(Y = a + bX + e),但也有兴趣了解n个多个解释变量(Y = a + b1X + ... bnX + e)。 上下文-我正在对一系列变量执行OLS回归,并试图通过生成一个表格来开发最佳的解释函数形式,该表格包含线性,对数等之间的R平方值,每个解释(独立)变量的变换以及响应(因变量)。看起来有点像: 变量名-线性形式---ln(变量)--exp(变量)-...等 变量1 ------- R平方---- R平方---- R平方 -...等等... 我想知道R平方是否合适,或者P值是否更好。大概存在某种关系,因为更重要的关系意味着更高的解释力,但不确定是否严格地做到这一点。

5
当我的t统计量如此之大时,为什么我的R平方这么低?
我跑了回归有4个变量,都非常统计学显著,带T值≈7,9,26≈7,9,26\approx 7,9,26和313131(我说≈≈\approx因为它似乎无关包括小数),这是非常高的,清晰显著。但是R2R2R^2只有0.2284。我在误解此处的t值意味着它们不是吗?我在看到的T值的第一反应是,R2R2R^2将是相当高的,但也许这是一个高R2R2R^2?

8
插值与回归概念有何关系?
简单解释一下插值的含义。它与回归的概念有什么关系? 插值法是一种在表的各行之间阅读的技巧,在基本数学中,该术语通常表示从该函数的一组给定值或表格值中计算出函数中间值的过程。 我不能回答第二个问题。请帮忙

2
回归系数的逆变换
我正在使用转换后的因变量进行线性回归。进行了以下转换,以使残差的正态性假设成立。未转换的因变量产生负偏斜,以下转换使其接近正常值: Y=50−Yorig−−−−−−−−√Y=50−YorigY=\sqrt{50-Y_{orig}} 其中YorigYorigY_{orig}是原始量表上的因变量。 我认为在ββ\beta系数上使用一些转换以使其回到原始比例是有意义的。使用以下回归方程, Y=50−Yorig−−−−−−−−√=α+β⋅XY=50−Yorig=α+β⋅XY=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X 通过固定,我们有X=0X=0X=0 α=50−Yorig−−−−−−−−√=50−αorig−−−−−−−−√α=50−Yorig=50−αorig\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}} 最后, αorig=50−α2αorig=50−α2\alpha_{orig}=50-\alpha^2 使用相同的逻辑,我发现 βorig=α (α−2β)+β2+αorig−50βorig=α (α−2β)+β2+αorig−50\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50 现在,对于具有1个或2个预测变量的模型来说,一切工作都很好。逆变换后的系数类似于原始系数,只有现在我可以相信标准误差。问题包括交互项,例如 Y=α+X1βX1+X2βX2+X1X2βX1X2Y=α+X1βX1+X2βX2+X1X2βX1X2Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2} 然后的逆变换与原始比例的逆变换不太接近,我不确定为什么会发生这种情况。我也不确定用于反向转换beta系数的公式是否可以像第三(用于交互项)那样使用。在进入疯狂的代数之前,我想我会寻求建议...βββ\betaββ\beta

1
为什么我们假设错误是正态分布的?
我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述: 在数学上很方便。(与最小二乘拟合有关,易于通过伪逆求解) 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个错误的总和往往表现为零均值正态分布。实际上,情况似乎是这样。 我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。 您对误差的高斯假设有任何想法吗?


2
如何在Cox回归中解释Exp(B)?
我是一名医学生,试图了解统计信息(!)-请保持温柔!;) 我正在写一篇包含大量统计分析的文章,其中包括生存分析(Kaplan-Meier,Log-Rank和Cox回归)。 我对数据进行了Cox回归,试图找出两组患者(高风险或低风险患者)的死亡之间是否存在显着差异。 我在Cox回归中添加了几个协变量来控制它们的影响。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) 我从协变量列表中删除了动脉闭塞,因为其SE极高(976)。所有其他SE介于0.064和1,118之间。这是我得到的: B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

5
如何在线性回归模型中添加周期分量?
我有一些累积频率数据。线y=ax+by=ax+by=ax+b看起来非常适合数据,但是该行中存在循环/周期性摆动。我想估计累积频率何时达到一定值ccc。当我绘制残差与拟合值的关系图时,我得到了漂亮的正弦曲线行为。 现在,要增加另一个复杂性,请注意在残差图中 有两个周期的值比其他周期低,这表示还必须考虑到周末效应。 那么,我从这里去哪里呢?如何将一些余弦,正弦或循环项合并到回归模型中,以得到近似值。估计何时累积频率等于?ccc

2
了解线性回归的t检验
我正在尝试找出如何对线性回归执行一些假设检验(零假设没有相关性)。我遇到的每个指南和关于该主题的页面似乎都在使用t检验。但是我不明白线性回归的t检验实际上意味着什么。除非我有完全错误的理解或心理模型,否则将使用t检验比较两个人群。但是,回归变量和回归变量不是相似总体的样本,甚至可能不是同一单位,因此比较它们是没有意义的。 那么,在线性回归上使用t检验时,我们实际上在做什么呢?

2
为什么将T分布用于假设检验线性回归系数?
在实践中,通常使用标准的T检验来检验线性回归系数的显着性。计算的机制对我来说很有意义。 为什么可以使用T分布来建模线性回归假设检验中使用的标准检验统计量?我在这里指的是标准测试统计信息: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.