Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
R中的梯度下降与lm()函数?
我正在看吴安德(Andrew Ng)的免费在线机器学习课程中的视频在斯坦福大学中。他讨论了梯度下降作为解决线性回归的算法,并在Octave中编写函数来执行该算法。大概我可以用R重写那些函数,但是我的问题是lm()函数是否已经给了我线性回归的输出?为什么要编写自己的梯度下降函数?有优势还是纯粹作为学习练习?lm()会进行梯度下降吗?

8
如何对多个未知结进行分段线性回归?
是否有任何软件包可以进行分段线性回归,从而可以自动检测多个结?谢谢。当我使用strucchange包时。我无法检测到更改点。我不知道它如何检测更改点。从地块中,我可以看到有一些要点可以帮助我挑选出来。有人可以在这里举个例子吗?

2
有人可以阐明线性混合效应还是非线性混合效应?
我将要学习R,而我的学习项目将需要对数据集应用混合或随机效应回归,以开发预测方程。我在这篇文章中分享了作者的关注点。 如何为混合效果模型选择nlme或lme4 R库?想知道NLME还是LME4是使自己熟悉的更好的软件包。一个更基本的问题是:线性和非线性混合效应建模之间有什么区别? 作为背景知识,我在我的MS研究中应用了ME建模(在MATLAB中,不是在R中),因此我熟悉固定变量和随机变量的处理方式。但是我不确定我所做的工作是线性的还是非线性的。它仅仅是所用方程式的函数形式还是其他形式?

2
用简单的英语解释模型调整
阅读有关统计分析的方法和结果,尤其是流行病学方面的信息时,我经常听到有关模型调整或控制的信息。 您如何向非统计人员解释其目的?控制某些变量后,如何解释结果? 只需在Stata或R中进行少量漫游,或在线指向一个指针,便会成为真正的瑰宝。


3
在Logistic回归中用WoE(证据权重)替换变量
这是我的一些同事遵循的有关实践或方法的问题。在建立逻辑回归模型时,我已经看到人们用各自的证据权重(WoE)代替了分类变量(或分类的连续变量)。据说这样做是为了在回归变量和因变量之间建立单调关系。现在,据我了解,一旦建立了模型,方程式中的变量就不是数据集中的变量。相反,方程式中的变量现在在隔离因变量时就显得很重要或很重要。 我的问题是:我们现在如何解释模型或模型系数?例如,对于以下等式: 日志( p1 − p) =β0+ β1个X1个log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 我们可以说, 是奇数的比率为在可变增加1个单位相对增加X 1。经验值(β1个)exp⁡(β1)\exp(\beta_1) X1个x1x_1 但是,如果将变量替换为其WoE,则解释将更改为:变量的重要性/重量增加1单位时,奇数比的相对增加 我已经在互联网上看到了这种做法,但是没有一个地方找到这个问题的答案。来自该社区本身的此链接与某个类似的查询相关,其中有人写道: WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。因此,当我们使用WoE而不是变量的实际值时,逻辑回归中不会出现模型错误指定的问题。 但是我仍然没有得到解释。请帮助我了解我所缺少的。

4
带有延迟和时间序列的多元线性回归之间的“机械”区别是什么?
我是商业和经济学专业的毕业生,目前正在攻读数据工程硕士学位。在研究线性回归(LR)然后进行时间序列分析(TS)时,我想到了一个问题。为什么要创建一种全新的方法,即时间序列(ARIMA),而不是使用多元线性回归并向其添加滞后变量(使用ACF和PACF确定滞后的顺序)?所以老师建议我写一篇关于这个问题的文章。我不会徒劳地寻求帮助,所以我做了关于该主题的研究。 我已经知道使用LR时,如果违反了高斯-马尔可夫假设,则OLS回归是不正确的,并且在使用时间序列数据(自相关等)时会发生这种情况。(与此有关的另一个问题是,一个通用汽车假设是自变量应该是正态分布的?还是仅以自变量为条件的因变量?) 我也知道,当使用分布式滞后回归(这是我在这里提出的建议)并使用OLS估计参数时,变量之间的多重共线性可能(显然)会出现,因此估计将是错误的。 在关于TS和LR的类似帖子中,@ IrishStat说: ...回归模型是传递函数模型的一种特殊情况,也称为动态回归模型或XARMAX模型。重点是在时间序列中进行模型识别,即适当的差异,适当的X滞后,适当的ARIMA结构,适当的未确定的确定性结构的识别,例如脉冲,水平移动,本地时间趋势,季节性脉冲和合并必须考虑参数变化或误差变化。 (我也在Autobox中阅读了他关于Box Jenkins vs LR的论文。)但这仍然不能解决我的问题(或者至少没有为我澄清RL和TS的不同机制)。 显然,即使存在滞后变量,OLS也会出现问题,而且效率不高也不正确,但是如果使用最大可能性,这些问题是否还会持续存在?我已经读过ARIMA是通过最大似然估计的,因此,如果使用ML而不是OLS估计带有滞后的LR,它是否会产生“正确”的系数(让我们假设还包括滞后误差项,例如阶次MA) q)。 简而言之,是OLS问题吗?应用ML是否解决了问题?



3
执行线性回归,但强制求解通过一些特定数据点
我知道如何对一组点执行线性回归。也就是说,我知道如何将自己选择的多项式拟合到给定的数据集(从LSE的角度来看)。但是,我不知道的是如何迫使我的解决方案经过我选择的某些特定要点。我之前已经看过这件事,但是我不记得该过程叫什么,更不用说它是如何完成的了。 作为一个非常简单而具体的示例,让我们说我在xy平面上散布了100个点,我选择通过它们拟合任意阶多项式。我知道如何很好地执行此线性回归。但是,让我们说我想“强制”解决方案,例如,通过x坐标,和x = 89的三个数据点(及其对应的y坐标)当然)。x = 19 x = 89x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 这个通用程序叫什么,它是如何完成的,还有什么我需要注意的陷阱吗? 编辑: 我想补充一点,我正在寻找一种具体的方法来做到这一点。我编写了一个程序,该程序实际上以两种方式之一进行线性回归,即直接或通过梯度下降来反转协方差矩阵。我要问的是,究竟是如何逐步地修改我所做的事情,以使多项式解经过特定点? 谢谢!

3
OLS是蓝色的。但是,如果我不在乎无偏和线性怎么办?
高斯-马尔可夫定理告诉我们,OLS估计量是线性回归模型的最佳线性无偏估计量。 但是,假设我不在乎线性和无偏性。那么,对于线性回归模型,是否还有其他(可能是非线性/有偏的)估计量,在高斯-马尔可夫假设或其他一些一般假设下效率最高? 当然,有一个标准的结果:如果除高斯-马尔可夫假设之外,我们还假设误差是正态分布的,则OLS本身就是最佳的无偏估计量。对于其他一些特定的误差分布,我可以计算相应的最大似然估计量。 但是我想知道在某些相对通用的情况下是否存在某种比OLS更好的估计器?


1
将标准化的beta转换回原始变量
我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗?

1
根据“ 2.5倍RMSE”剔除异常值
在Kahneman and Deaton(2010),作者写道:††^\dagger 该回归解释了37%的方差,均方根误差(RMSE)为0.67852。为了消除异常值和不合理的收入报告,我们删除了一些观察结果,即原木收入与其预测之间的差异的绝对值超过了RMSE的2.5倍。 这是惯例吗?这样做的直觉是什么?根据一开始可能未明确指定的模型定义离群值似乎有些奇怪。异常值的确定是否应该基于构成合理值的某些理论依据,而不是模型对实际值的预测能力如何? ††\dagger:丹尼尔·卡尼曼(Daniel Kahneman),安格斯·迪顿(Angus Deaton)(2010年):高收入可以改善人们对生活的评估,但不能改善情感幸福感。美国国家科学院院刊,2010年9月,107(38)16489-16493;DOI:10.1073 / pnas.1011492107

4
在多元回归之前单变量回归的意义是什么?
我目前正在研究一个问题,我们的数据集很小,并且对治疗对结果的因果关系感兴趣。 我的顾问指示我对每个预测变量执行单变量回归,以结果作为响应,然后以治疗分配作为响应。即,要求我一次将一个变量与一个回归拟合,并制作结果表。我问“为什么要这么做?”,答案是“我们对哪些预测因素与治疗分配和结果相关感兴趣,因为这很可能表明混杂因素”。我的顾问是一位训练有素的统计学家,而不是其他领域的科学家,因此,我倾向于信任他们。 这是有道理的,但尚不清楚如何使用单变量分析的结果。这样做是否会导致模型选择的选择导致估计值的显着偏差和狭窄的置信区间?为什么有人要这样做?我很困惑,我的顾问在提出这个问题时还不太清楚。有人在这项技术上有资源吗? (注意:我的顾问曾说过,我们不会将p值用作临界值,而是我们要考虑“一切”。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.