Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
使用样条或分数多项式时,如何处理丢失的数据?
我正在阅读多变量模型构建: Patrick Royston和Willie Sauerbrei提出的基于分数多项式的实用回归分析模型,用于对连续变量进行建模。到目前为止,我印象深刻,这是我以前从未考虑过的有趣方法。 但是作者没有处理丢失的数据。的确,在p。17他们说丢失数据“引入了许多其他问题。这里不考虑。” 多重插补是否可以使用分数多项式> 在某些方面(但不是全部),FP是样条曲线的替代方法。样条回归处理缺失数据是否更容易?

2
根据p值选择特征是否错误?
关于如何选择功能,有几篇文章。一种方法描述了基于t统计量的特征重要性。在varImp(model)应用于具有标准化特征的线性模型的R中,使用每个模型参数的t统计量的绝对值。因此,基本上,我们基于特征的t统计量来选择特征,这意味着系数的精确度。但是系数的精确度是否可以告诉我有关特征的预测能力的信息? 我的特征的t统计量较低,但仍会提高模型的准确性吗?如果是,那么什么时候要基于t统计信息排除变量?还是只是作为检查非重要变量的预测能力的起点?

2
梯度下降在此数据集上找不到普通最小二乘法的解?
我一直在研究线性回归,并在下面的集合{(x,y)}上进行过尝试,其中x以平方英尺为单位指定房屋面积,y以美元指定价格。这是Andrew Ng Notes中的第一个示例。 2104,400 1600,330 2400,369 1416,232 3000,540 我开发了一个示例代码,但是当我运行它时,成本随着每一步都在增加,而应该随着每一步而降低。代码和输出如下。bias是W 0 X 0,其中X 0 = 1。featureWeights是[X 1,X 2,...,X N ] 的数组 我还尝试了这里提供的在线python解决方案,并在此处进行了说明。但是此示例也提供了相同的输出。 理解概念的差距在哪里? 码: package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = …

2
如何用单纯形法求解最小绝对偏差?
argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n 但是我不知道要逐步解决它,因为我是LP的新手。你有什么主意吗?提前致谢! 编辑: 这是我已解决此问题的最新阶段。我正在尝试按照以下说明解决问题: 步骤1:将其制成标准格式 minZ=∑ni=1uiminZ=∑i=1nui\min Z=\sum_{i=1}^{n}u_{i} xTw−ui+s1=yii=1,…,nxTw−ui+s1=yii=1,…,n \textbf{x}^T\textbf{w} -u_i+s_1=y_{i} \; i = 1,\ldots,n xTw+ui+s2=−yii=1,…,nxTw+ui+s2=−yii=1,…,n \textbf{x}^T\textbf{w} +u_i+s_2=-y_{i} \; i = 1,\ldots,n 服从s1≥0;s2≥0;ui≥0 i=1,...,ns1≥0;s2≥0;ui≥0 i=1,...,ns_1 \ge 0; s_2\ge 0; u_i \ge 0 …


3
中度回归:为什么我们要计算预测变量之间的*乘积*项?
在社会科学中,经常使用适度的回归分析来评估两个或多个预测变量/协变量之间的相互作用。 通常,使用两个预测变量,将应用以下模型: ÿ= β0+ β1个* X+ β2* M+ β3* X中号+ eY=β0+β1∗X+β2∗M+β3∗XM+eY = β_0 + β_1*X + β_2*M + β_3*XM + e 请注意,适度性测试通过乘积项(自变量X和缓和变量M的乘积)进行运算。我的根本问题是:为什么我们实际上要计算X和M之间的乘积项?心动不如行动,例如,绝对差| M − X | 还是X 和M的总和?X中号XMXMXXX中号MMXXX中号MM| 中号- X||M−X||M-X|X+ MX+MX + M 有趣的是,肯尼(Kenny)在这里http://davidakenny.net/cm/moderation.htm暗示了这个问题,他说:“正如所看到的那样,对适度的测试并不总是通过产品术语XM来进行”,但是没有给出进一步的解释。 。我猜/希望有一个正式的例证或证明是有启发性的。

1
LASSO自由度的直觉
邹等。“关于套索的“自由度””(2007年)表明,非零系数的数量是对套索的自由度的无偏且一致的估计。 对我来说似乎有点违反直觉。 假设我们有一个回归模型(变量为零均值) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. 假设的无限制OLS估计值为\ hat \ beta_ {OLS} = 0.5。对于非常低的惩罚强度,它可能与LASSO估计值\ beta大致吻合。ββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta 进一步假设特定惩罚强度\ lambda ^ *的LASSO估计λ∗λ∗\lambda^*值为β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4。例如,对于使用交叉验证发现的现有数据集,λ∗λ∗\lambda^*可能是“最优” λλ\lambda。 如果我理解正确,则在两种情况下自由度均为1,因为两次均存在一个非零回归系数。 题: 即使β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4表示拟合的“自由度”比\ hat \ beta_ {OLS} = 0.5小,两种情况下的自由度又如何相同β^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5? 参考文献: 邹辉,特雷弗·哈斯蒂和罗伯特·蒂布希拉尼。“关于套索的“自由度”。” 统计年鉴 35.5(2007):2173-2192。


3
正常误差的假设是否暗示Y也是正常的?
除非我没有弄错,否则在线性模型中,假定响应的分布具有系统成分和随机成分。错误项捕获随机分量。因此,如果我们假设误差项是正态分布的,这是否意味着响应也是正态分布的?我认为确实可以,但是随后的诸如此类的陈述似乎相当混乱: 您可以清楚地看到,此模型中“正态性”的唯一假设是残差(或“错误”)应呈正态分布。没有关于预测变量或响应变量的分布的假设。X 我ÿ 我ϵiϵi\epsilon_ixixix_iyiyiy_i 来源:预测变量,响应和残差:真正需要正态分布的是什么?


2
当每个点在和都有其不确定性时的回归
我对两个变量和进行了测量。它们都具有相关的不确定性和。我想找到和之间的关系。我该怎么做?X ÿ σ X σ ÿ X ÿnnnxxxyyyσxσx\sigma_xσyσy\sigma_yxxxyyy 编辑:每个都有与之关联的不同,并且与相同。σ X ,我 ÿ 我xixix_iσx,iσx,i\sigma_{x,i}yiyiy_i 可复制的R示例: ## pick some real x and y values true_x <- 1:100 true_y <- 2*true_x+1 ## pick the uncertainty on them sigma_x <- runif(length(true_x), 1, 10) # 10 sigma_y <- runif(length(true_y), 1, 15) # 15 ## perturb …

2
Logistic回归何时合适?
我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。 根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。 但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。 因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?

1
当比例是自变量时,转换比例的最合适方法是什么?
我以为我理解了这个问题,但是现在我不太确定,我想在继续之前先与其他人核实。 我有两个变量,X和Y。Y是一个比率,并且不受0和1的限制,并且通常呈正态分布。X是一个比例,以0和1为界(从0.0到0.6)。当我运行的线性回归时Y ~ X,我发现,它们X与Y线性关系显着。到现在为止还挺好。 但是后来我进一步调查,开始认为也许X和Y的关系可能比线性关系更曲线。对我来说,它看起来像的关系X,并Y可能接近Y ~ log(X),Y ~ sqrt(X)或者Y ~ X + X^2,或者类似的东西。我有经验上的理由认为该关系可能是曲线关系,但没有理由假设任何一种非线性关系都可能比其他任何一种更好。 我从这里有几个相关的问题。首先,我的X变量采用四个值:0、0.2、0.4和0.6。当我对这些数据进行对数或平方根转换时,这些值之间的间距会失真,因此0值与所有其他值的距离要远得多。由于缺乏更好的询问方式,这就是我想要的吗?我认为不是,因为根据接受的失真程度,我得到的结果非常不同。如果这不是我想要的,应该如何避免? 其次,要对这些数据进行对数转换,我必须在每个X值上加上一些数量,因为您不能采用0的对数。当我增加非常小的数量(例如0.001)时,我会得到非常大的失真。当我添加较大的数量(例如1)时,失真很小。是否有“正确的”数量要添加到X变量中?还是在变量中添加任何内容以X替代选择替代转换(例如,立方根)或模型(例如,逻辑回归)是否不合适? 在这个问题上我几乎找不到的东西让我觉得我应该谨慎行事。对于其他R用户,此代码将创建一些结构类似于我的数据。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) plot(Y~X)

2
贝叶斯优化的GP回归中的病态条件协方差矩阵
背景与问题 我正在使用高斯过程(GP)进行回归和随后的贝叶斯优化(BO)。为了进行回归,我使用了针对MATLAB 的gpml包,并进行了一些自定义修改,但是问题很普遍。 众所周知的事实是,当两个训练输入在输入空间中太近时,协方差矩阵可能变为非正定的(此站点上有几个问题)。结果,由于数值误差,各种GP计算所需的协方差矩阵的Cholesky分解可能会失败。在使用我使用的目标函数执行BO时,在某些情况下这发生在我身上,我想对其进行修复。 拟议的解决方案 AFAIK,减轻不适的标准解决方案是在协方差矩阵的对角线上添加一个脊或块。对于GP回归,这等于增加(或增加,如果已经存在)观察噪声。 到现在为止还挺好。我修改了gpml的精确推论代码,以便每当Cholesky分解失败时,我都会尝试将协方差矩阵固定为Frobenius范数中最接近的对称正定(SPD)矩阵,这是受约翰d'Errico的MATLAB代码启发的。这样做的理由是要尽量减少对原始矩阵的干预。 这个变通办法可以完成工作,但是我注意到对于某些功能,BO的性能大大降低了-可能是每当算法需要放大某些区域时(例如,因为算法越来越接近最小值,或者因为长度缩放)问题变得越来越小)。这种行为是有道理的,因为每当两个输入点距离太近时,我都会有效地增加噪声,但这当然不是理想的选择。或者,我可以删除有问题的点,但是,有时候,我需要输入点很接近。 题 我认为GP协方差矩阵的Cholesky因式分解的数值问题不是一个新问题,但令我惊讶的是,除了增加噪声或消除彼此之间太近的点外,到目前为止,我找不到许多解决方案。另一方面,我的某些功能确实表现得很差,所以也许我的情况不是那么典型。 有什么建议/参考可以在这里有用吗?

1
在原假设下,确定系数期望值
我对本文第一页底部 关于调整的声明感到好奇R2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). 文本指出: 调整的逻辑如下:在普通多元回归中,随机预测变量平均解释响应变化的比例1/(n–1)1/(n–1)1/(n – 1),因此mmm随机预测变量平均一起解释m/(n–1)m/(n–1)m/(n – 1)响应的变化;换句话说,R ^ 2的期望值R2R2R^2为E(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)。将[ R2adjustedRadjusted2R^2_\mathrm{adjusted} ]公式应用于该值(所有预测变量都是随机的),得出R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0。” 对于R ^ 2_ \ mathrm {adjusted},这似乎是一个非常简单且可解释的动机R2adjustedRadjusted2R^2_\mathrm{adjusted}。但是,对于单个随机(即不相关)的预测变量,我无法得出E(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1))的值。 有人可以在这里指出正确的方向吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.