Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


2
罚线性回归的几何解释
我知道线性回归可以认为是“垂直上最接近所有点的线”: 但是,通过可视化列空间,还有另一种查看方式,即“在系数矩阵的列所跨越的空间上的投影”: 我的问题是:在这两种解释中,当我们使用惩罚线性回归(如岭回归和 LASSO)时会发生什么?在第一个解释中该行会发生什么?在第二种解释中,投影会发生什么? 更新: @JohnSmith在评论中提到了惩罚发生在系数空间中的事实。在这个领域也有解释吗?

1
如何在线性回归中解释系数标准误差?
我想知道在R中使用显示功能时如何解释回归的系数标准误。 例如,在以下输出中: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 更高的标准误差是否意味着更大的意义? 同样对于残留标准偏差,较高的值表示较大的扩展,但是R平方显示出非常接近的拟合度,这不是矛盾吗?

9
测量基于逻辑回归的模型的准确性
我有一个训练有素的逻辑回归模型,该模型将应用于测试数据集。因变量是二进制(布尔值)。对于测试数据集中的每个样本,我应用逻辑回归模型来生成因变量为true的概率百分比。然后我记录实际价值是对还是错。我正在尝试计算线性回归模型中的或Adjusted数字。R 2[R2R2R^2[R2R2R^2 这为我提供了测试集中每个样本的记录,例如: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... 我想知道如何测试模型的准确性。我的第一个尝试是使用列联表,并说“如果prob_value_is_true> 0.80,则猜测实际值为真”,然后测量正确分类与错误分类的比率。但我不喜欢这样,因为感觉更像是我只是以0.80为边界进行评估,而不是整个模型以及所有prob_value_is_true值的准确性。 然后,我尝试仅查看每个prob_value_is_true离散值,例如查看prob_value_is_true= 0.34的所有样本,并测量实际值是真实的那些样本的百分比(在这种情况下,如果样本的百分比为%,则将具有完美的准确性正确= 34%)。我可以通过将的每个离散值的差值相加来创建模型准确性得分prob_value_is_true。但是这里的样本大小是一个巨大的问题,尤其是对于极端情况(接近0%或100%),这样实际值的平均值就不准确,因此使用它们来衡量模型的准确性似乎并不正确。 我什至尝试创建巨大的范围以确保足够的样本量(0-.25,.25-.50,.50-.75,.75-1.0),但是如何测量实际值的%的“好” 。假设所有prob_value_is_true介于0.25和0.50之间的样本的平均值acutal_value为0.45。既然在范围内,那好吗?不好,因为它不在37.5%(范围的中心)附近? 因此,我被困在似乎应该是一个简单的问题上,希望有人可以将我指向一种资源或方法,以计算逻辑回归模型的静态精度。

3
拟合R的负二项式回归中的theta是多少?
我有一个关于负二项式回归的问题:假设您有以下命令: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (请注意,cars是R中可用的数据集,我并不在乎这个模型是否有意义。) 我想知道的是:如何解释变量theta(在调用的底部返回summary)。这是负数分布的形状参数,是否可以将其解释为偏度的度量?

7
如何确定在R中的LOESS回归中使用什么跨度?
我正在R中运行LOESS回归模型,我想比较具有不同样本量的12个不​​同模型的输出。如果可以帮助回答问题,我可以更详细地描述实际模型。 以下是样本数量: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: 330 Curveballs vs RHH 2008-09: 488 Curveballs vs LHH …
26 r  regression  loess 


4
为什么有人会使用KNN进行回归?
据我了解,我们只能建立一个位于训练数据间隔内的回归函数。 例如(仅一个面板是必要的): 如何使用KNN回归器预测未来?同样,它似乎仅近似位于训练数据间隔内的函数。 我的问题:使用KNN回归器有什么优势?我知道这是一个非常强大的分类工具,但在回归场景中似乎效果不佳。

3
为什么对套索识别的变量子集使用套索估计而不是OLS估计?
对于套索回归假设最佳解决方案(例如最小测试误差)选择了k个特征,这样\ hat {\ beta} ^ {lasso} = \ left(\ hat {\ beta} _1 ^ {lasso},\ hat {\ beta} _2 ^ {lasso},...,\ hat {\ beta} _k ^ {lasso},0,... 0 \ right)。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我们知道(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)是一个\ left(\ beta_1,\ beta_2,...,\ beta_k \ right)的估计值有偏差(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right),所以为什么我们仍将β^lassoβ^lasso\hat{\beta}^{lasso}作为最终解决方案,而不是更“合理的” β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right),其中β^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}是部分模型Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。(X1:kX1:kX_{1:k}表示与k个所选要素相对应的X列)。XXXkkk 简而言之,为什么我们同时将Lasso用于特征选择和参数估计,而不是仅用于变量选择(并将选定特征的估计留给OLS)? (此外,“套索最多可以选择nnn特征” 是什么意思?nnn是样本大小。)

5
在回归中包含滞后因变量
我对在回归模型中包含滞后因变量是否合法感到非常困惑。基本上,我认为,如果该模型关注Y的变化与其他自变量之间的关系,那么在右侧添加滞后因变量可以确保其他IV之前的系数与Y的先前值无关。 有人说,包含LDV将使其他IV的系数下降。还有一些人说可以包含LDV,它可以减少串行相关性。 我知道这个问题在哪种回归方面都相当普遍。但是我的统计知识是有限的,而且当焦点是Y随时间的变化时,我真的很难确定是否应将滞后因变量包括在回归模型中。 还有其他方法来处理Xs对Y随时间的变化的影响吗?我也尝试了与DV不同的变化评分,但是在那种情况下R平方非常低。

2
logit值实际上是什么意思?
我有一个logit模型,在很多情况下,这个模型的数字在0到1之间,但是我们怎么解释呢? 让我们以0.20的logit作为例子 我们能否断言一个案例属于B组vs A组的可能性为20%? 这是解释logit值的正确方法吗?

3
AIC模型比较的先决条件
要使AIC模型比较正常工作,必须满足哪些先决条件? 当我像这样进行比较时,我只是遇到了这个问题: > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 这样我就证明了log变量的转换usili。但是我不知道在例如因变量不同的情况下是否可以对模型进行AIC比较? 理想的答案应包括先决条件(数学假设)列表。

1
高斯模型中最小二乘和MLE之间的等价关系
我是机器学习的新手,并且正在尝试自己学习。最近,我正在阅读一些讲义,并提出了一个基本问题。 幻灯片13表示“最小二乘估计与高斯模型下的最大似然估计相同”。看来这很简单,但我看不到这一点。有人可以解释一下这是怎么回事吗?我对看数学感兴趣。 稍后我将尝试查看Ridge和Lasso回归的概率观点,因此,如果有任何建议对我有帮助,也将不胜感激。



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.