Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。



2
将Pearson相关系数作为机器学习中的优化目标
在机器学习中(针对回归问题),我经常看到均方误差(MSE)或均方绝对误差(MAE)被用作最小化(加上正则化项)的误差函数。我想知道是否存在使用相关系数更合适的情况?如果存在这种情况,则: 与MSE / MAE相比,在什么情况下相关系数是更好的指标? 在这些情况下,MSE / MAE还是可以使用的良好代理费用功能吗? 直接使相关系数最大化是可能的吗?这是一个稳定的目标函数吗? 我找不到在优化中直接将相关系数用作目标函数的情况。如果有人可以向我介绍该领域的信息,我将不胜感激。



1
为什么不每次都进行强大的回归?
此页面的示例表明,简单回归明显受到异常值的影响,可以通过鲁棒回归技术来克服:http : //www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ 。我相信lmrob和ltsReg是其他强大的回归技术。 为什么不应该每次都不进行鲁棒回归(例如rlm或rq),而不是执行简单回归(lm)?这些强大的回归技术有什么缺点吗?感谢您的见解。

2
回归模型的VC维
在讲座系列“ 从数据中学习”中,这位教授提到VC维度量了给定模型可以破碎多少点的模型复杂性。因此,这对于分类模型非常有效,在分类模型中,如果分类器能够有效地粉碎k个点,我们可以说出N个点,那么VC维度量将为K。但是我不清楚如何为回归模型测量VC维?


2
为排名数据绘制回归线(Spearman相关性)是否“可行”?
我有一些我计算出Spearman相关性的数据,并希望将其可视化以用于出版物。因变量是排名的,独立变量不是。我想可视化的是总体趋势,而不是实际的斜率,因此我对独立变量进行了排名,并应用了Spearman相关/回归。但是,当我绘制数据并将其插入到手稿中时,我偶然发现了这个声明(在此网站上): 当您进行Spearman秩相关时,几乎不会将回归线用于描述或预测,因此不要计算回归线的等价物。 然后 您可以按照与线性回归或相关性相同的方式来绘制Spearman等级相关性数据。但是,不要在图表上放置回归线。使用等级相关性对其进行分析后,将线性回归线放在图形上会产生误导。 问题是,回归线与我未对独立变量进行排名并计算皮尔逊相关性时没有太大不同。趋势是相同的,但是由于期刊中彩色图形的费用过高,所以我使用单色表示,并且实际数据点重叠得太多,以致无法识别。 当然,我可以通过制作两个不同的图来解决此问题:一个用于数据点(排名),另一个用于回归线(未排名),但是如果事实证明我引用的来源有误或存在问题,就我而言,这不是问题,它将使我的生活更轻松。(我也看到了这个问题,但这并没有帮助我。) 编辑其他信息: 如果将分类算法的性能进行比较,则x轴上的自变量表示特征的数量,y轴上的因变量表示等级。现在,我有一些算法可以平均比较,但是我想对我的情节说的是:“虽然分类器A越好,存在的特征越多,分类器B越好,存在的特征越多” 编辑2以包括我的地块: 绘制的算法等级与特征数量的关系 绘制的算法等级与特征等级的对比 因此,重复标题中的问题: 可以为Spearman相关/回归的排名数据绘制回归线吗?


2
为什么R需要很长时间才能拟合具有多级因子的模型?
我用一个具有多个水平因子的模型拟合模型,并且R花费很长时间才能拟合该模型。为什么是这样? 例如,如果我拟合回归来预测球员的薪水,并包括针对所有球员各自国籍的因子预测器,那么与使用像球员的连续预测器那样的球员的薪资模型拟合起来相比,这将花费更长的时间。高度。

1
比较同一模型在不同数据集上的回归系数
我正在评估同一制冷系统中使用的两(2)种制冷剂(气体)。我有饱和吸气温度(),冷凝温度()和安培数()数据用于评估。有两(2)套数据;第一制冷剂()和第二制冷剂()。我正在使用线性多元(&)三阶多项式模型进行回归分析。我想确定第二种制冷剂平均消耗多少/更多的安培数(或类似的性能比较指标)。SSSDDDYYYR1R1R_1R2R2R_2SSSDDD 我的第一个想法是: 确定要使用的模型:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3Y = b_0 + b_1S + b_2D + b_3SD + b_4S^2 + b_5D^2 + b_6S^2D + b_7D^2S + b_8D^3 + b_9S^3 从基准数据()推导系数()。bibib_iR1R1R_1 使用这些系数,对于每一个&在数据集,计算每一个预期安培平局(),然后平均。SSSDDDR2R2R_2Y^Y^\hat{Y} 比较平均值与数据的实际平均安培数()。Y^Y^\hat{Y}Y2Y2Y_2R2R2R_2 percent (%) change=(Y2−Y^)/Y^percent (%) change=(Y2−Y^)/Y^\text{percent (%) change} = (Y_2 - \hat{Y}) / \hat{Y} 但是,由于第二种制冷剂的热性能略有不同,并且制冷系统的变化很小(TXV和过热调节),因此我认为这种“基准比较方法”并不准确。 我的下一个想法是做两(2)个单独的回归分析: Y1Y2=a0+a1S1+a2D1+a3S1D1+a4S21+a5D21+a6S21D1+a7D21S1+a8D31+a9S31=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D32+b9S32Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23\begin{align} Y_1 &= a_{0} + a_{1}S_1 + a_{2}D_1 + …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

3
基于数据不确定度计算线性回归斜率的不确定度
如何基于数据不确定性(可能在Excel / Mathematica中)计算线性回归斜率的不确定性? 示例: 让我们有数据点(0,0),(1,2),(2,4),(3,6),(4,8),...(8、16),但是每个y值都有不确定性为4。我发现,大多数函数会将不确定性计算为0,因为这些点与函数y = 2x完全匹配。但是,如图所示,y = x / 2也与这些点匹配。这是一个夸张的例子,但我希望它能说明我的需求。 编辑:如果我尝试解释更多,而示例中的每个点都有y的某个值,我们假装不知道这是真的。例如,第一个点(0,0)实际上可以是(0,6)或(0,-6)或介于两者之间的任何值。我要问的是,在任何流行的问题中都没有考虑到这一点的算法。在示例中,点(0,6),(1,6.5),(2,7),(3,7.5),(4,8),...(8、10)仍落在不确定性范围内,因此它们可能是正确的点,并且连接这些点的线具有一个方程:y = x / 2 + 6,而我们通过不考虑不确定性而得到的方程为:y = 2x +0。因此,k的不确定性是1,5,而n是6。 TL; DR:在图片中,有一条y = 2x线是使用最小二乘拟合计算得出的,并且可以完美拟合数据。我试图找出y = kx + n中的k和n可以改变多少,但是如果我们知道y值的不确定性,仍然可以拟合数据。在我的示例中,k的不确定度为1.5,n的不确定度为6。在图像中,有“最佳”拟合线和一条刚好适合这些点的线。

2
异方差和残差正态性
我猜想我有一个很好的线性回归(这是用于大学项目的,因此我并不一定要非常准确)。 关键是,如果我绘制残差与预测值的关系图,(根据我的老师的话)会有异方差的迹象。 但是,如果我绘制残差的QQ图,则很明显它们是正态分布的。此外,残差的Shapiro检验的值为,因此我认为毫无疑问,残差实际上是正态分布的。ppp0.80.80.8 问题:如果残差呈正态分布,预测值怎么会有异方差?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.