Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。




7
随机森林过度拟合
我正在尝试在scikits-learn中使用随机森林回归。问题是我遇到了很高的测试错误: train MSE, 4.64, test MSE: 252.25. 这是我的数据的样子:(蓝色:真实数据,绿色:预测的): 我将90%用于培训,将10%用于测试。这是我尝试几种参数组合后使用的代码: rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1) test_mse = mean_squared_error(y_test, rf.predict(X_test)) train_mse = mean_squared_error(y_train, rf.predict(X_train)) print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse)) plot(rf.predict(X)) plot(y) 有什么可能的策略来改善我的健康状况?我还有其他方法可以提取基础模型吗?对于我来说,令人难以置信的是,经过多次重复相同的模式后,模型对新数据的表现如此差劲。我完全没有希望尝试拟合此数据吗?

1
变量误差回归:从三个站点合并数据是否有效?
最近,我有一个客户来做我的引导程序分析,因为FDA审查员说他们的变量误差回归是无​​效的,因为当合并来自站点的数据时,分析包括来自三个站点的数据,其中两个站点包括一些样本。相同。 背景 客户想使用一种新的测定方法,他们希望证明该方法与现有的认可方法“等效”。他们的方法是比较两种方法应用于相同样品的结果。使用了三个站点进行测试。将变量误差(戴明回归)应用于每个站点的数据。想法是,如果回归显示斜率参数接近1,截距接近0,则表明这两种测定技术给出的结果几乎相同,因此应批准新方法。在站点1,他们有45个样本,给了他们45个配对的观测值。站点2有40个样本,站点3有43个样本。他们进行了三个单独的Deming回归(假设两种方法的测量误差之比为1)。因此,该算法将垂直距离的平方和最小化。 客户在提交的材料中指出,地点1和2所用的一些样品是相同的。在审查中,FDA审查员说Deming回归是无效的,因为使用了共同的样本会导致“干扰”,从而使模型的假设无效。他们要求对Deming结果进行自举调整,以考虑到这种干扰。 那时,由于客户不知道该如何进行引导程序。“干扰”一词很奇怪,我不确定审阅者的确切含义。我认为关键是因为合并数据具有公共样本,所以公共样本之间存在相关性,因此模型误差项不会全部独立。 客户分析 这三个单独的回归非常相似。每个斜率参数接近1,截距接近0。在每种情况下,斜率和截距的95%置信区间分别为1和0。主要区别是站点3上的残留方差略高。此外,他们将此与进行OLS的结果进行了比较,发现它们非常相似(仅在一种情况下,基于OLS的斜率的置信区间不包含1)。如果坡度的OLS CI不包含1,则区间的上限约为0.99。 由于这三个站点的结果如此相似,将站点数据合并起来似乎是合理的。客户进行了汇总的Deming回归,也得出了类似的结果。鉴于这些结果,我为客户撰写了一份报告,对声称回归无效的说法提出了异议。我的观点是,由于两个变量中都存在类似的度量误差,因此客户使用Deming回归作为显示同意/不同意见的方式是正确的。单个站点的回归没有相关误差的问题,因为在给定的站点内没有重复样本。合并数据以获得更紧密的置信区间。 可以通过简单地将数据与站点1中遗漏的常见样本合并来解决此难题。同样,三个单独的站点模型也没有问题并且有效。在我看来,即使没有共同努力,这也提供了有力的证据。此外,对于公共站点,分别在站点1和2进行测量。因此,我认为即使使用所有数据进行汇总分析也是有效的,因为站点1处样品的测量误差与站点2中相应样品的测量误差不相关。这实际上等于在设计中重复了一点空间应该没有问题。它不会创建关联/“干扰”。 在我的报告中,我写道引导分析是不必要的,因为没有相关的调整。这三个站点模型是有效的(站点内没有可能的“干扰”),可以进行合并分析以在合并时删除站点1上的常见样本。这样的汇总分析不会有干扰问题。无需进行自举调整,因为没有偏差可调整。 结论 客户同意我的分析,但害怕将其提交给FDA。他们还是要我进行引导程序调整。 我的问题 A)您是否同意(1)我对客户结果的分析,以及(2)我认为不需要引导程序的论点。 B)鉴于我必须自举Deming回归,是否有任何过程SAS或R可用于我对自举样本进行Deming回归? 编辑:考虑到比尔·胡伯(Bill Huber)的建议,我计划通过对x上的y和对y上的x进行回归来研究变量误差回归的界限。我们已经知道,对于一种版本的OLS,当两个误差方差均相等时,答案与变量误差基本相同。如果对于其他回归也是如此,那么我认为这将表明Deming回归给出了适当的解决方案。你同意吗? 为了满足客户的要求,我需要进行模糊定义的请求引导分析。从伦理上讲,我认为仅提供引导程序是错误的,因为它并不能真正解决客户的真正问题,即证明他们的检测测量程序合理。因此,我将对他们进行分析,并至少要求他们告诉FDA,除了进行引导程序外,我还进行了逆回归并限制了Deming回归,我认为这更合适。我还认为,分析将表明他们的方法与参考等效,因此Deming回归也足够。 我计划使用@whuber在其答案中建议的R程序,以使我能够引导Deming回归。我对R不太熟悉,但我认为我可以做到。我已经将R和R Studio一起安装了。这样对像我这样的新手来说足够容易吗? 我也有SAS,并且对SAS编程更满意。因此,如果有人知道在SAS中执行此操作的方法,我将不胜感激。

3
选择具有最强相关性的数据点子集的自动化程序?
是否有一些标准程序(以便可以引用它作为参考)从具有最大相关性(仅二维)的较大池中选择数据点的子集? 例如,假设您有100个数据点。您需要一个40个点的子集,这些子集在X和Y维度上可能具有最强的相关性。 我意识到编写代码来做到这一点相对简单,但是我想知道是否有任何资料可以引用?

2
如何在不同的
我想到了以下提出的调整后的R平方公式: 以西结(1930),我相信这是目前SPSS中使用的一种。 R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) 奥尔金和普拉特(1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} 在什么情况下(如果有)我应该更喜欢“调整”而不是“无偏”?R2R2R^2 参考文献 Ezekiel,M.(1930年)。相关分析方法。纽约约翰·威利父子。 奥尔金(Olkin I.),普拉特(Pratt)JW(1958)。某些相关系数的无偏估计。数理统计年鉴,29(1),201-211。



4
回归参数的置信区间:贝叶斯与经典
给定两个长度均为n的数组x和y,我拟合了模型y = a + b * x,并希望计算斜率的95%置信区间。这是(b-delta,b + delta),其中b是通常找到的, delta = qt(0.975,df=n-2)*se.slope se.slope是斜率的标准误差。从R获得斜率标准误差的一种方法是summary(lm(y~x))$coef[2,2]。 现在,假设我写出给定x和y的斜率的可能性,将其乘以“平坦”的先验,然后使用MCMC技术从后验分布中得出样本m。限定 lims = quantile(m,c(0.025,0.975)) 我的问题:(lims[[2]]-lims[[1]])/2大约等于上面定义的增量吗? 附录下面是一个简单的JAGS模型,这两个模型似乎有所不同。 model { for (i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- a + b * x[i] } a ~ dnorm(0, .00001) b ~ dnorm(0, .00001) tau <- pow(sigma, -2) …

5
如何模拟价格?
我在matemathics stackexchange网站上问了这个问题,建议在这里问。 我正在从事一个业余项目,需要解决以下问题。 一点背景 假设有一些商品,其中包含功能和价格的描述。想象一下汽车和价格的清单。所有汽车都具有功能列表,例如引擎尺寸,颜色,马力,型号,年份等。对于每个品牌,都应如下所示: Ford: V8, green, manual, 200hp, 2007, $200 V6, red, automatic, 140hp, 2010, $300 V6, blue, manual, 140hp, 2005, $100 ... 更进一步,带有价格的汽车列表以一定的时间间隔发布,这意味着我们可以访问历史价格数据。可能并不总是包括完全相同的汽车。 问题 我想了解如何根据此基本信息为任何汽车的价格建模,最重要的是不在初始清单中的汽车。 Ford, v6, red, automatic, 130hp, 2009 对于上述汽车,它与列表中的汽车几乎相同,但马力和年份略有不同。要为此定价,需要什么? 我正在寻找的是实用且简单的内容,但我也想听听有关如何对此类内容进行建模的更复杂方法。 我尝试过的 到目前为止,这是我一直在尝试的内容: 1)使用历史数据查找汽车X。如果找不到,则没有价格。当然这是非常有限的,并且只能将其与时间衰减结合使用,以随着时间的推移改变已知汽车的价格。 2)使用汽车功能加权方案和定价的样本汽车。基本上有一个基本价格,功能只是在某种程度上改变了价格。基于此得出任何汽车的价格。 事实证明,第一种方法不够用,第二种方法并不总是正确的,我可能没有使用权重的最佳方法。这似乎在保持权重上有些沉重,所以这就是为什么我认为也许有某种方法可以将历史数据用作统计信息,从而获得权重或获得其他收益。我只是不知道从哪里开始。 其他重要方面 集成到我拥有的一些软件项目中。通过使用现有的库或自己编写算法。 新的历史数据出现时快速重新计算。 有什么建议可以解决这样的问题吗?所有想法都值得欢迎。 在此先多谢,并期待阅读您的建议!



5
线性回归中的假设条件是什么?
在线性回归中,我们做出以下假设 每个预测变量值的响应平均值 E(Yi)E(Yi)E(Y_i)是预测变量的线性函数。(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 误差εiεiε_i是独立的。 在预测变量的每个值集(x_ {1i},x_ {2i},…)处的误差ε_i正态分布。εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…) 每个预测变量值 (x_ {1i},x_ {2i},...)的误差ε_i具有相等的方差(表示为σ2)。εiεiε_i(x1i,x2i,…)(x1i,x2i,…)(x_{1i}, x_{2i},…)σ2σ2σ2 解决线性回归的方法之一是通过正态方程,我们可以写成 θ=(XTX)−1XTYθ=(XTX)−1XTY\theta = (X^TX)^{-1}X^TY 从数学的角度来看,上述等式仅需要XTXXTXX^TX是可逆的。那么,为什么我们需要这些假设呢?我问了几个同事,他们提到这是要获得良好的结果,而正规方程是实现该目标的算法。但是在那种情况下,这些假设有何帮助?坚持使用它们如何有助于建立更好的模型?

2
神经网络与其他一切
我没有从google找到满意的答案。 当然,如果我拥有的数据量达到数百万,那么深度学习就是一种方法。 我已经读到,当我没有大数据时,也许最好在机器学习中使用其他方法。给出的原因是过度拟合。机器学习:即查看数据,特征提取,从收集的内容中构建新特征等。例如删除高度相关的变量等。整个机器学习9码。 我一直想知道:为什么具有一层隐藏层的神经网络不是解决机器学习问题的灵丹妙药?它们是通用估计器,可以通过辍学,l2正则化,l1正则化,批归一化来管理过度拟合。如果我们只有50,000个培训示例,那么培训速度通常不会成为问题。在测试时,它们比随机森林要好。 那么为什么不呢?-像通常那样清理数据,估算缺失值,将数据居中,标准化数据,将其扔到具有一个隐藏层的神经网络集合中并应用正则化,直到看不到过度拟合为止,然后进行训练他们到最后。梯度爆炸或梯度消失是没有问题的,因为它只是2层网络。如果需要较深的层,则意味着要学习分层功能,然后其他机器学习算法也不好。例如,SVM是仅具有铰链损耗的神经网络。 一个示例,其中其他一些机器学习算法的性能将超过经过精心调整的2层(也许是3?)神经网络。您可以给我链接到问题,然后我将训练最好的神经网络,我们可以看到2层或3层神经网络是否低于其他任何基准机器学习算法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.