Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
时间序列异常检测算法
我目前在R中使用Twitter的AnomalyDetection:https : //github.com/twitter/AnomalyDetection。该算法为具有季节性的数据提供时间序列异常检测。 问题:是否有与此类似的其他算法(控制季节性无关紧要)? 我正在尝试在数据上为尽可能多的时间序列算法评分,以便我可以选择最佳的算法。


2
如何设计和实现不对称损失函数进行回归?
问题 在回归中,通常会计算出样本的均方误差(MSE): 来衡量预测变量的质量。MSE = 1ñ∑我= 1ñ(克(x一世)− gˆ(x一世))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 现在,我正在研究一个回归问题,该问题的目的是在给定许多数字特征的情况下,预测客户愿意为产品支付的价格。如果预测价格过高,则没有客户会购买该产品,但是金钱损失很低,因为价格可以简单地降低。当然不应太高,否则可能会导致长时间不购买该产品。另一方面,如果预测价格过低,则将很快购买产品,而没有机会调整价格。 换句话说,学习算法应该预测稍高的价格,如有必要,可以将其降低,而不是低估会导致立即金钱损失的真实价格。 题 您如何设计一个包含这种成本不对称性的误差度量? 可能的解决方案 定义非对称损失函数的一种方法是简单地乘以权重: 其中是我们可以调整的参数,以更改不对称程度。我在这里找到了。在保持二次损失的同时,这似乎是最直接的事情。α&Element; (0,1)1个ñ∑我= 1ñ∣∣α - 1(克(x一世)− gˆ(x一世))&lt; 0∣∣⋅ (克(x一世)− gˆ(x一世))21n∑i=1n|α−1(g(xi)−g^(xi))&lt;0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 α &Element; (0 ,1 )α∈(0,1)\alpha \in (0,1)

1
线性回归预测区间
如果我的数据点的最佳线性近似(使用最小二乘)是线,如何计算近似误差?如果我计算观察值和预测值之间的差异的标准偏差,我以后可以说真实(但未观察到)的值属于区间假设正态分布()的概率约为68%?e i = r e a l (x i)− (m x i + b )y r = r e a l (x 0)[ y p - σ ,y p + σy=mx+by=mx+by=mx+bei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)yr=real(x0)yr=real(x0)y_r=real(x_0)y p = m x 0 + b[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]yp=mx0+byp=mx0+by_p=mx_0+b 澄清: 我对函数进行了观察,评估结果为点。我将这些观察值拟合为。对于我没有观察到的,我想知道 有多大。使用上述方法,中的是正确的。〜68%?X 我升(X )= 米X + b X 0 ˚F …



3
在解释变量的回归系数时,其顺序是否重要?
起初我以为顺序无关紧要,但是后来我了解了用于计算多个回归系数的gram-schmidt正交化过程,现在我有了第二个想法。 根据gram-schmidt过程,在其他变量中索引解释性变量的时间越晚,其残差矢量越小,这是因为从中减去了先前变量的残差矢量。结果,说明变量的回归系数也较小。 如果这是真的,那么该变量的残差矢量如果被更早地索引,则将更大,因为将从中减去的残差矢量会更少。这意味着回归系数也将更大。 好的,所以我被要求澄清我的问题。因此,我从文本中发布了屏幕截图,这让我一开始很困惑。好的,去。 我的理解是,至少有两个选择来计算回归系数。第一个选项在下面的屏幕截图中表示为(3.6)。 这是第二个选项(我不得不使用多个屏幕截图)。 除非我误读了某些内容(这肯定是可能的),否则在第二种选择中顺序似乎很重要。第一种选择有关系吗?为什么或者为什么不?还是我的参照系太混乱了,甚至不是一个有效的问题?另外,这是否与I型平方和vs II型平方和相关? 在此先多谢,我很困惑!

3
新闻中的方程式:将多层次模型转换为普通受众
纽约时报对用于向纽约市教育工作者提供反馈的“增值”教师评估系统有很长的评论。lede是用于计算分数的等式-无需上下文即可呈现。修辞策略似乎是通过数学恐吓: 该文章的全文可在以下网站获得:http : //www.nytimes.com/2011/03/07/education/07winerip.html 作者迈克尔·怀恩里普(Michael Winerip)认为,该方程式的意义超出了马特·达蒙(Matt Damon)以外的任何人的理解能力,更不用说普通教师了: “艾萨克森女士的3.69预测分数的计算更加令人生畏。它基于32个变量-包括学生是否“在考试前一年保持了年级”,以及学生是否是“在考试前或考试后新来的城市”年。” 这32个变量被插入到一个统计模型中,该模型看起来像是在“善意狩猎”中只有Matt Damon能够解决的方程式之一。 这个过程看起来是透明的,但显然是泥泞的,即使对于像教师,校长和记者(我对此也犹豫不决)这样​​的聪明人来说也是如此。 艾萨克森女士可能有两个常春藤联盟学位,但她迷路了。她说:“我发现这是无法理解的。” 用简单的英语来说,艾萨克森女士对教育部试图告诉她的最好的猜测是:即使她的66名学生中有65名在州考试中获得了熟练的成绩,但她的3分中的3分应该是4分。 但这只是一个猜测。” 您将如何向外行解释该模型?仅供参考,完整的技术报告位于: http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新:Andrew Gelman在这里提供了他的想法:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

3
什么是“混淆系数”?
在R(lm)中建立回归模型时,我经常收到此消息 "there are aliased coefficients in the model" 这到底是什么意思? 另外,由于此predict()原因也发出警告。 尽管这只是一个警告,但我想知道在构建模型之前如何检测/删除别名系数。 另外,忽略此警告可能会带来什么后果?
24 r  regression 




1
有没有一种方法可以使用协方差矩阵来找到用于多元回归的系数?
对于简单的线性回归,可以直接从方差-协方差矩阵CCC, C d ,e计算回归系数。Cd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} 其中ddd是因变量的指数,和eee是解释变量的指数。 如果只有协方差矩阵,是否可以为具有多个解释变量的模型计算系数? ETA:对于双解释变量,看来 和类似地用于β2。我没有立即看到如何将其扩展到三个或更多变量。β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2} β2β2\beta_2


3
如何测试残差的自相关?
我有一个包含两列的矩阵,这两列具有很多价格(750)。在下图中,我绘制了线性回归的残差: lm(prices[,1] ~ prices[,2]) 看图像,似乎是残差的很强的自相关。 但是,如何测试这些残差的自相关性是否强?我应该使用什么方法? 谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.