Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
如何在R中找到一个适合半正弦模型的模型?
我想假设波罗的海的海面温度年复一年,然后用函数/线性模型对其进行描述。我的想法是只将年输入为十进制数字(或num_months / 12),然后得出当时的温度。将其扔到R中的lm()函数中,它无法识别正弦数据,因此只能产生一条直线。因此,我将sin()函数放在I()括号内,并尝试了一些值以手动适合该函数,这接近我想要的值。但是海洋在夏天变暖得更快,而在秋天变慢了……所以第一年的模型是错误的,几年后变得更正确,然后在将来我猜想它会变得更多再犯错。 如何获得R来为我估算模型,所以我不必自己猜测数字?这里的关键是我希望它年复一年地产生相同的值,而不仅仅是一年正确。如果我对数学了解更多,也许我可以将其估计为类似于Poisson或Gaussian之类的东西,而不是sin(),但我也不知道该怎么做。任何帮助您接近一个好的答案将不胜感激。 这是我使用的数据,以及到目前为止显示结果的代码: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 


3
简单线性回归中回归系数的导数方差
在简单的线性回归,我们有y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u,其中u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)。我导出的估计: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , 其中x¯x¯\bar{x}和y¯y¯\bar{y}是的样本均值xxx和yyy。 现在,我想找到的方差β 1。我衍生像下面这样: 无功(^ β 1)= σ 2(1 - 1β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 推导如下: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , …

4
预测和预测之间的区别?
我想知道预测和预测之间有什么区别和关系?特别是在时间序列和回归方面? 例如,我是否纠正: 在时间序列中,预测似乎意味着在给定时间序列的过去值的情况下估计未来值。 在回归中,预测似乎意味着估计给定数据的值是未来,当前还是过去。 谢谢并恭祝安康!


2
我怎么知道哪种交叉验证最好?
我试图找出哪种交叉验证方法最适合我的情况。 以下数据只是解决问题的一个示例(R中),但我的真实X数据(xmat)相互关联,并且与y变量(ymat)的关联程度不同。我提供了R代码,但我的问题不是关于R而是关于方法。Xmat包含X个变量V1至V100,而ymat包含单个y变量。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") 我想y根据中的所有变量建立一个预测模型xmat。因此它将是一个线性回归模型y ~ V1 + …

2
Logistic回归与LDA作为两类分类器
我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?

4
如何从多项式模型拟合中解释系数?
我正在尝试为我拥有的某些数据创建二阶多项式。假设我通过以下方式绘制了这种拟合ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 我得到: 因此,二阶拟合效果很好。我用R计算: summary(lm(data$bar ~ poly(data$foo, 2))) 我得到: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …

3
如何在线性回归中导出系数的方差-协方差矩阵
我正在阅读有关线性回归的书,但在理解的方差-协方差矩阵时遇到了一些麻烦:bb\mathbf{b} 对角项很容易,但对角项比较困难,令我感到困惑的是 σ(b0,b1个)= E(b0b1个)- Ë(b0)E(b1个)= E(b0b1个)- β0β1个σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 但没有一丝和β 1在这里。β0β0\beta_0β1个β1\beta_1
36 regression 

4
如何在R中拟合约束回归,以使系数total = 1?
我在这里看到类似的约束回归: 通过指定点的约束线性回归 但我的要求略有不同。我需要将这些系数相加为1。具体而言,我正在将1个外汇系列的收益与其他3个外汇系列的收益进行回归,以便投资者可以用对其他3个外汇系列的组合代替他们对该系列的风险敞口,但是现金支出一定不能改变,而且最好(但这不是强制性的),系数应该为正。 我试图在R和Google中搜索约束回归,但是运气不佳。
36 r  regression 

2
如何解释glmnet?
我正在尝试使用约60个预测变量和30个观察值来拟合多元线性回归模型,所以我使用glmnet软件包进行正则回归,因为p> n。 我一直在研究文档和其他问题,但仍然无法解释结果,这是示例代码(为简化起见,有20个预测变量和10个观察值): 我创建了一个矩阵x,其中num行=观察值,cols =预测变量,向量y表示响应变量 > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) 我适合一个glmnet模型,将alpha保留为默认值(套索罚分= 1) > fit1=glmnet(x,y) > print(fit1) 我了解随着lambda值的降低(即罚款),我得到了不同的预测 Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . [96,] 10 0.99740 0.010730 [97,] …



2
线性回归的梯度提升-为什么不起作用?
在学习Gradient Boosting时,我还没有听说过该方法用于构建和集成模型的“弱分类器”的属性方面的任何限制。但是,我无法想象使用线性回归的GB应用程序,实际上,当我执行一些测试时-它不起作用。我正在用残差平方和的梯度测试最标准的方法,然后将后续模型相加。 明显的问题是,第一个模型的残差以这样的方式填充:实际上再也没有适合的回归线。我的另一个观察结果是,后续线性回归模型的总和也可以表示为单个回归模型(加上所有截距和相应的系数),因此我无法想象这会如何改善该模型。最后的观察结果是线性回归(最典型的方法)使用残差平方和作为损失函数-GB也在使用这种方法。 我还考虑过降低学习率,或者在每次迭代中仅使用预测变量的子集,但是最终还是可以将其总结为单个模型表示,因此我认为这不会带来任何改善。 我在这里想念什么?线性回归在某种程度上不适用于Gradient Boosting吗?是因为线性回归使用残差平方和作为损失函数吗?对弱预测变量是否有任何特殊限制,以便可以将其应用于梯度提升?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.