Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
缺少预测变量的多元回归
假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 和 (y,X1个,X2,⋯ ,Xn − 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})。我们被赋予了预测的任务ÿyy 根据的值 Xxx。我们估计两个回归,其中: ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我们还估计了一个回归,该回归预测了 Xñxnx_{n} 根据的值 (X1个,⋯ ,Xn − 1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), 那是: Xñ=F3(X1个,⋯ ,Xn − 1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} 假设现在给我们的值为 (X1个,⋯ ,Xn …

3
随机森林回归中依赖于响应分布的偏差
我正在使用R(2.1.3版,4.6-2版的ForestForest)中的randomForest软件包进行回归,并注意到我的结果存在明显偏差:预测误差取决于响应变量的值。高值被低估,而低值被高估。起初,我怀疑这是我的数据的结果,但是以下简单示例表明这是随机森林算法所固有的: n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) 我怀疑偏差取决于响应的分布,例如,如果x1是均匀分布的,则没有偏差;如果x1是指数分布,则偏差是单边的。本质上,正态分布尾部的响应值是异常值。模型很难预测离群值也就不足为奇了。在randomForest的情况下,来自分布尾部的极高幅度的响应值不太可能最终出现在末端叶片中,并且其效果将在集合平均中被淘汰。 请注意,我尝试在前面的示例“ R线性回归尾部mtry中的RandomForest”中捕获此效果。这是一个不好的例子。如果以上示例中的偏差确实是该算法固有的,则可以得出这样的偏差校正值:给定一个正试图预测的响应分布,从而可以进行更准确的预测。 基于树的方法(例如随机森林)是否受到响应分布偏差的影响?如果是这样,这是统计界先前所知的,通常如何进行校正(例如,使用偏倚模型的残差作为输入的第二个模型)? 校正依赖于响应的偏差很困难,因为从本质上来说,响应是未知的。不幸的是,估计/预测响应通常与偏见没有相同的关系。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
auto.arima警告在标准错误下产生的NaN
我的数据是从业人口L的时间序列,以及时间跨度的年份。 n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 1.225907e-03 9.234378e-04 -6.836173e-05 …
9 r  regression  arima 

2
使用回归模型进行预测:何时停止?
为了进行预测,我从实验中计算出了一个简单的线性回归模型。我读过您不应该为偏离可用数据太远的点计算预测。但是,我找不到任何指导可以帮助我知道我可以推断的范围。例如,如果我计算50GB磁盘的读取速度,我想结果将接近实际情况。磁盘大小分别为100GB,500GB呢?我怎么知道我的预测是否接近现实? 我的实验细节如下: 我正在通过使用不同的磁盘大小来测量软件的读取速度。到目前为止,我已经通过在两次实验之间增加5GB的磁盘大小(总共6项措施)来测量5GB至30GB的磁盘空间。 我认为我的结果是线性的,标准误差很小。




3
在变量对数转换之前或之后进行相关
关于是否应在进行对数转换之前或之后为两个随机变量X和Y计算出皮尔逊相关性,是否有一个普遍的原则?有测试哪个程序更合适?它们产生相似但不同的值,因为对数变换是非线性的。是否取决于对数后X或Y是否更接近常态?如果是这样,那为什么重要呢?这是否意味着应该对X和Y与log(X)和log(Y)进行正态性检验,并据此确定pearson(x,y)是否比pearson(log(x),log( y))?

4
减少多元回归中的变量数量
我有一个庞大的数据集,其中包含数百个金融变量的值,这些变量可以用于多元回归,以预测指数基金随时间的行为。我想将变量的数量减少到十个左右,同时仍保留尽可能多的预测能力。 补充:减少的变量集必须是原始变量集的子集,以保留原始变量的经济意义。因此,例如,我不应该以原始变量的线性组合或聚合结局。 有关如何执行此操作的一些想法(可能是幼稚的): 对每个变量执行简单的线性回归,然后选择具有最大值的十个变量。当然,不能保证十个最佳个体变量的组合将是十个最佳组。R2R2R^2 执行主成分分析,并尝试查找与前几个主轴关联最大的十个原始变量。 我认为我不能执行分层回归,因为变量不是真正嵌套的。尝试使用十个变量的所有可能组合在计算上是不可行的,因为组合太多。 是否有标准方法来解决减少多元回归中变量数量的问题? 似乎这将是一个足够普遍的问题,因此将存在一种标准方法。 一个非常有用的答案将是不仅提及标准方法,而且概述其工作方式和原因。或者,如果没有一种标准的方法,而是多种方法各有优缺点,那么讨论其优缺点的答案将非常有用。 Whuber在下面的评论表明,最后一段中的要求太宽泛。相反,我会接受一个主要方法列表作为一个好的答案,也许对每个方法都有一个非常简短的描述。一旦有了条款,我就可以挖掘每个人的详细信息。

2
如何在R中拟合像的回归?
我有一些时间序列数据,其中测得的变量是离散的正整数(计数)。我想测试一下是否随着时间的推移出现上升趋势(或没有)。自变量(x)的范围是0-500,因变量(y)的范围是0-8。 我以为我可以通过y = floor(a*x + b)使用普通最小二乘法(OLS)拟合形式的回归来回答这个问题。 我将如何使用R(或Python)执行此操作?是否有现有的程序包,还是最好编写自己的算法? PS:我知道这不是理想的技术,但是我需要做一个我可以理解的相对简单的分析-我的背景是生物学而不是数学。我知道我违反了有关测量变量误差以及测量随时间变化的独立性的假设。
9 r  regression  python 


1
回归系数的倒数分布
假设我们有一个线性模型 ÿ一世=β0+β1个X一世+ϵ一世yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i符合所有标准回归(Gauss-Markov)假设。我们有兴趣θ = 1 /β1个θ=1/β1\theta = 1/\beta_1。 问题1:分配的必要条件是什么θ^θ^\hat{\theta} 定义清楚吗? β1个≠ 0β1≠0\beta_1 \neq 0 会很重要-其他吗? 问题2:添加假设误差遵循正态分布。我们知道,如果β^1个β^1\hat{\beta}_1 是MLE, G(⋅ )g(⋅)g(\cdot) 是单调函数,则 G(β^1个)g(β^1)g\left(\hat{\beta}_1\right) 是MLE g(β1)g(β1)g(\beta_1)。单调性仅在β1β1\beta_1?换句话说,是θ^=1/β^θ^=1/β^\hat{\theta} = 1/\hat{\beta}MLE?连续映射定理至少告诉我们该参数是一致的。 问题3: Delta方法和自举程序是否都是寻找分布的合适方法?θ^θ^\hat{\theta}? 问题4:这些答案如何更改参数γ=β0/β1γ=β0/β1\gamma = \beta_0 / \beta_1? 旁白:我们可能会考虑重新布置问题以解决 xi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵixi=β0β1+1β1yi+1β1ϵi=γ+θyi+1β1ϵi\begin{align*} x_i &= \frac{\beta_0}{\beta_1} + \frac{1}{\beta_1} y_i + \frac{1}{\beta_1} \epsilon_i \\ …

2
如果变量是自相关的,我可以相信回归吗?
这两个变量(因变量和自变量)均显示自相关效应。数据是时间序列且固定的 当我运行回归残差似乎不相关。我的Durbin-Watson统计量大于上临界值,因此有证据表明误差项没有正相关。同样,当我为错误绘制ACF时,看起来那里没有相关性,并且Ljung-Box统计量小于临界值。 我可以相信我的回归输出吗,t统计量可靠吗?

2
考虑到一个具有上限的变量,应使用哪种类型的回归?
我不确定要使用哪种方法来建模两个变量之间的关系(xxx 和 yyy)在实验中的描述如下: 有3个变量: xaimxaimx_{aim}, xxx 和 yyy。 的价值 xaimxaimx_{aim}在进行实验时设置。然而,xxx 和 xaimxaimx_{aim} 并不总是相等的。 皮尔逊之间的相关系数 xaimxaimx_{aim} 和 xxx 大约是0.9。 皮尔逊之间的相关系数 xxx 和 yyy 少得多:约0.5。 yyy 具有最大可能值(ymaxymaxy_{max}),不能超过。 设置后获取每个数据点 xaimxaimx_{aim} 和阅读 xxx 和 yyy。 虽然皮尔逊之间的相关系数 xxx 和 yyy 不好,看起来像 yyy 倾向于随着 xxx。 在进行简单的线性回归之后 y=f(x)y=f(x)y=f(x) 和 x=g(y)x=g(y)x=g(y) (然后将后者转换为 g−1g−1g^{-1},以便与 fff 例如),两个斜率均为正,但 g−1g−1g^{-1} 大于 fff。 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.