Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
是否有适用于使用稀疏预测器和响应的类似于CART的方法的库?
我正在使用R中的gbm包处理一些大型数据集。我的预测变量矩阵和响应向量都很稀疏(即,大多数条目为零)。我希望使用一种可以利用这种稀疏性的算法来构建决策树,就像在这里所做的那样。在该论文中,就像我所遇到的情况一样,大多数项目只有许多可能的功能中的少数,因此,除非数据中另有明确说明,否则它们可以通过假设其项目缺少给定功能来避免大量的计算浪费。我的希望是,通过使用这种算法(然后将增强算法包装在其周围以提高预测精度),我可以获得类似的加速效果。 由于他们似乎没有发布代码,所以我想知道是否有针对这种情况优化的开源软件包或库(任何语言)。理想情况下,我想要一种可以直接从R的Matrix包装中获取稀疏矩阵的东西,但我将尽我所能。 我环顾四周,看来应该是这样的事情: 化学家似乎经常遇到这个问题(我上面链接的文章是关于学习寻找新的药物化合物的),但是我可以找到的实现是化学分析的专有或高度专业化的实现。不过,其中之一可能会被重新利用。 文档分类似乎也是从稀疏特征空间学习的一个有用的领域(大多数文档包含的单词不多)。例如,有一个倾斜的参考稀疏实施C4.5的(一个手推车类算法)在本文中,但不包含代码。 根据邮件列表,WEKA可以接受稀疏数据,但是与我上面链接的论文中的方法不同,WEKA在避免浪费CPU周期方面并未进行优化以实际利用它。 提前致谢!

2
回归F检验的功效是什么?
多线性回归中变量子集的经典F检验的形式为 其中是“减少”模型下的平方误差总和,嵌套在“大”模型,而是模型的自由度。两种模式。在“大”模型中的额外变量没有线性解释能力的零假设下,统计量以为和的F分布。SSE(R)BdfdfR-dfBdfBF= (SSE(R )− SSE(B ))/(dF[R- dF乙)上证所(B) / dF乙,F=(SSE(R)−SSE(B))/(dfR−dfB)SSE(B)/dfB, F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B}, 上证所(R)SSE(R)\mbox{SSE}(R)乙BBdFdfdfdF[R- dF乙dfR−dfBdf_R - df_BdF乙dfBdf_B 但是,替代方案下的分布是什么?我假设它是一个非中心F(我希望不是双重非中心),但是我找不到关于非中心性参数确切含义的任何参考。我想这取决于真实的回归系数,并且可能取决于设计矩阵,但是除此之外,我不确定。Xββ\betaXXX




2
ggplot2中如何通过连续交互来连续绘制一个图?
假设我有数据: x1 <- rnorm(100,2,10) x2 <- rnorm(100,2,10) y <- x1+x2+x1*x2+rnorm(100,1,2) dat <- data.frame(y=y,x1=x1,x2=x2) res <- lm(y~x1*x2,data=dat) summary(res) 我想通过连续交互来绘制连续图,以使x1在X轴上,而x2用3条线表示,一条在Z分数为0时代表x2,在Z分数为+1时代表另一条,而在a Z分数为-1,每行分别有单独的颜色和标签。如何使用ggplot2执行此操作? 例如,它可能看起来像这样(尽管当然使用不同的彩色线条而不是不同的线条类型):

5
测量击中本垒打的均值回归
棒球之后的任何人都可能听说过多伦多何塞·包蒂斯塔(Jose Bautista)的MVP型表现。在之前的四年中,他每个赛季打出大约15次本垒打。去年他达到了54岁,在棒球历史上仅次于12位球员。 在2010年,他的薪水为240万,他要向车队索取2011年的1050万。他们出价760万。如果他能在2011年再次重申这一点,那么他将很容易获得这两个值。但是他重复的几率是多少?我们能期望他回归到平均水平有多难?我们可以预期他有多少表现是偶然的?我们可以预期他的2010年调整后的均值回归是什么?我该如何解决? 我一直在研究拉曼棒球数据库,并提出了一个查询,该查询返回前五个赛季中所有至少拥有50支蝙蝠的球员的本垒打总数。 表格看起来像这样(第10行中的Jose Jose Bautista注意) first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010 1 Bobby Abreu 15 16 20 15 20 2 Garret Anderson 17 16 15 13 2 3 Bronson Arroyo 2 1 1 0 1 4 Garrett Atkins 29 25 21 9 1 5 Brad Ausmus 2 …
11 r  regression  modeling 

4
由于Y和X的相关性,如何在解释方差中表示增益?
我正在寻找如何(直观地)向大一学生解释简单的线性相关性。 可视化的经典方法是给出带有直线回归线的Y〜X散点图。 最近,我想到了通过向图添加3张图像来扩展此类图形的想法,剩下的是:y〜1,然后是y〜x,resid(y〜x)〜x,最后是散点图残差(y〜x)〜1(以平均值为中心) 这是这种可视化的示例: 和产生它的R代码: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

3
比较计数数据上的回归模型
我最近将4个多元回归模型用于相同的预测因子/响应数据。我适合泊松回归的两个模型。 model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...) model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...) 我使用负二项式回归拟合的两个模型。 library(MASS) model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...) model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...) 我可以使用统计检验来比较这些模型吗?我一直在使用AIC来衡量合身程度,但AFAIK并不代表实际测试。

4
套索通过坐标下降进行拟合:开源实现?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 那里有什么开源实现-无论哪种语言-都可以通过坐标下降来计算套索正则化路径以进行线性回归? 到目前为止,我知道: 全球网 scikits.learn 还有其他东西吗?

4
Facebook的先知与线性回归有什么不同吗?
因此,我对Facebook先知的了解是,它基本上将时间序列分解为趋势和季节性。例如,加性模型应写为: ÿ(t )= g(t )+ s (t )+ h (t )+ eŤÿ(Ť)=G(Ť)+s(Ť)+H(Ť)+ËŤ y(t) = g(t) + s(t) + h(t) + e_t 与 ŤŤt时间 G(吨)G(Ť)g(t)趋势(可以是线性或逻辑) s (吨)s(Ť)s(t)季节性(每天,每周,每年...) ħ (吨)H(Ť)h(t)假期 ËŤËŤe_t错误 我的问题是:不能通过简单的线性回归来完成吗?如果我们比较一下结果,结果会有什么不同?为什么?

5
什么时候使用混合效果模型?
线性混合效应模型是线性回归模型的扩展,用于分组收集和汇总的数据。关键优势在于系数可以相对于一个或多个组变量而变化。 但是,我在何时使用混合效果模型方面感到困惑?我将通过在极端情况下使用玩具示例来阐述我的问题。 假设我们要为动物的身高和体重建模,并使用物种作为分组变量。 如果不同的群体/物种真的不同。说一只狗和大象。我认为没有必要使用混合效果模型,我们应该为每个小组建立一个模型。 如果不同的群体/物种真的很相似。说一只母狗和一只公狗。我认为我们可能希望将性别用作模型中的分类变量。 因此,我假设我们应该在中间情况下使用混合效果模型?可以说,该组是猫,狗,兔子,它们是大小相似的动物,但不同。 是否有任何正式的论据来建议何时使用混合效果模型,即如何在 为每个小组建立模型 混合效应模型 将组用作回归中的分类变量 我的尝试:方法1是最“复杂的模型” /更少的自由度,方法3是最“简单的模型” /更大的自由度。混合效果模型位于中间。我们可能会考虑根据Bais Variance Trade Off选择正确模型所需的数据量和复杂度。

3
确定性模型和随机模型有什么区别?
简单线性模型: ε 吨 Ñ (0 ,σ 2)x=αt+ϵtx=αt+ϵtx=\alpha t + \epsilon_t其中 〜IIDϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) 与和V 一- [R (X )= σ 2E(x)=αtE(x)=αtE(x) = \alpha tVar(x)=σ2Var(x)=σ2Var(x)=\sigma^2 AR(1): ε 吨 Ñ (0 ,σ 2)Xt=αXt−1+ϵtXt=αXt−1+ϵtX_t =\alpha X_{t-1} + \epsilon_t其中 〜IIDϵtϵt\epsilon_tN(0,σ2)N(0,σ2)N(0,\sigma^2) 与和V 一- [R (X )= 吨σ 2E(x)=αtE(x)=αtE(x) = \alpha tVar(x)=tσ2Var(x)=tσ2Var(x)=t\sigma^2 因此,简单的线性模型被视为确定性模型,而AR(1)模型被视为随机模型。 根据本·兰伯特(Ben Lambert)-确定性与随机性的Youtube视频,将AR(1)称为随机模型的原因是因为它的方差随时间增加。那么,非恒定方差的特征是否是确定随机或确定性的标准? 我也认为简单线性模型不是完全确定性的,因为我们有一个项与模型相关联。因此,我们总是在具有随机性。那么我们可以说模型是确定性的还是随机的呢? Xϵtϵt\epsilon_txxx

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
线性回归,条件期望和期望值
好的,所以在一些事情上有些朦胧,任何帮助将不胜感激。据我了解,线性回归模型是通过条件期望来预测的 E(Y|X)=b+Xb+eE(Y|X)=b+Xb+eE(Y|X)=b+Xb+e 我们是否假设和都是具有未知概率分布的随机变量?据我了解,只有残差和估计的β系数是随机变量。如果是这样,例如,如果肥胖,年龄,如果我们采用条件期望含义,那么如果个体在整个样本中为,则肥胖的期望值是多少?对于那些观测值,只需取y的平均值(算术平均值)即可。但是,期望值不是必须将其乘以发生的概率吗?但是从这个意义上讲,我们如何找到的概率Y Y = X = E (Y | X = 35 )35 X = 35 XXXXYYYY=Y=Y =X=X=X =E(Y|X=35)E(Y|X=35)E(Y|X=35)353535X=35X=35X=35XXX值变量是否代表年龄? 如果代表汇率之类的东西,会被归类为随机的吗?您究竟如何在不知道概率的情况下找到期望值?还是期望值等于极限中的平均值。XXX 如果我们不假设因变量本身就是随机变量,那么由于我们不推论概率,那么我们假设它们是什么?只是固定值之类的?但是如果是这种情况,我们如何以一个非随机变量为条件呢?关于自变量分布,我们假设什么? 很抱歉,如果没有任何意义或对任何人来说都是显而易见的。
11 regression 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.