Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
逻辑回归和序数自变量
我发现了这篇文章: 是。该系数反映了顺序预测变量中每个变化增量的对数几率变化。这个(非常常见的)模型规范假设预测变量在其增量上具有线性影响。为了检验假设,您可以将使用序数变量作为单个预测变量的模型与将响应离散化并将其视为多个预测变量的模型进行比较(就像变量是名义变量一样)。如果后一种模型的拟合效果不佳,则将每个增量视为具有线性效应是合理的。 – @ dmk38 2010年12月12日,5:21 您能否告诉我在哪里可以找到支持该主张的出版物?我正在处理数据,我想在逻辑回归中使用序数自变量。

3
如何从Bootstrap回归中获得系数的p值?
从罗伯特·卡巴科夫(Robert Kabacoff)的Quick-R中,我有 # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) # view …

1
我应该选择哪种自举回归模型?
我有一个具有DV(疾病:是/否)和5个预测变量(人口统计学[年龄,性别,吸烟(是/否)),医学指标(常规)和一种随机治疗方法(是/否)的二元logistic回归模型])。我还为所有双向交互条件建模。主要变量居中,没有多重共线性的迹象(所有VIF <2.5)。 我有一些疑问: 引导程序是否比我的单一模型有利?如果是这样的话, 我应该选择哪种引导模式?我只是想看看引导算法是否遵循随机方法来创建新样本,或者它们是否具有严格的算法。因此,我每次尝试都重新采样了1000次(所以我有几个自举模型,每个模型都有1000次试验)。但是,每次引导模型的系数都不同(尽管试验次数始终为1000)。所以我想知道应该为我的报告选择哪一个?有些变化很小,并且不会影响我的系数的显着性,但是有些变化会使我的某些系数不显着(例如,只有那些在原始模型中P值接近0.05且变为0.06的系数)。 我应该选择更高的数字,例如10,000吗?如何确定此限制? 我还是应该首先重新引导吗?如果每次的结果都不同,我可以依靠它的结果吗? 您还有其他想法可以帮助我解决我的问题吗? 非常感谢。

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
可能范围
假设三个时间序列,和X1X1X_1X2X2X_2YYY 上运行的普通线性回归〜(),我们得到。普通的线性回归〜得到。假设YYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V 什么是最小和最大的可能值上回归〜()?R2R2R^2YYYX1+X2X1+X2X_1 + X_2Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon 我相信最小应该是 +一个小值,因为添加新变量总是会增加,但是我不知道如何量化这个小值,也不知道如何获得最大范围。R2R2R^2VVVR2R2R^2

1
在同一个数据集上运行两个线性模型是否可以接受?
对于具有多个组(先验定义的自然组)的线性回归,是否可以在同一数据集上运行两个不同的模型来回答以下两个问题? 每个组是否具有非零的斜率和非零的截距,并且组回归中每个参数的参数是什么? 无论组成员身份如何,是否存在非零趋势和非零截距,并且跨组回归的参数有哪些? 在R中,第一个模型为lm(y ~ group + x:group - 1),因此估计的系数可以直接解释为每个组的截距和斜率lm(y ~ x + 1)。 备选方案将是lm(y ~ x + group + x:group + 1),这将导致复杂的系数汇总表,并且必须根据组中的斜率和截距来计算系数和截距,而斜率和截距必须来自某个参考。另外,您还必须重新排序组并再次运行模型,以获取最后一个组差异的p值(有时)。 这是否使用两个单独的模型以任何方式或这种标准惯例对推理产生了负面影响? 为了说明这一点,将x表示为药物剂量,将各组视为不同的种族。了解特定种族的医生的剂量反应关系可能很有趣,或者根本不知道药物对哪个种族起作用,但是有时了解整个(人类)人群的剂量反应关系也可能很有趣。不管竞选公共卫生官员。这只是一个例子,说明人们可能对组内和组间回归分别感兴趣。剂量反应关系是否应为线性并不重要。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
vcovHC,vcovHAC,NeweyWest –使用哪个功能?
我正在尝试更新基于lm()的模型,以获取正确的标准错误和测试。我真的很困惑要使用哪个VC矩阵。该sandwich软件包提供vcovHC,vcovHAC和NeweyWest。前者仅说明异方差性,而后两者仅说明序列相关性和异方差性。但是,文档并没有太多介绍后两者之间的区别(至少我不明白)。通过查看函数本身,我意识到NeweyWest实际上调用了vcovHAC。 根据经验,coeftest(mymodel, vcov. = vcovHAC)和的结果是coeftest(mymodel, vcov. = NeweyWest)完全不同的。虽然vcovHAC与天真的lm结果有些接近,但使用NeweyWest时,所有系数都变得微不足道了(测试甚至接近1)。

3
R中具有因子的线性回归
我试图了解因素在R中的确切作用。假设我想使用R中的一些样本数据进行回归: &gt; data(CO2) &gt; colnames(CO2) [1] "Plant" "Type" "Treatment" "conc" "uptake" &gt; levels(CO2$Type) [1] "Quebec" "Mississippi" &gt; levels(CO2$Treatment) [1] "nonchilled" "chilled" &gt; lm(uptake ~ Type + Treatment, data = CO2) Call: lm(formula = uptake ~ Type + Treatment, data = CO2) Coefficients: (Intercept) TypeMississippi Treatmentchilled 36.97 -12.66 -6.86 我了解这一点,TypeMississippi并将Treatmentchilled其视为布尔值:对于每一行,初始摄取为36.97,12.66如果它是密西西比州的类型并且6.86是冷藏的,我们就减去它。我在理解以下内容时遇到了麻烦: &gt; …

1
我们可以通过比较回归斜率来比较组之间的相关性吗?
在这个问题中,他们询问如何比较两个独立群体(例如男性与女性)的Pearson r。回复和评论建议两种方式: 使用费舍尔的著名公式,即r的“ z变换”; 使用斜率比较(回归系数)。 只需通过饱和线性模型即可轻松完成后者: ,其中和是相关变量,而是表示两组的虚拟变量(0对1)。的大小(交互作用项系数)恰好是分别在两组中进行模型之后的系数的差,因此,其( s)的意义就是对两组之间斜率差的检验。Y=a+bX+cG+dXGY=a+bX+cG+dXGY = a + bX + cG + dXGXXXYYYGGGdddbbbY=a+bXY=a+bXY = a + bXddd 现在,倾斜或回归系数。还不是相关系数。但是,如果我们规范和 - 分别在两个组-然后会等于差在第1组减去R R组0中,因此其意义将要测试的这两个相关的区别是:我们要测试的斜坡,但似乎[好像-?]我们正在测试相关性。XXXYYYddd 我写的正确吗? 如果是,那么剩下的问题是更好的相关性检验-是描述的还是费舍尔的?因为它们将产生不同的结果。你怎么看? 后来的编辑:感谢@Wolfgang的答复,我仍然感到怀念,我不明白为什么 Fisher的测试比上述的标准化不佳的坡度比较方法对r的测试更正确。因此,欢迎提供更多答案。谢谢。

2
在预测冰球运动员的职业生涯总目标时是否在Poisson回归中使用偏移
我有一个关于不愿使用补偿的问题。假设一个非常简单的模型,您要在其中描述曲棍球的(全部)目标数。因此,您有目标,打的游戏次数和虚拟变量“ strike”(如果玩家是前锋,则等于1,否则等于0)。那么正确指定了以下哪个模型? 目标=游戏+前锋,或 目标=偏移量(游戏)+前锋 同样,目标是整体目标,游戏数量是单个玩家的整体游戏。例如,可能有一个玩家在100场比赛中有50个进球,而另一个在50场比赛中有20个进球的玩家,依此类推。 我想估算目标数时应该怎么做?是否真的需要在此处使用偏移量? 参考文献: 参见前面的问题,讨论一般在Poisson回归中何时使用偏移量。

2
观察到左偏斜与对称分布
这对我来说很难描述,但我会尽力使我的问题易于理解。因此,首先您必须知道,到目前为止,我已经完成了非常简单的线性回归。在估算系数之前,我先观察了的分布。左偏斜很重。在估算了模型之后,我非常确定会在QQ图中观察到左偏残差,但我绝对没有。此解决方案可能是什么原因?错误在哪里?还是分布与误差项的分布无关?ÿÿyÿÿy

1
回归均值差的置信区间
假设我有一个二次回归模型 ,且误差满足通常的假设(独立,正常,独立于值)。令为最小二乘估计。Y=β0+β1X+β2X2+ϵY=β0+β1X+β2X2+ϵ Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon ϵϵ\epsilonXXXb0,b1,b2b0,b1,b2b_0, b_1, b_2 我有两个新的值和,我有兴趣获得的置信区间。XXXx1x1x_1x2x2x_2v=E(Y|X=x2)−E(Y|X=x1)=β1(x2−x1)+β2(x22−x21)v=E(Y|X=x2)−E(Y|X=x1)=β1(x2−x1)+β2(x22−x12)v = E(Y|X = x_2) - E(Y|X=x_1) = \beta_1 (x_2 - x_1) + \beta_2 (x_2^2 - x_1^2) 点估计为,并且(如果我错了,请纠正我)我可以通过估计方差使用软件提供的系数的方差和协方差估计。v^=b1(x2−x1)+b2(x22−x21)v^=b1(x2−x1)+b2(x22−x12)\hat{v} = b_1 (x_2 - x_1) + b_2 (x_2^2 - x_1^2)s^2=(x2−x1)2Var(b1)+(x22−x21)2Var(b2)+2(x2−x1)(x2−x21)Cov(b1,b2)s^2=(x2−x1)2Var(b1)+(x22−x12)2Var(b2)+2(x2−x1)(x2−x12)Cov(b1,b2)\hat{s}^2 = (x_2 - x_1)^2 \text{Var}(b_1) + …

2
如何总结和比较非线性关系?
我有大约25个湖泊的湖泊沉积物中有机物百分比从0厘米(即沉积物-水界面)下降到9厘米的数据。在每个湖泊中,从每个位置取了2个岩心,所以我对每个湖泊的每个沉积深度进行了2次有机质百分比的重复测量。 我有兴趣比较湖泊在有机质百分比与沉积物深度(即坡度)之间的关系上有何不同。在某些湖泊中,有机质百分比与沉积物深度之间的关系呈线性关系,但在其他情况下,该关系更为复杂(请参见以下示例)。 我最初的想法是将线性关系适当地适合于整个曲线或曲线的子集(如果“主要”是线性的),并且仅比较那些发现显着线性关系的湖泊。但是,我对这种方法不满意,因为它要求消除数据的唯一原因是它们不符合线性模型,并且它忽略了有关有机物百分比与沉积物深度之间关系的潜在有趣信息。 总结和比较不同湖泊的曲线的最佳方法是什么? 谢谢 曲线示例:在所有情况下,y轴是沉积物中有机物的百分比,x轴是沉积物的深度,其中0 =沉积物-水的界面。 一个很好的线性示例: 2个非线性示例: 一个没有明显关系的示例:

6
通过分段线性函数查找数据中的变化点
问候, 我正在进行研究,这将有助于确定观察到的空间的大小以及自从发生大爆炸以来经过的时间。希望您能提供帮助! 我有符合分段线性函数的数据,我要在该函数上执行两个线性回归。斜率和截距在某个点发生变化,我需要(编写一个程序)找到该点。 有什么想法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.