Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。


2
在svyglm和glm中使用权重
我想知道权重的处理之间的区别svyglm和glm 我正在twangR中使用软件包创建倾向得分,然后将其用作权重,如下所示(此代码来自twang文档): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error t …
18 r  survey 

1
线性回归系数的置信区间应基于正态分布还是
让我们有一些线性模型,例如简单的方差分析: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) 结果如下: Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q Max -2.30047 …

2
如何对lmer模型执行事后测试?
这是我的数据框: Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) 然后,我运行一个线性混合效果模型来比较“价值”上这3组的差异,其中“主题”是随机因素: library(lme4) library(lmerTest) model <- lmer (Value~Group + (1|Subject), data = data) summary(model) 结果是: Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 12.48771 0.42892 31.54000 29.114 <2e-16 *** GroupG2 -1.12666 0.46702 28.00000 -2.412 …
18 r  lme4-nlme  post-hoc 

1
为什么Cox比例风险模型中的p值通常比逻辑回归中的p值高?
我一直在学习Cox比例风险模型。我有很多适合逻辑回归模型的经验,因此,为了建立直觉,我一直在比较coxphR“ survival”中使用的模型glm与配合使用的逻辑回归模型family="binomial"。 如果我运行代码: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 我分别获得了0.0419和0.0254年龄的p值。同样,如果我使用性别作为预测因子,则可以选择是否带有年龄。 我感到困惑,是因为我认为,拟合模型时考虑到流逝的时间比将死亡视为二进制结果会带来更多的统计能力,而p值似乎与统计能力较小的人一致。这里发生了什么?

3
R中的glm函数使用哪种优化算法?
可以使用以下代码在R中执行logit回归: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 看来优化算法已经收敛-存在有关费舍尔评分算法的步数的信息: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

1
如何计算黄土的预测间隔?
我有一些数据是使用R中的LOESS模型拟合的,给了我这个: 数据具有一个预测变量和一个响应,并且是异方差的。 我还添加了置信区间。问题在于间隔是该行的置信区间,而我对预测间隔感兴趣。例如,底部面板比顶部面板更具可变性,但是不会在间隔中捕获。 这个问题有点相关: 从多项式回归中了解置信带,尤其是@AndyW的答案,但是在他的示例中,他使用了interval="predict"中存在的相对简单的论点predict.lm,但从中没有predict.loess。 所以我有两个非常相关的问题: 如何获得LOESS的逐点预测间隔? 我如何预测将捕获该间隔的值,即生成一堆最终看起来看起来像原始数据的随机数? 我可能不需要黄土,应该使用其他东西,但是我不熟悉我的选择。基本上,它应该使用局部回归或多元线性回归来拟合线,从而为线提供误差估计,此外,还为不同的解释变量提供了不同的方差,因此我可以在某些x值处预测响应变量(y)的分布。

3
使用Hosmer等人的模型建立和选择。2013。R中的应用逻辑回归
这是我在StackExchange上的第一篇文章,但是我已经将它用作一种资源已经有一段时间了,我将尽我所能来使用适当的格式并进行适当的编辑。另外,这是一个多部分的问题。我不确定是否应该将问题分为几个不同的帖子,或者只是一个。由于所有问题均来自同一文本的一个部分,因此我认为将其发布为一个问题更为相关。 我正在研究大型哺乳动物物种的栖息地用途,以作为硕士论文。该项目的目的是为森林管理者(最有可能不是统计学家)提供一个实用的框架,以评估他们管理的与该物种有关的土地上的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种的分布,尤其是在季节方面,进行的研究相对较少。数只动物装有GPS项圈,为期一年。从每只动物的GPS项圈数据中随机选择一百个位置(夏季50个,冬季50个)。此外,在每只动物的家园范围内随机产生50个点,以作为“可用”或“伪缺”位置。 对于每个位置,都在田间采样了几个栖息地变量(树木直径,水平覆盖物,粗糙的木屑等),并通过GIS远程采样了一些变量(海拔,道路距离,崎ness性等)。该变量除具有7个级别的1个类别变量外,大部分都是连续的。 我的目标是使用回归建模来构建资源选择函数(RSF),以对资源单元使用的相对概率进行建模。我想为动物种群(设计类型I)以及每只动物种群(设计类型III)建立一个季节性(冬季和夏季)RSF。 我正在使用R进行统计分析。 我一直在使用的主要文字是… “ Hosmer,DW,Lemeshow,S.和Sturdivant,RX2013。应用逻辑回归。Wiley,Chicester”。 Hosmer等人的大多数示例。使用STATA,我也一直在使用以下2个文本作为R的参考。 “ Crawley,MJ,2005年。统计数据:使用RJ Wiley的介绍,Chichester,西萨塞克斯郡,英格兰。” “植物,RE2012。使用R. CRC出版社,GBR,伦敦的生态和农业空间数据分析。” 我目前正在按照Hosmer等人的第4章中的步骤进行操作。进行“有目的的协变量选择”,并对该过程有一些疑问。我在下面的文字中概述了前几个步骤,以帮助回答我的问题。 步骤1:对每个自变量进行单变量分析(我使用了单变量logistic回归)。单变量检验的p值小于0.25的任何变量都应包含在第一个多变量模型中。 步骤2:拟合包含所有在步骤1中确定要包含的协变量的多变量模型,并使用其Wald统计量的p值评估每个协变量的重要性。在传统意义上不起作用的变量应予以消除,并采用新模型。应使用偏似然比检验将新的较小模型与旧的较大模型进行比较。 步骤3:将较小模型中的估计系数值与大型模型中的相应值进行比较。任何系数的幅度发生显着变化的变量都应重新添加到模型中,因为从提供需要调整模型中剩余变量影响的意义上来说,这一点很重要。循环执行步骤2和3,直到似乎所有重要变量都包含在模型中,而排除的变量在临床和/或统计学上并不重要。Hosmer等。使用“ delta-beta-hat-percent ”来衡量系数幅度的变化。他们提出了显着的变化,即> 20%的delta-beta-hat-percent。Hosmer等。将delta-beta-hat-percent定义为 。其中θ1是从较小的模型系数和β1是从较大的模型系数。Δβ^%=100θ^1−β^1β^1Δβ^%=100θ^1−β^1β^1\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}θ^1θ^1\hat{\theta}_{1}β^1β^1\hat{\beta}_{1} 步骤4:将步骤1中未选择的每个变量一次添加到步骤3结束时获得的模型中,并通过Wald统计p值或偏似然比检验检验其重要性,如果它是分类的具有两个以上级别的变量。这一步对于识别与结果没有显着关系但在存在其他变量的情况下起重要作用的变量至关重要。我们将第4步末的模型称为主要主效应模型。 步骤5-7:我现在还没有进展,所以我暂时不做这些步骤,或者将它们保存下来以解决其他问题。 我的问题: 在第2步中,什么是传统的显着性水平,p值<0.05或更大,例如<.25? 再次在第2步中,我要确保用于部分似然测试的R代码正确无误,并且要确保我正确解释了结果。这是我一直在做的...anova(smallmodel,largemodel,test='Chisq')如果p值显着(<0.05),则将变量添加回模型,如果不重要,则继续删除吗? Δβ^%Δβ^%\Delta\hat{\beta}\%Δβ^%Δβ^%\Delta\hat{\beta}\% Δβ^%Δβ^%\Delta\hat{\beta}\% is correct. I have been using the following code. If there is a package that will do this for me or …

3
如何用极端离群值呈现箱形图?
我可以使用有关呈现某些数据的指导。 第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。 我之所以手动设置,是因为案例组具有极端的异常值。 我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。


2
序数逻辑回归的解释
我在R中运行此序数逻辑回归: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

1
R中的函数“效果”有什么作用?
我不理解effects()R的帮助文件中的解释: 对于用lm或拟合的线性模型aov,其影响是通过在拟合过程中将数据投影到QR分解生成的连续正交子空间上而获得的不相关的单自由度值。 谁能解释这是什么意思? 一维子空间所涉及的正交子空间是否被QR分解的Q部分的列所覆盖(因此彼此正交)?还是应该与其他东西正交?
17 r  regression 

2
回归中的定性变量编码导致“奇异”
我有一个称为“质量”的自变量;此变量具有3种响应方式(质量差;质量中等;质量高)。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量(虚拟变量,我可以编写代码0/ 1)时,很容易将其引入多元线性回归模型。 但是,通过3种响应方式,我尝试像下面这样编写此变量: Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题:模态Medium quality给我NA: Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码?我是否必须创建一个变量作为因子(factorin R),但是可以在多元线性回归中引入该因子吗?

2
如何拟合离散分布以计算数据?
我有以下计数数据的直方图。我想为其分配一个离散的分布。我不确定该如何处理。 我是否应该首先在直方图上叠加离散分布(例如负二项分布),以便获得离散分布的参数,然后运行Kolmogorov–Smirnov检验以检查p值? 我不确定此方法是否正确。 是否有解决此类问题的通用方法? 这是计数数据的频率表。在我的问题中,我只关注非零计数。 Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 更新:我想问:我在R中使用fitdistr函数来获取用于拟合数据的参数。 fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) 然后,在直方图的顶部绘制泊松分布的概率质量函数。 但是,似乎泊松分布无法对计数数据建模。有什么我可以做的吗?

4
如何在R中执行ANCOVA
我想对有关植物附生植物密度的数据进行ANCOVA分析。首先,我想知道两个坡度(一个N和一个S)之间的植物密度是否存在任何差异,但是我还有其他数据,例如海拔,冠层开放度和寄主植物的高度。我知道我的协变量必须是两个斜率(N和S)。我建立了在R中运行的模型,尽管我不知道它是否运行良好。我也想知道如果使用符号+或会有什么区别*。 model1 <- aov(density~slope+altitude+canopy+height) summary(model1) model1
17 r  ancova 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.