Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。


6
如何避免R图中的标签重叠?[关闭]
我正在尝试在R中标记一个非常简单的散点图。这是我使用的方法: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) 如您所见,结果是中等的(单击放大): 我尝试使用textxy函数来弥补这一点,但这并不是更好。对于密集的群集,使图像本身变大不起作用。 有什么功能或简便的方法可以弥补这一点,让R绘制不重叠的标签吗? 这是我拥有的一小部分数据: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

4
如何统计比较两个时间序列?
我有两个时间序列,如下图所示: 该图显示了两个时间序列的全部细节,但是如果需要,我可以轻松地将其简化为巧合的观测值。 我的问题是:我可以使用哪些统计方法来评估时间序列之间的差异? 我知道这是一个相当广泛且模糊的问题,但我似乎在任何地方都找不到很多介绍性材料。正如我所看到的,需要评估两个不同的方面: 1.值是否相同? 2.趋势是否相同? 您会建议使用哪种统计测试来评估这些问题?对于问题1,我显然可以评估不同数据集的均值并寻找分布的显着差异,但是有没有一种方法可以考虑到数据的时间序列性质呢? 对于问题2-是否有类似Mann-Kendall检验的东西来寻找两个趋势之间的相似性?我可以对两个数据集进行Mann-Kendall检验并进行比较,但是我不知道这是否是一种有效的处理方法,或者是否有更好的方法? 我正在R中进行所有这些操作,因此,如果您建议测试使用R包,请告诉我。
43 r  time-series 

2
在lm中以不同的方式编写交互作用术语?
我有一个问题,即在回归模型中指定交互的最佳方法是什么。考虑以下数据: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

2
使用lmer进行重复测量的线性混合效应模型
编辑2:我本来以为我需要对一个因素进行重复测量的两因素方差分析,但现在我认为线性混合效应模型将对我的数据更好。我想我几乎知道需要做什么,但仍然有些困惑。 我需要分析的实验如下: 将受试者分配到几个治疗组之一 在多天的时间对每个受试者进行测量 所以: 受试者嵌套在治疗中 治疗越过一天 (每个受试者仅被分配一种治疗,并且每天对每个受试者进行测量) 我的数据集包含以下信息: 主题=阻止因素(随机因素) 天=主题或重复测量因子之内(固定因子) 治疗=主观因素之间(固定因素) Obs =测得(因变量) 更新 好,所以我去找统计学家,但他是SAS用户。他认为该模型应为: 治疗+天+受试者(治疗)+天*受试者(治疗) 显然,他的表示法与R语法不同,但是该模型应考虑以下因素: 治疗(固定) 日(固定) 治疗*天互动 受试者嵌套在治疗内(随机) 当天与“治疗中的受试者”交叉(随机) 那么,这是使用正确的语法吗? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 我特别担心当天与“治疗中的受试者”部分是否正确。是否有任何熟悉SAS的人,或者对他们了解模型中正在发生的事情有信心的人,能够评论我对R语法的可悲尝试是否匹配? 这是我以前建立模型和编写语法的尝试(在答案和评论中讨论): m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) 我该如何处理对象嵌套在治疗中的事实?如何m1从不同: m2 <- lmer(Obs …

4
OpenBugs与JAGS
我将尝试使用BUGS风格的环境来估计贝叶斯模型。在OpenBugs或JAGS之间进行选择时,有什么重要的优点要考虑?在可预见的将来,有可能取代另一个吗? 我将在R中使用所选的Gibbs Sampler。我还没有特定的应用程序,但是我正在决定安装和学习哪个。
41 r  software  bugs  jags  gibbs 

1
回归:转换变量
转换变量时,是否必须使用所有相同的转换?例如,是否可以选择不同的转换变量,例如: 令为年龄,就业时间,居住时间和收入。x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) 或者,您是否必须与转换保持一致并使用所有相同的转换?如: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 我的理解是,转型的目标是解决正常性问题。查看每个变量的直方图,我们可以看到它们呈现出非常不同的分布,这使我相信所需的转换在每个变量的基础上是不同的。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

5
R中的警告-卡方近似值可能不正确
我有显示消防员入学考试结果的数据。我正在检验考试结果和种族不是相互独立的假设。为了对此进行测试,我在R中运行了Pearson卡方检验。结果显示了预期的结果,但警告“” In chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) …

3
如何使用glmnet呈现套索的结果?
我想从30个独立变量中找到连续因变量的预测变量。我正在使用在R 中的glmnet包中实现的Lasso回归。这是一些伪代码: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …


1
如何使用自举法或蒙特卡洛方法确定重要的主要成分?
我对确定从主成分分析(PCA)或经验正交函数(EOF)分析得出的有效模式的数量感兴趣。我对将这种方法应用于气候数据特别感兴趣。数据字段是一个MxN矩阵,其中M是时间维度(例如天),N是空间维度(例如lon / lat位置)。我已经读过一种可能的引导方法来确定重要的PC,但是无法找到更详细的描述。到目前为止,我一直在使用North的经验法则(North 等人,1982)来确定该临界值,但是我想知道是否有更健壮的方法可用。 举个例子: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal …
40 r  pca  bootstrap  monte-carlo 


2
随机森林中可变重要性的度量
我一直在尝试使用随机森林进行回归,并且很难准确地确定出重要性的两个指标的含义以及如何解释它们。 该importance()函数为每个变量提供两个值:%IncMSE和IncNodePurity。这两个值是否有简单的解释? 对于IncNodePurity特别是,这仅仅是一个量的去除变量继RSS增加?

3
如何解释方差分析中的F值和p值?
我是统计学新手,目前正在与ANOVA合作。我在R中使用A进行ANOVA测试 aov(dependendVar ~ IndependendVar) 除其他外,我得到一个F值和一个p值。 我的原假设()是所有组均值相等。H0H0H_0 关于如何计算F有很多可用信息,但是我不知道如何读取F统计信息以及F和p是如何连接的。 因此,我的问题是: 如何确定拒绝的临界F值?H0H0H_0 每个F是否都有对应的p值,所以它们的含义基本相同吗?(例如,如果,则拒绝)高0p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

4
R的Logistic回归(几率)
我正尝试在中进行逻辑回归分析R。我已经使用STATA参加了涵盖此材料的课程。我发现很难复制中的功能R。这个地区成熟吗?似乎几乎没有可用的文档或指南。生产比值比输出似乎需要安装epicalc和/或epitools和/或其他工具,我无法上班,都已过时或缺少文档。我曾经glm做过逻辑回归。欢迎大家提出意见。 我最好把这个问题变成一个真实的问题。如何进行逻辑回归并产生比值比R? 这是我为单变量分析所做的工作: x = glm(Outcome ~ Age, family=binomial(link="logit")) 对于多变量: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) 然后,我已经看了x,y,summary(x)和summary(y)。 是x$coefficients任何价值?
40 r  logistic  odds-ratio 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.