Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
SAS和R中ANOVA中III型平方和的冲突结果
我从不平衡因子实验都与分析数据SAS和R。双方SAS并R提供平方类似的I型和广场,但他们的III型总和彼此不同。以下是SAS和R代码以及输出。 DATA ASD; INPUT Y T B; DATALINES; 20 1 1 25 1 2 26 1 2 22 1 3 25 1 3 25 1 3 26 2 1 27 2 1 22 2 2 31 2 3 ; PROC GLM DATA=ASD; CLASS T B; MODEL Y=T|B; RUN; SAS的I型SS Source …
15 r  anova  sas  sums-of-squares 

2
在R中对树进行分区:party与rpart
自从我看着分区树已经有一段时间了。上次我做这种事情时,我喜欢R中的聚会(由Hothorn创建)。通过采样进行条件推断的想法对我来说很有意义。但是,rpart也具有吸引力。 在当前的应用程序中(我无法提供详细信息,但是它涉及尝试确定谁将在大量被捕者中入狱),我无法使用高级方法,例如随机森林,装袋,助推等。-我需要一个容易解释的方法规则。 我还希望对拆分的节点进行一些手动控制,如Zhang&Singer(2010)递归分区和应用中所建议。该书随附的免费软件允许这样做,但在其用户输入中相当原始。 有什么建议或建议吗?
15 r  cart  rpart  partitioning 

3
在计算机实验室中教授R的好方法是什么?
已经有几个很好的问题,并在集合的入门书籍的答案或方法,以学习[R如这里和这里。但是我有一个稍微不同的问题-在计算机实验室中运行一个小时的会话(或几个这样的会话)的最佳方法,这将使人们开始使用R,熟悉其基本方法等。 我目前的计划是有效地学习Verzani的SimpleR之类的入门章节,然后介绍一个熟悉的数据集,但是人们发现其他有用的方法吗?例如,直接引入真实数据还是以更抽象的方式解决问题是否很好?我应该详尽地学习如何使用方括号,还是要激发人们使用点阵图形的实例? 我的目标受众熟悉统计数据(尽管不是专家)和合格的SPSS用户;除了您在SPSS和类似功能中获得的那种宏和脚本之外,对编程语言不熟悉。 任何提示或对课程计划的引用,将不胜感激。但是,我不想复制许多介绍R的在线材料的好清单-严格参考面对面的教学问题。
15 r  teaching 

1
如何使用ggplot绘制楼梯台阶功能?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我有这样的图: 用于生成它的R代码是: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") + scale_x_continuous(name= "Operations performed") 我想要这样的东西: …

1
如何设置和解释ANOVA与R中的汽车包装的对比?
假设我有一个想要进行ANOVA的简单2x2阶乘实验。像这样: d <- data.frame(a=factor(sample(c('a1','a2'), 100, rep=T)), b=factor(sample(c('b1','b2'), 100, rep=T))); d$y <- as.numeric(d$a)*rnorm(100, mean=.75, sd=1) + as.numeric(d$b)*rnorm(100, mean=1.2, sd=1) + as.numeric(d$a)*as.numeric(d$b)*rnorm(100, mean=.5, sd=1) + rnorm(100); 在没有重大交互作用的情况下,默认情况下(即contr.treatment)的输出Anova()是的a所有级别b和的b所有级别的总体重要性a,对吗? 我应该如何指定一个对比,让我来测试效果的意义a与b在B1水平保持恒定,效果a与b被关押在B2水平不变,并相互作用的a:b?
15 r  anova  contrasts 

2
R中内核密度估计中“ pdf”下的区域
我正在尝试在R中使用' density '函数进行内核密度估计。我有一些困难,解释结果和比较不同的数据集,因为它似乎在曲线下面积不一定1.对于任何概率密度函数(PDF) ,我们需要有区域∫ ∞ - ∞ φ (x )d x = 1。我假设内核密度估计报告pdf。我使用integrate.xy从sfsmisc估计曲线下面积。ϕ(x)ϕ(x)\phi(x)∫∞−∞ϕ(x)dx=1∫−∞∞ϕ(x)dx=1\int_{-\infty}^\infty \phi(x) dx = 1 > # generate some data > xx<-rnorm(10000) > # get density > xy <- density(xx) > # plot it > plot(xy) > # load the library > library(sfsmisc) > integrate.xy(xy$x,xy$y) [1] 1.000978 > …

2
如何从R中的特征值和特征向量绘制椭圆?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 有人可以拿出R代码从下面矩阵A = (2.2 0.4 0.4 2.8)的特征值和特征向量绘制椭圆 A =(2.20.40.42.8)一种=(2.20.40.42.8) \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

3
如何将一周的分钟数据汇总为小时数?
您将如何获得每日多个时段的每小时数据,并在同一图中显示12个“主机”的结果?也就是说,我想绘制一个24小时周期的样子,以获取一周的数据。最终目标是在采样之前和之后比较两组该数据。 dates Host CPUIOWait CPUUser CPUSys 1 2011-02-11 23:55:12 db 0 14 8 2 2011-02-11 23:55:10 app1 0 6 1 3 2011-02-11 23:55:09 app2 0 4 1 我已经能够很好地运行xyplot(CPUUser〜date | Host)。但是,我不想显示一周中的每个日期,而是希望将X轴作为一天中的小时数。 尝试将这些数据放入xts对象会导致错误,例如“ order.by需要适当的基于时间的对象” 这是数据帧的str(): 'data.frame': 19720 obs. of 5 variables: $ dates : POSIXct, format: "2011-02-11 23:55:12" "2011-02-11 23:55:10" ... $ …

3
很好的时间序列介绍(带R)
我目前正在收集有关与疼痛经历相关的社会心理特征的实验数据。为此,我将从参与者的电子方式收集GSR和BP测量值,以及各种自我报告和隐式测量值。我有心理背景,并且对因子分析,线性模型和实验分析很满意。 我的问题是,有什么好的(最好是免费的)资源可用于学习时间序列分析。对于这个领域,我是一个新手,因此,我们将不胜感激。我有一些试验数据可以练习,但是想在完成收集数据之前详细制定我的分析计划。 如果提供的参考文献也与R有关,那就太好了。 编辑:更改语法并添加“自我报告和隐含措施”

3
如何优化我的R脚本以使用“多核”
我在具有4个CPU的Ubuntu-Lucid PC上使用GNUR。为了使用所有4个CPU,我安装了“ r-cran-multicore”软件包。由于该软件包的手册缺乏我能理解的实际示例,因此我需要有关如何优化脚本以使用所有4个CPU的建议。 我的数据集是一个data.frame(称为P1),具有50,000行和1600 cols。对于每一行,我想计算最大值,总和和均值。我的脚本如下所示: p1max <- 0 p1mean <- 0 p1sum <-0 plength <- length(P1[,1]) for(i in 1:plength){ p1max <- c(p1max, max(P1[i,])) p1mean <- c(p1mean, mean(P1[i,])) p1sum <- c(p1sum, sum(P1[i,])) } 谁能告诉我如何修改和运行脚本以使用所有4个CPU?
15 r 

4
回归参数的置信区间:贝叶斯与经典
给定两个长度均为n的数组x和y,我拟合了模型y = a + b * x,并希望计算斜率的95%置信区间。这是(b-delta,b + delta),其中b是通常找到的, delta = qt(0.975,df=n-2)*se.slope se.slope是斜率的标准误差。从R获得斜率标准误差的一种方法是summary(lm(y~x))$coef[2,2]。 现在,假设我写出给定x和y的斜率的可能性,将其乘以“平坦”的先验,然后使用MCMC技术从后验分布中得出样本m。限定 lims = quantile(m,c(0.025,0.975)) 我的问题:(lims[[2]]-lims[[1]])/2大约等于上面定义的增量吗? 附录下面是一个简单的JAGS模型,这两个模型似乎有所不同。 model { for (i in 1:N) { y[i] ~ dnorm(mu[i], tau) mu[i] <- a + b * x[i] } a ~ dnorm(0, .00001) b ~ dnorm(0, .00001) tau <- pow(sigma, -2) …

3
R中的面向对象编程的教程
关闭。这个问题是题外话。它当前不接受答案。 4年前关闭。 已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 在R中是否有关于面向对象编程的优秀教程? 如果它包含以下内容,那就太好了: 如何定义一个类; S3和S4类之间的差异; 运算符重载(我希望能写a+b在那里a,并b在课堂上,我心目中的情况下)。
15 r 

2
随机数和多核软件包
在R中编程时,我已经使用了多核软件包几次。但是,我从未见过有关如何处理随机数的声明。当我将openMP与C一起使用时,我会谨慎使用适当的并行RNG,但对于R,我假设发生了一些明智的事情。任何人都可以确认发生了明智的事情吗? 例 根据文档,我们有 x <- foreach(icount(1000), .combine = "+") %do% rnorm(4) 是如何rnorm产生的?

4
比较具有相同自由度数的混合效果模型
我有一个实验,将在这里尝试进行抽象。想象一下,我在您面前扔了三块白色的石头,请您对它们的位置做出判断。我记录了宝石的各种特性以及您的反应。我在许多主题上都这样做。我生成两个模型。一个是离您最近的石头可以预测您的反应,另一个是石头的几何中心可以预测您的反应。因此,在RI中使用lmer可以编写。 mNear <- lmer(resp ~ nearest + (1|subject), REML = FALSE) mCenter <- lmer(resp ~ center + (1|subject), REML = FALSE) 更新和更改-更直接的版本,其中包含一些有用的注释 我可以尝试 anova(mNear, mCenter) 当然,这是不正确的,因为它们不是嵌套的,而且我不能真的那样比较它们。我期望anova.mer引发错误,但没有。但是我可以在这里尝试的嵌套并不是自然的,而且仍然使我缺乏分析性的陈述。当模型自然嵌套(例如线性二次)时,测试只是一种方法。但是在这种情况下,发现不对称意味着什么? 例如,我可以建立一个模型三: mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE) 然后,我可以进行方差分析。 anova(mCenter, mBoth) anova(mNearest, mBoth) 这样做很公平,现在我发现该中心增加了最近的效果(第二个命令),但当将最近的一个中心添加到中心时,BIC实际上上升了(简化了简约性)。这证实了所怀疑的。 但是找到足够了吗?当中心和最近位置高度相关时,这公平吗? 当不是要添加和减去解释变量(自由度)时,是否有更好的方法来分析比较模型?

5
一种以图形方式显示大量数据的好方法
我正在从事一个涉及14个变量和345,000个房屋数据观测值的项目(例如建造年份,平方英尺,已售价格,居住县等)。我担心要尝试找到好的图形技术和包含好的绘图技术的R库。 我已经看到ggplot和lattice中的内容会很好地工作,并且我正在考虑为一些数字变量绘制小提琴图。 人们会建议使用哪些其他软件包来以清晰,简洁,最重要的是简洁的方式显示大量的数字或因子类型的变量?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.