Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
Logistic回归功效分析的仿真-设计的实验
这个问题是对@Greg Snow给出的答案的回应,该答案是我提出的有关使用Logistic回归和SAS进行功率分析的问题Proc GLMPOWER。 如果我正在设计一个实验并将对结果进行析因逻辑回归分析,该如何使用模拟(和此处)进行功效分析? 这是一个简单的示例,其中有两个变量,第一个具有三个可能的值{0.03,0.06,0.09},第二个是虚拟指示器{0,1}。对于每种组合,我们估计每种组合的响应率(响应者数量/投放市场的人数)。此外,我们希望因子的第一个组合的数量是其他因子的3倍(可以认为是相等的),因为该第一个组合是我们尝试过的真实版本。这种设置类似于链接问题中提到的SAS课程中给出的设置。 用于分析结果的模型将是具有主要影响和相互作用(响应为0或1)的逻辑回归。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) 如何模拟用于此模型的数据集进行功率分析? 当我通过SAS运行时Proc GLMPOWER(使用STDDEV =0.05486016 对应于sqrt(p(1-p))其中p是显示的响应率的加权平均值): data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

4
R中“。”(点)的含义是什么?
我只是在读《坚果中的R》这本书。好像我跳过了“。”部分。如“ sample.formula”中所述。 > sample.formula <- as.formula(y~x1+x2) 是否像其他语言一样使用字段公式对对象进行采样?如果是这样,我如何找出该对象还有哪些其他字段/功能?(类型声明) 编辑:我刚刚发现另一个令人困惑的使用“。”: > svm(formula = is_spam~., data = spambase.training) (〜。之间的点)
39 r 

2
Logistic回归模型不收敛
我有一些关于航空公司航班的数据(在名为的数据框中flights),我想看看飞行时间是否对到达时间明显延迟(意味着10分钟或更长时间)有任何影响。我以为我会使用逻辑回归,将飞行时间作为预测指标,并将每次飞行是否都显着延迟(一堆伯努利)作为响应。我用下面的代码... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...但是得到以下输出。 > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
39 r  logistic  separation 

3
R对象的模式,类和类型
我想知道R对象的Mode,Class和Type之间有什么区别?R对象的类型可以通过typeof()函数获得,模式可以通过mode()获得,类可以通过class()获得。 还有其他我错过的类似功能和概念吗? 谢谢并恭祝安康!
39 r 

8
R中的图形数据概述(摘要)功能
我敢肯定我以前在R包中遇到过这样的函数,但是经过广泛的谷歌搜索之后,我似乎找不到任何地方。我正在考虑的功能为给它的变量生成了图形摘要,并生成了带有一些图形(直方图,也许还有盒子和晶须图)的输出,还有一些文本给出了平均值,SD等详细信息。 我很确定此函数未包含在基本R中,但是我似乎找不到我使用的软件包。 有谁知道这样的功能,如果知道,它在哪个包中?

3
Clojure与R:数据分析的优缺点
我有一个在不久的将来学习R的计划。阅读另一个我发现有关Clojure的问题。现在我不知道该怎么办。 我认为R对我而言的一大优势是,经济学领域的某些人使用了R,包括我的一位主管(尽管另一位主管说:远离R!)。一个Clojure的优势在于它是基于Lisp的,和我已经开始学习Emacs和我热衷于写我自己的定制,这将是有益的(是的,我知道的Clojure和elisp的是Lisp语言的不同方言,但他们Lisp和类似的东西我都会想到)。 我不能问哪个更好,因为我知道这是非常个人的事,但是有人可以给我Cloclore x R的优点(或优点),特别是在实践上吗?例如,哪个应该更容易学习,哪个更灵活或更强大,哪个具有更多的库,更多的支持,更多的用户等等? 我的预期用途:我的估算工作大部分应使用Matlab进行,因此我在统计分析方面并没有寻找太深的东西,而希望使用Excel代替初始数据处理和可视化,汇总统计信息和图表,还要进行一些基本的统计分析或初步估算。
39 r 

4
在R中复制Stata的“健壮”选项
我一直在尝试robust在R中复制Stata选项的结果。我使用了rlm来自MASS包的命令lmrob以及来自“ robustbase”包的命令。在这两种情况下,结果都与Stata中的“ robust”选项完全不同。在这种情况下,有人可以提出建议吗? 这是我在Stata中运行稳健选项时获得的结果: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. …

1
R中的排名-降序[关闭]
我希望对某些情况下的数据进行排名,在某些情况下,较大的值具有1的排名。我对R还是比较陌生,但是我看不到如何在等级函数中调整此设置。 x <- c(23,45,12,67,34,89) rank(x) 产生: [1] 2 4 1 5 3 6 当我希望它是: [1] 5 3 6 2 4 1 我认为这是非常基本的,但是您可以提供的任何帮助将不胜感激。
39 r 


7
是否有不错的浏览器/查看器来查看R数据集(.rda文件)
我想浏览一个.rda文件(R数据集)。我知道该View(datasetname)命令。Mac附带的默认R.app没有很好的数据浏览器(它将在X11中打开一个窗口)。我喜欢用View命令打开的RStudio数据浏览器。但是,它仅显示1000行,而忽略其余的行。(更新:RStudio查看器现在显示所有行)是否有一个不错的浏览器来显示数据集中的所有行以及您喜欢/使用的行。
38 r 

5
R中的时间序列“聚类”
我有一组时间序列数据。尽管每个时间序列中的实际日期可能并不都完全“排队”,但每个序列都涵盖相同的时期。 这就是说,如果将时间序列读入2D矩阵,它将看起来像这样: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 我想编写一个R脚本,将时间序列{T1,T2,... TN}分离为“家庭”,其中一个家庭被定义为一系列“趋于彼此同情”的系列。 对于“聚类”部分,我将需要选择/定义一种距离度量。我不确定如何处理此问题,因为我正在处理时间序列,并且一对可能在一个间隔内同情移动的序列可能不会在随后的间隔内这样做。 我敢肯定,这里有比我更多的有经验/聪明的人,因此,对于任何建议,关于用于距离度量的算法/启发式方法以及如何在时间序列聚类中使用该算法/方法的想法,我将不胜感激。 我的猜测是,尚无成熟的统计方法来执行此操作,因此,我将非常有兴趣了解人们如何处理/解决此问题-像统计学家一样思考。

9
如何有效地建模伯努利随机变量的总和?
我正在建模一个随机变量(),它是大约15-40k个独立的伯努利随机变量()的总和,每个随机变量具有不同的成功概率()。形式上,其中和\ Pr(X_i = 0)= 1-p_i。YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i 我对快速回答诸如Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(其中kkk给出)的查询感兴趣。 目前,我使用随机模拟来回答此类查询。我根据每个XiXiX_i的p_i随机绘制它们pipip_i,然后将所有XiXiX_i值求和以获得Y′Y′Y'。我重复此过程数千次,然后返回分数Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)。 显然,这并不是完全准确的(尽管随着仿真次数的增加,准确度也会大大提高)。另外,似乎我有足够的有关分布的数据来避免使用模拟。您能想到一种获取确切概率\ Pr(Y \ leq k)的合理方法Pr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)吗? ps 我使用Perl&R。 编辑 在回答之后,我认为可能需要进行一些澄清。我将简短地描述问题的所在。给定的是一个带有周长的圆形基因组,c以及n映射到它的一组范围。例如c=3*10^9和ranges={[100,200],[50,1000],[3*10^9-1,1000],...}。请注意,所有范围都是封闭的(两端都包括在内)。另请注意,我们仅处理整数(整个单位)。 我正在寻找圆上被给定n映射范围掩盖的区域。因此,为了测试x圆上给定的长度范围是否被掩盖,我测试了n范围随机映射的假设。映射的长度范围q&gt;x将完全覆盖给定长度范围的概率x为(q-x)/c。当c大和/或小时,该概率变得非常q小。我感兴趣的是n覆盖的范围数(超出范围)x。这是如何Y形成的。 我测试了原假设与单方面的选择(不足覆盖率)的对比。另请注意,我正在测试多个假设(不同的x长度),请确保对此进行更正。

1
手动计算的
我知道这是一个相当具体的R问题,但我可能正在考虑错误解释的比例方差。开始。[R2R2R^2 我正在尝试使用该R包装randomForest。我有一些训练数据和测试数据。当我拟合随机森林模型时,该randomForest函数允许您输入新的测试数据进行测试。然后,它告诉您此新数据中说明的方差百分比。当我看到这个时,我得到一个数字。 当我使用该predict()函数基于训练数据的模型拟合来预测测试数据的结果值时,并取这些值与测试数据的实际结果值之间的平方相关系数,得出一个不同的数字。这些值不匹配。 这是一些R代码来演示该问题。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index &lt;- 1:nrow(iris) trainindex &lt;- sample(index, trunc(length(index)/2)) trainset &lt;- iris[trainindex, ] testset &lt;- iris[-trainindex, ] # fit a model to the training set (column …

2
解释R的输出以进行二项式回归
对于二项式数据测试,我是一个新手,但需要做一个,现在我不确定如何解释结果。y变量(响应变量)是二项式的,解释因素是连续的。这是我总结结果时得到的: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.3877697 0.0282178 -13.742 &lt; 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

2
R中lmer()混合效应模型的预测间隔
我想从lmer()模型获得围绕预测的预测间隔。我发现了一些有关此的讨论: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq 但他们似乎并未考虑随机效应的不确定性。 这是一个具体的例子。我在比赛金鱼。我有过去100场比赛的数据。考虑到我的RE估算和FE估算的不确定性,我想预测第101位。我包括鱼的随机拦截(有10种不同的鱼)和重量的固定效应(较轻的鱼更快)。 library("lme4") fish &lt;- as.factor(rep(letters[1:10], each=100)) race &lt;- as.factor(rep(900:999, 10)) oz &lt;- round(1 + rnorm(1000)/10, 3) sec &lt;- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat &lt;- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 &lt;- lmer(time …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.