Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
您可以在R中计算Kolmogorov-Smirnov检验的功效吗?
是否可以对R中的两面Kolmogorov Smirnov测试进行功率分析? 我正在使用ks.test()测试两个经验分布是否不同,并希望添加功效分析。 我无法在R中找到用于KS测试的内置功率分析。有什么建议吗? 编辑:这些是随机生成的分布,非常接近我的数据(具有真实的样本大小和指数分布的估计衰减率) set.seed(100) x <- rexp(64, rate=0.34) y <- rexp(54,rate=0.37) #K-S test: Do x and y come from same distribution? ks.test(x,y) 这些数据是两个不同组中身体大小的度量。我想证明两组的分布基本相同,但是一位合作者问我是否有能力根据样本量来说明这一点。我是从这里的指数分布中随机抽取的,但是它们接近真实数据。 到目前为止,我已经说过,基于双面KS测试,这些分布没有显着差异。我还绘制了两个分布。考虑到x和y的样本大小和衰减率,如何证明我有能力做出这样的陈述?

1
贝叶斯A / B测试的公式没有任何意义
我正在使用贝叶斯ab测试的公式,以便使用贝叶斯方法计算AB测试的结果。 PR (p乙> p一个)= ∑我= 0α乙− 1B (α一个+ 我,β乙+ β一个)(β乙+ i )B(1 + i ,β乙)B (α一个,β一个)镨(p乙>p一个)=∑一世=0α乙-1个乙(α一个+一世,β乙+β一个)(β乙+一世)乙(1个+一世,β乙)乙(α一个,β一个) \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} 哪里 α一个α一个\alpha_A加A的成功次数 β一个β一个\beta_A加A的失败次数 α乙α乙\alpha_B加上B的成功次数 β乙β乙\beta_B加上B的失败次数 乙乙B是Beta函数 示例数据: control: 1000 trials with 78 successes test: 1000 trials with 100 successes 标准的非贝叶斯prop测试可以给我带来显着的结果(p <10%): prop.test(n=c(1000,1000), x=c(100,78), correct=F) # 2-sample test …
10 r  bayesian  ab-test 

2
使用lme4的混合效应模型中交互项的P值
我正在使用lme4in来分析一些行为数据R,主要是按照Bodo Winter的出色教程进行的,但是我不理解我是否正确处理了交互。更糟糕的是,没有其他人参与到这项研究中来,因此使用混合模型,因此在确保一切正确的时候我有点不知所措。 我认为我应该尽最大的努力来解释问题,然后请求您的集体更正,而不是仅仅寻求帮助。其他一些方面是: 在写作时,我发现了这个问题,表明nlme更直接地给交互项赋予p值,但是我认为与的关系仍然有效lme4。 Livius'该问题的答案提供了许多其他阅读文章的链接,我将在接下来的几天中尝试阅读这些文章,因此,我将对所带来的任何进步进行评论。 在我的数据中,我有一个因变量dv,一个condition操作(0 =对照,1 =实验条件,应导致更高的值dv),还有一个前提条件,标记为appropriate:1为此进行编码的试验应显示出效果,但编码的试验0可能不会,因为缺少一个关键因素。 我还包括两个随机截距,分别用于subject和,用于target反映dv每个主题内以及所解决的14个问题中的每个问题的相关值(每个参与者都解决了每个问题的对照和实验版本)。 library(lme4) data = read.csv("data.csv") null_model = lmer(dv ~ (1 | subject) + (1 | target), data = data) mainfx_model = lmer(dv ~ condition + appropriate + (1 | subject) + (1 | target), data = data) interaction_model = lmer(dv ~ condition …

3
stl或分解哪个更好?
我正在使用R进行时间序列分析。我必须将数据分解为趋势,季节和随机分量。我有3年的每周数据。我在R stl()和中发现了两个函数decompose()。我读过stl()对乘法分解不利。谁能告诉我在什么情况下可以使用这些功能?
10 r  time-series 

3
如何从Bootstrap回归中获得系数的p值?
从罗伯特·卡巴科夫(Robert Kabacoff)的Quick-R中,我有 # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, R=1000, formula=mpg~wt+disp) # view …

1
比例的两样本比较,样本大小估计:R vs Stata
比例的两样本比较,样本大小估计:R vs Stata 对于样本量,我得到了不同的结果,如下所示: 在R中 power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 结果: n = 160.7777ñ=160.7777n = 160.7777 (因此161)。 在Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 结果: n = 174ñ=174n = 174 每组。 为什么会有所不同?谢谢。 顺便说一句,我在SAS JMP中运行了相同的样本量计算,结果:(几乎与R结果相同)。n = 160ñ=160n = 160

1
随机森林能否比MNIST上的2.8%测试误差好得多?
我还没有发现在随机森林的应用MNIST,CIFAR,STL-10等任何文学,所以我想我会尝试将其与排列不变 MNIST自己。 在R中,我尝试: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) 运行了2个小时,测试错误为2.8%。 我也试过scikit学习,与 RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70分钟后,我得到了2.9%的测试错误,但是当n_estimators = 200时,仅7分钟后我得到了2.8%的测试错误。 使用OpenCV,我尝试了 rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) 运行了6.5分钟,rf用于预测给出了15%的测试误差。我不知道它训练了多少棵树,因为它们对Random Forests的Python绑定似乎忽略了该params参数,至少在版本2.3.1中如此。我也无法弄清楚如何讲清楚OpenCV的,我想解决一个分类问题,而不是回归-我有我的怀疑,因为替换astype('int')用astype('float32')的结果相同。 在神经网络中,对于不变排列的 MNIST基准,目前的技术水平是0.8%的测试错误,尽管在一个CPU上训练可能要花费2个小时以上。 是否有可能比使用随机森林的MNIST上的2.8%测试错误好得多?我认为普遍的共识是随机森林通常至少与内核SVM一样好,我相信它可以得到1.4%的测试错误。

1
GLM的日志可能性
在下面的代码中,我使用glm对分组数据执行逻辑回归,并使用mle2对“手工”进行逻辑回归。为什么R中的logLik函数会给我一个对数可能性logLik(fit.glm)=-2.336,而不是我手工得到的一个logLik(fit.ml)=-5.514? library(bbmle) #successes in first column, failures in second Y <- matrix(c(1,2,4,3,2,0),3,2) #predictor X <- c(0,1,2) #use glm fit.glm <- glm(Y ~ X,family=binomial (link=logit)) summary(fit.glm) #use mle2 invlogit <- function(x) { exp(x) / (1+exp(x))} nloglike <- function(a,b) { L <- 0 for (i in 1:n){ L <- L + sum(y[i,1]*log(invlogit(a+b*x[i])) …

1
SMOTE针对多类不平衡问题引发错误
我正在尝试使用SMOTE纠正我的多类分类问题中的不平衡。尽管根据SMOTE帮助文档,SMOTE在虹膜数据集上可以很好地工作,但是在类似的数据集上却不能工作。这是我的数据的样子。请注意,它具有三个类别,值分别为1、2、3。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
在R中的重复测量方差分析中指定Error()项
我在定义R中的双向重复测量方差分析的误差项时遇到问题。我的数据包括沿从树中提取的芯线的三个径向位​​置(内部,中间和外部)的木材密度估计。一共有20种树,每种树有6个个体,每个树有两个核心。 为了测试径向位置对木材密度的影响,我使用以下两种方差分析模型,其中的误差项解释了个体之间的差异: radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) 但是,我不确定我对错误术语的说明是否足够。我还应该考虑核心内的可变性吗?对我来说,这种可变性与径向位置是相同的,而径向位置是我感兴趣的主要因素。 尽管我花了一些时间阅读有关在“重复测量ANOVA”中指定错误项的信息,但是在实际指定错误项方面仍然存在问题。我将对此有所帮助。

2
REML vs ML stepAIC
在尝试研究如何进行混合模型分析并随后使用AIC选择最佳模型之后,我感到不知所措。我不认为我的数据那么复杂,但是我想确认自己所做的正确,然后就如何继续提供建议。我不确定我应该使用lme还是lmer,然后再使用这两个,如果我应该使用REML或ML。 我有一个选择值,我想知道哪个协变量最能影响该值并允许进行预测。这是一些组合的示例数据和我正在使用的测试代码: ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 我有〜19个模型,这些模型使用各种组合和最多2种交互作用项来探索此数据,但始终以ID为随机效应,而comp1为我的因变量。 Q1。使用哪个?我还是我?有关系吗? 在这两种方法中,我都可以选择使用ML或REML-并且得到了截然不同的答案-使用ML再加上AIC,我最终得到了6个具有相似AIC值的模型,并且模型组合根本没有意义,而REML导致最有可能的两个模型是最好的。但是,在运行REML时,我无法再使用方差分析。 Q2。与ANOVA一起使用,是在ML之上使用ML的主要原因是什么?我不清楚。 我仍然无法运行stepAIC,或者我不知道缩小19种模型的其他方法。 Q3。目前有没有办法使用stepAIC?

3
Winbugs和其他MCMC,无须事先分发的信息
当您不了解参数分布时会发生什么?我们应该使用什么方法? 大多数时候,我们的目标是低估某个变量是否对某个物种的存在/不存在有任何影响,并且根据变量的重要性来接受或不接受该变量。这意味着大多数时候我们不考虑参数应具有的展开分布。 当我所知道的是b1,b2,b3和b4应该在-2和2之间变化而b0可以在-5和5之间变化时,假设所有参数都遵循正态分布是正确的吗? model { # N observations for (i in 1:N) { species[i] ~ dbern(p[i]) logit(p[i]) <- b0 + b1*var1[i] + b2*var2[i] + b3*var3[i] + b4*var4[i] } # Priors b0 ~ dnorm(0,10) b1 ~ dnorm(0,10) b2 ~ dnorm(0,10) b3 ~ dnorm(0,10) b4 ~ dnorm(0,10) }
10 r  bayesian  mcmc  bugs  winbugs 

2
GAM交叉验证以测试预测误差
我的问题与mgcv R软件包中的GAM有关。由于样本量较小,我想使用留一法交叉验证来确定预测误差。这合理吗?有没有包装或代码,我该怎么做?ipred软件包中的errorest()功能不起作用。一个简单的测试数据集是: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) summary(b) pred <- predict(b, type="response") 非常感谢您的帮助!
10 r  cross-validation  gam  mgcv 

3
如何找到时间序列之间的相似性?
在以下示例中,我有一个数据框,该数据框由在海洋中5个深度处记录的水温测量值的时间序列组成,其中in的每个值Temp对应于in的日期DateTime和in 的深度Depth。 set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each = …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.