Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何使用Rjags生成预测?
我已经使用rjags在以JAGS语言指定的模型上运行MCMC。是否有一个很好的方法可以提取该模型并对其进行预测(使用我的参数的后验分布)?我可以在R中重新指定模型,并插入参数后代的模式;我只是想知道是否有较少的冗余方法。 我相信http://sourceforge.net/p/mcmc-jags/discussion/610037/thread/0ecab41c在问同样的问题。
12 r  jags 

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Logistic分位数回归–如何最好地传达结果
在上一篇文章中,我想知道如何处理EQ-5D分数。最近,我偶然发现了由Bottai和McKeown建议的逻辑分位数回归,该回归引入了一种处理有限结果的优雅方法。公式很简单: 升Ò 克我吨(ÿ)= 升Ô 克(y- ÿ中号我Ñÿ中号一个X- ÿ)logit(y)=log(y−yminymax−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) 为避免log(0)和被0除,可以将范围扩展一个小值。这提供了尊重分数边界的环境。ϵϵ\epsilon 问题在于,任何都将处于对数刻度,除非转换回常规刻度才有意义,但这意味着将是非线性的。出于图形目的,这并不重要,但如果使用更多:s,则将非常不便。β βββ\betaββ\betaββ\beta 我的问题: 您如何建议在不报告整个跨度的情况下报告logit?ββ\beta 实施实例 为了测试实现,我基于此基本功能编写了一个仿真: Ò ù 吨Ç ø 米Ë = β0+ β1个* x t e s t3+ β2* 小号Ë Xoutcome=β0+β1∗xtest3+β2∗sexoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex 其中,和。由于分数是有上限的,因此我将大于4的任何结果值和小于-1的任何结果值设置为最大值。β 1 = 0.5 β 2 = 1β0= 0β0=0\beta_0 = 0β1个= 0.5β1=0.5\beta_1 = 0.5β2= 1β2=1\beta_2 = 1 模拟数据 set.seed(10) …

1
根据数据估算分布
我有一个R由生成的数据样本rnorm(50,0,1),因此该数据显然呈正态分布。但是,R不“知道”有关数据的分布信息。 有没有一种方法R可以估算我的样本来自哪种分布?如果没有,我将使用该shapiro.test功能并继续进行操作。
12 r  distributions 

1
R中的偏最小二乘回归:为什么标准化数据上的PLS不等于最大化相关性?
我在偏最小二乘(PLS)非常新,我试着去了解R函数的输出plsr()的pls包。让我们模拟数据并运行PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) 我期望以下数字aaa和bbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 0.723 xx2 0.690 Comp 1 SS …


3
用于多层建模的说明性数据集和分析
我最近参加了有关多级建模的入门课程。我们使用的大多数数据集和示例均来自社会科学。我刚刚在生物统计学部门进行了为期2周的实习,他们希望我在医院之间以及5年以上的高死亡率的紧急情况下,开展有关患者结局水平变化的项目,以应对这种情况。时间跨度。我将从下周开始实习,我希望能找到一本书或在线资源,其中已经进行了类似的分析(最好是使用R,Stata或MLwiN),最好是它们可以为读者提供数据集。任何链接将是最欢迎的。 编辑:我将使用详细记录患者住院治疗所有已记录方面的数据集。感兴趣的主要结果是入院后30天内死亡。

2
训练数据中具有不相等组大小的SVM
我正在尝试从训练数据构建一个SVM,其中一组代表的数量更多。但是,组将在最终的测试数据中均等地代表。因此,我想使用R包接口的class.weights参数来平衡两组在训练数据中的影响。e1071libsvm 由于我不确定应该如何指定这些权重,因此我进行了一些测试: 生成一些空数据(随机特征;组标签之间的比例为2:1) 使用class.weights参数集安装一个svm 。 预测一堆新的空数据集并查看类比例。 针对不同的空训练集重复整个过程很多次。 这是我正在使用的R代码: nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' …

2
在R中使用Monte Carlo模拟逼近积分
我如何使用MC模拟近似以下积分? ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y 谢谢! 编辑(在某些情况下):我试图学习如何使用仿真来逼近积分,并且遇到一些困难时可以做一些练习。 编辑2 + 3:我不知何故感到困惑,以为我需要将积分拆分为单独的部分。因此,我实际上发现了: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

3
使用read.csv只读取三列中的两列
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我有一个由三列组成的ascii数据集,但是只有最后两列是实际数据。现在,我想使用创建一个数据点图read.csv(file = "result1", sep= " ")。R读取所有三列。如何避免这种情况?
12 r 

4
预测二进制时间序列
我有一个二进制时间序列,当汽车不动时为1,当汽车不动时为0。我想对未来36小时以及每个小时的时间范围进行预测。 我的第一种方法是通过以下输入使用朴素贝叶斯:t-24(每日季节性),t-48(每周季节性),一天中的小时。但是,结果不是很好。 您为该问题推荐哪些文章或软件?

2
如何为使用汽车的重复测量方差分析指定特定的对比?
我正在尝试在R中运行重复测量Anova,然后对该数据集进行一些特定的对比。我认为正确的方法是 Anova()从汽车包装中使用。 让我们用?Anova使用 OBrienKaiser数据的示例来说明我的问题(注意:我省略了示例中的性别因素): 我们设计了一个在受试者因素,治疗之间(3个级别:对照,A,B)和两个重复的因素-测量(在受试者内)因素,阶段(3个级别:测试前,测试后,随访)和小时(5个级别:1至5)。 标准ANOVA表的给出方式为(与example(Anova)不同,我切换到Type 3 Squares of Squares,这是我的领域想要的): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), c(5, 5, 5)), levels=c("pretest", "posttest", "followup")) hour <- ordered(rep(1:5, 3)) idata <- data.frame(phase, hour) mod.ok <- lm(cbind(pre.1, pre.2, pre.3, pre.4, pre.5, post.1, post.2, post.3, post.4, post.5, fup.1, fup.2, fup.3, fup.4, fup.5) ~ treatment, data=OBrienKaiser) …

2
在R中的图形上绘制多个条形图[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 我想在R中的单个图形上绘制四个条形图。我使用了以下代码。在这里,如何将图例保持在图表顶部,特别是图例应介于2到3个条形图之间。我也尝试过,par(mar=c(4.1,4.1,8.1,4.1)但没有成功。而且,我也尝试legend()在第二个barplot之后运行,但是没有用。图例适用于所有四个木槌。请帮助我。 par(mfrow=c(1,4)) barplot(t(A), beside=T, ylim=c(-100,100),..) barplot(t(B), beside=T, ylim=c(-100,100),..) barplot(t(C), beside=T, ylim=c(-100,100),..) barplot(t(D), beside=T, ylim=c(-100,100),..) legend(...)

9
本书提供了统计方法的广泛而概念性的概述
我对统计分析在模拟/预测/功能估计等方面的潜力非常感兴趣。 但是,我对此并不太了解,我的数学知识仍然非常有限-我是软件工程专业的一名本科生。 我正在寻找一本可以让我开始不断学习的东西的书:线性回归和其他类型的回归,贝叶斯方法,蒙特卡洛方法,机器学习等。我也想开始使用R,所以如果有一本书将两者结合在一起,真是太棒了。 最好是,我希望这本书从概念上而不是过多的技术细节上进行解释-我希望统计数据对我来说非常直观,因为我知道统计数据存在很多风险。 我当然愿意阅读更多书籍,以增进对我认为有价值的主题的理解。

2
在R中聚类空间数据
我有一套每月的海面温度(SST)数据,我想应用一些聚类方法来检测具有相似SST模式的区域。我有一组从1985年到2009年运行的每月数据文件,并希望将聚类应用到每个月作为第一步。 每个文件包含358416点的网格数据,其中约50%是陆地,并用99.99值标记为NA。数据格式为: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 12.39 -9.646 44.979 12.36 我尝试了CLARA聚类方法,并得到了一些明显不错的结果,但在我看来,这也只是平滑(分组)等值线。那么我不确定这是分析空间数据的最佳聚类方法。 是否有其他专门用于此类数据集的聚类方法?一些参考将是开始阅读的好方法。 提前致谢。
12 r  clustering  spatial 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.