统计和大数据 r

1

Wikipedia建议，查看评估者之间可靠性的一种方法是使用随机效应模型来计算类内相关性。类内相关的例子讨论了看 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} 从模型 Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} “其中Y ij是第 i 组的第 j 个观测值，μ是未观察到的总体均值，αi是组i中所有值共享的未观察到的随机效应，而εij是未观察到的噪声项。” 这是一个有吸引力的模型，尤其是因为在我的数据中，没有任何评分者对所有事物进行了评分（尽管大多数人的评分为20+），并且事物的评分次数是可变的（通常为3-4）。问题＃0：在该示例中，“组i”（“组i”）是否是一组被评级的事物？问题＃1：如果我正在寻找评估者之间的可靠性，我是否不需要一个包含两个术语的随机效应模型，一个用于评估者，一个用于评估的事物？毕竟，两者都有可能发生变化。问题2：如何最好地用R表达此模型？这个问题似乎有一个不错的建议： lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 我看了几个问题，而lme的“ random”参数的语法对我来说是不透明的。我阅读了lme的帮助页面，但是没有示例，我对“随机”的描述是难以理解的。这个问题有点类似于一个长名单的问题，与此最接近的一次。但是，大多数都没有详细介绍R。

9 r reliability random-effects-model agreement-statistics

4

查找概率密度区间

我有载体 x <- c(1,2,3,4,5,5,5,6,6,6,6, 7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7, 7,7,7,7,7,7,7,7,8,8,8,8,9,9,9,10) （我的实际向量的长度大于10,000），我想找到90％的密度所在的区间。是quantile(x, probs=c(0.05,0.95), type=5)最合适的还是还有其他方法？

9 r

1

R中ACF图中的虚线

我正在阅读Cowpertwait和Metcalfe的《 R入门时间序列》这本书。在第36页上，其行位于：−1/n±2/n−−√−1/n±2/n-1/n \pm 2/\sqrt{n}。我在这里阅读过R论坛，其行位于。 ±1.96/n−−√±1.96/n\pm 1.96/\sqrt{n} 我运行了以下代码： b = c(3,1,4,1) acf(b) 并且我发现这些行看起来好像是。那么，显然这本书是错的吗？还是我误读了所写的内容？作者在谈论的内容略有不同吗？±1.96/4–√±1.96/4\pm 1.96/\sqrt{4} *请注意，我对1.96对2的次要细节差异不感兴趣。我假设这只是作者使用2 sd与实际1.96 sd的经验法则。编辑：我运行了此模拟： acf1 = 0 acf2 = 0 acf3 = 0 for(i in 1:5000){ resids= runif(1000) residsacf = c(acf(resids,plot= FALSE)) acf1[i] = residsacf$acf[2,,1] acf2[i] = residsacf$acf[3,,1] acf3[i] = residsacf$acf[4,,1] } meanacf1 = mean(acf1) meanacf2 = …

9 r time-series

6

如何在R中对变量进行分组居中/标准化？

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我熟悉的功能包括R的缩放比例和ARM的缩放比例。也许最好的方法是使用apply的某种变体，指定一个或多个变量用作分组变量。

9 r standardization centering

1

如何解释0或1的p值？

我进行了一项方差分析，例如，性别和年级之间的相互作用比我想知道的男孩和女孩的年级有所不同，但是在很多情况下，我发现（调整后的）p值为0和1。为什么/为什么会这样？似乎不正确... as.factor(gender) 1 16 16.2 2.6377 0.104396 as.factor(grade) 7 50077 7153.9 1165.4184 < 2.2e-16 *** as.factor(gender):as.factor(grade) 7 132 18.9 3.0795 0.003056 ** Residuals 7747 47555 6.1 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Tukey multiple comparisons of means 95% family-wise confidence level …

9 r

2

什么是学习Emacs口语统计（带R）的良好参考/建议？

我已经使用R几年了，但是我一直使用GUI，例如Tinn-R，JGR和最近的R-Studio。尽管我喜欢R-Studio的界面，但我觉得对于较长的程序，几乎没有/没有图形，我可以利用更基本的文本编辑器（如Emacs）提供的快捷方式来更有效地编码。我安装了Emacs和ESS插件，一切正常，并且已经测试了一些代码，但是我很难适应它，并且找不到合适的参考手册。 Google搜索返回了一些过时的网站，这些网站的教程主要侧重于安装和配置插件，而官方网站上的手册对我来说有点过于繁琐。我正在寻找一个相对简短的介绍（最好是带有屏幕快照和热键列表），以供熟悉R而不是Emacs的人士使用。任何参考或其他入门提示将不胜感激。

9 r software

3

Boxplot有几种分布？

我需要在R中的单个图形中绘制20个分布，即使使用boxwex = 0.3，对于常规boxplot（20个框）来说，它看起来也不好（混乱）。您能否建议我如何在R中绘制20种分布的箱形图，用点表示中位数，而用线代替盒形，如下图所示。如果有任何R方法可以产生不错的箱形图，尤其是要在单个图形中显示多个分布的情况，也请提出建议。 -----0----

9 r boxplot

1

如何在rpart（）中选择分割数？

我已经使用rpart.control了minsplit=2，并得到了以下结果rpart()功能。为了避免数据过拟合，是否需要使用拆分3或拆分7？我不应该使用拆分7吗？请告诉我。在树构造中实际使用的变量： [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 3 0.158468 0.27281 0.060605 5 0.025035 4 0.130815 0.30120 0.058992 …

9 r cart rpart

1

面板研究中时间序列中缺失计数数据的多重估算

我正在尝试解决一个涉及面板数据研究中缺失数据的估算的问题（不确定我是否正确使用了“面板数据研究”，正如我今天所学到的那样。）我拥有2003年的总死亡计数数据到2009年，所有8个地区和4个年龄段的男性和女性的所有月份。数据框看起来像这样： District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ 106 …

9 r time-series panel-data data-imputation

2

成对的重复测量方差分析还是混合模型？

我被要求分析来自临床试验的一些数据，以寻找两种测量血压的方法。我有来自50个主题的数据，每个主题使用每种方法的测量范围介于2到57个之间。我想知道如何最好地进行。显然，我需要一个解决方案，该解决方案应考虑以下事实：血压测量值是成对的（两种方法同时测量），还需要时变协变量（每个患者的观察次数不同），以及患者可变性。我曾想过以某种方式将其纳入重复测量方差分析中，但我想可能需要采用混合模型方法。我会很感激您能提供的任何有用的建议。我是R的新手，但是对开发技能感到非常兴奋，并且我在Stata拥有一定的经验，因此可以随时依靠。

9 r anova mixed-model stata

2

为什么R在QQ图中将标准残差与理论分位数作图？

在R中，为什么默认设置qqplot(linear model)在y轴上使用标准化残差？为什么R不使用“常规”残差？

9 r regression linear-model residuals qq-plot

2

R中基于噪声的应用程序基于密度的空间聚类（DBSCAN）聚类

这个问题开始于“ 在R中聚集空间数据 ”，现在移到了DBSCAN问题。正如对第一个问题的回答所建议的那样，我搜索了有关DBSCAN的信息并阅读了一些有关的文档。出现了新的问题。 DBSCAN需要一些参数，其中之一是“距离”。由于我的数据是三维，经度，纬度和温度，我应该使用哪个“距离”？哪个尺寸与该距离有关？我想应该是温度。如何找到R的最小距离？另一个参数是形成聚类的最小点数。有没有找到该号码的方法？不幸的是我没有找到。我在类似我的数据集中找不到使用dbscan的R示例，您知道有这样的示例的网站吗？因此，我可以阅读并尝试适应我的情况。最后一个问题是我对DBSCAN的第一次R尝试（没有对先前问题的正确回答）导致内存问题。R说它不能分配向量。我从一个4 km的网格开始，该网格具有779191个点，在删除无效的SST点时，该点以大约300000行x 3列（纬度，经度和温度）结束。解决此内存问题的任何提示。它取决于我的计算机还是DBSCAN本身？感谢您耐心阅读冗长且可能很无聊的消息以及您的帮助。

9 r clustering spatial

2

带R的Tobit模型

有谁知道在哪里使用带有AER软件包的tobit模型在哪里找到好的应用程序和示例（除了手册和书籍，其中包括R的计量经济学）？编辑我正在寻找一个命令来计算y的边际效应（而不是潜在变量y *）。它似乎是，其中是标准正态累积分布函数。但是我如何用R计算这些影响呢？φ （X β/ σ）βϕ（Xβ/σ）β\phi(x\beta/\sigma)\betaϕϕ\phi

9 r tobit-regression

3

如何在R的数据框中更改列名？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 6年前关闭。 names(mydat)[c(name)]<-c("newname") 由此，我知道数据框mydat的列/变量名称“名称”已替换为“ newname”。我的问题是，是否要通过循环执行此操作，以便获得诸如以下的信息： newname1 newname2 newname3 newname4等等，我该怎么做？这是起作用的，但没有起作用： for(i in 1:4){ names(mydat)[c(name)]<-c("newname"i) } 有没有办法对此进行编码？非常感谢所有可以提供帮助的人。奥乌苏·以撒

9 r

4

如何在2 X 3桌子上进行多个事后卡方检验？

我的数据集包括近海，中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点类型，发生100％死亡率的地点数量是否显着。如果我运行2 x 3卡方，则会得到显着的结果。我是否可以进行事后成对比较，或者实际上应该使用对数方差分析或二项分布的回归？谢谢！

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

Questions tagged «r»