Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。


3
如何在R中制作华夫饼图?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 如何在R中使用饼图来绘制华夫饼图呢? help.search("waffle") No help files found with alias or concept or title matching ‘waffle’ using fuzzy matching. 我发现在Google上搜索得最近的是镶嵌图。

1
在R中处理大数据集-教程,最佳实践等
我是R新手,需要对R中的大数据集进行各种分析。因此,在浏览此站点和其他地方时,在我看来,这里涉及许多深奥而鲜为人知的问题-例如何时使用哪个包,对数据进行哪些转换(不进行转换)等。 我只是想知道是否有一本书/教程/指南使所有这些事情变得神秘,并以系统的方式呈现信息?我更喜欢这样做,而不是四处寻找,并在线整理来自不同来源的信息。 提前致谢。
11 r  large-data 

1
如何使用R进行4 x 4混合方差分析,在对象间和对象内进行对比?
R的初学者在这里一直在反复测量方差分析。 我有一个数据集,该数据集由一个具有4个级别的主体因素之间的代码(编码为一个称为“组”的单个变量)和一个具有4个级别的主体因素内的数据集(分别编码为四个单独的变量“ DV1”,“ DV2”,“ DV3” ','DV4')。 我的目标如下: 运行总体重复测量方差分析。 使用自定义对比来比较组(如SPSS中的LMATRIX命令)。 使用自定义对比度(如SPSS中的MMATRIX命令)比较不同级别的DV。 同时进行2)和3)的组合,因此我只比较对象内因素处于特定水平的特定组。 运行一组不为零的对比。 我知道我可以在SPSS中做到这一点,但没有很多问题,但是我不清楚如何在R中做到这一点。到目前为止,还没有看到这在R中的一个过程或一组相关过程中如何工作。

1
将用于零膨胀伽玛回归的SAS NLMIXED代码转换为R
我正在尝试为R中的连续响应变量运行零膨胀回归。不幸的是,代码位于SAS中,我不确定如何为nlme之类的代码重新编写代码。 代码如下: proc nlmixed data=mydata; parms b0_f=0 b1_f=0 b0_h=0 b1_h=0 log_theta=0; eta_f = b0_f + b1_f*x1 ; p_yEQ0 = 1 / (1 + exp(-eta_f)); eta_h = b0_h + b1_h*x1; mu = exp(eta_h); theta = exp(log_theta); r = mu/theta; if y=0 then ll = log(p_yEQ0); else ll = log(1 - p_yEQ0) …
11 r  sas  gamlss 

2
威尔科克森签名秩检验的适当性
我在“交叉验证”档案中打了一下,似乎找不到我的问题的答案。我的问题如下:Wikipedia给出了Wilcoxon签名等级测试需要保留的三个假设(针对我的问题稍作修改): 令Zi = Xi-Yi,i = 1,...,n。 假设差异Zi是独立的。 (a。)每个Zi都来自相同的连续种群,并且(b。)每个Zi都是关于一个共同的中位数对称的; Xi和Yi表示的值是有序的...因此比较“大于”,“小于”和“等于”是有用的。 但是,R中的?wilcox.test文档似乎表明(2.b)实际上是由该过程测试的: “ ...如果x和y都给出且配对为TRUE,则执行x y的分布(在成对的两个样本的情况下)关于mu对称的null的Wilcoxon有符号秩检验。” 这个声音以我,好像该测试为零假设,即“Z是symetrically周围分布中值亩= SomeMu”执行-使得拒绝FO空可能是要么拒绝的对称性或拒绝其围绕该亩Z是对称的SomeMu。 这是对wilcox.test R文档的正确理解吗?当然,这很重要的原因是,我正在对一些前后数据(上面的“ X”和“ Y”)进行许多成对差异测试。“之前”和“之后”数据分别高度偏斜,但差异几乎没有偏斜(尽管仍然有些偏斜)。我的意思是,单独考虑的“之前”或“之后”数据的偏斜度约为7到21(取决于我正在查看的样本),而“差异”数据的偏斜度约为0.5到5。但没有那么多。 如果我的“差异”数据中存在偏斜会导致Wilcoxon检验给我错误/偏见的结果(如Wikipedia文章所表明的那样),那么偏斜可能是一个大问题。但是,如果Wilcoxon检验实际上是在检验差异分布是否“关于mu = SomeMu对称”(正如?wilcox.test似乎表明的那样),那么就不必担心了。 因此,我的问题是: 上面哪种解释是正确的?我的“差异”分布中的偏斜度会偏向我的Wilcoxon检验吗? 如果偏斜是一个问题,那就:“偏斜多少?” 如果在这里Wilcoxon签署的等级测试似乎非常不合适,那么我应该使用什么建议? 非常感谢。如果您对如何进行此分析有任何进一步的建议,我很高兴听到他们的声音(尽管我也可以为此目的打开另一个线程)。另外,这是我关于交叉验证的第一个问题;如果您对我的提问方式有任何建议/评论,我也欢迎您! 一些背景知识:我正在分析一个数据集,其中包含对我称之为“公司生产中的错误”的观察。我对意外检查前后在生产过程中发生的错误进行了观察,分析的目的之一是回答以下问题:“检查是否会显着减少错误的发生?” 数据集如下所示: ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD 0123,1,1,1,0,1,1,1,0 2345,1,0,0,0,0,1,1,0 6789,2,1,0,1,0,1,0,0 1234,8,8,0,0,1,0,0,0 大约有4000个观测值。其他变量是描述公司特征的分类观察。规模可以小,中或大,每个公司都是其中之一,并且只有其中之一。企业可以是任何一种或所有“类型”。 我被要求进行一些简单的测试,以查看在检查所有公司和各个子组(基于大小和类型)之前和之后观察到的错误率是否存在统计学上的显着差异。之所以进行T检验,是因为数据在R之前和之后都严重偏斜,例如,在R中,之前的数据看起来像这样: summary(errorsBefore) # Min. 1st Qu. Median …



2
将分类树(部分)组织成一组规则?
一旦使用rpart(在R中)构造了复杂的分类树,是否有办法组织为每个类生成的决策规则?因此,对于每一个类,我们都有一套规则,而不是得到一棵大树? (如果是,如何?) 这是一个简单的代码示例,显示以下示例: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) 谢谢。
11 r  classification  cart  rpart 

3
是否有适用于使用稀疏预测器和响应的类似于CART的方法的库?
我正在使用R中的gbm包处理一些大型数据集。我的预测变量矩阵和响应向量都很稀疏(即,大多数条目为零)。我希望使用一种可以利用这种稀疏性的算法来构建决策树,就像在这里所做的那样。在该论文中,就像我所遇到的情况一样,大多数项目只有许多可能的功能中的少数,因此,除非数据中另有明确说明,否则它们可以通过假设其项目缺少给定功能来避免大量的计算浪费。我的希望是,通过使用这种算法(然后将增强算法包装在其周围以提高预测精度),我可以获得类似的加速效果。 由于他们似乎没有发布代码,所以我想知道是否有针对这种情况优化的开源软件包或库(任何语言)。理想情况下,我想要一种可以直接从R的Matrix包装中获取稀疏矩阵的东西,但我将尽我所能。 我环顾四周,看来应该是这样的事情: 化学家似乎经常遇到这个问题(我上面链接的文章是关于学习寻找新的药物化合物的),但是我可以找到的实现是化学分析的专有或高度专业化的实现。不过,其中之一可能会被重新利用。 文档分类似乎也是从稀疏特征空间学习的一个有用的领域(大多数文档包含的单词不多)。例如,有一个倾斜的参考稀疏实施C4.5的(一个手推车类算法)在本文中,但不包含代码。 根据邮件列表,WEKA可以接受稀疏数据,但是与我上面链接的论文中的方法不同,WEKA在避免浪费CPU周期方面并未进行优化以实际利用它。 提前致谢!

1
在R中修改线性弹道累加器(LBA)仿真
“线性弹道累加器”模型(LBA)是在快速简单决策任务中用于人类行为的相当成功的模型。唐金等人(2009,PDF)提供代码,允许估计给人类行为数据模型的参数,我已经复制代码(有一些小的格式更改)的要点在这里。但是,我想对模型进行微小的修改,但是我不确定如何在代码中实现此修改。 首先从规范模型开始,LBA将每个响应替代方案表示为一个相当奇怪的比赛中的竞争者,从而使竞争者可以具有以下不同特征: 起始位置:根据U(0,X1)界定的均匀分布,种族之间的差异很大。 速度:在给定的比赛中保持恒定(无加速度),但根据N(X2,X3)定义的高斯分布,不同的比赛之间会有所不同 终点线位置(X4) 因此,每个竞争对手对于X1,X2,X3和X4都有自己的一组值。 比赛重复了很多次,冠军和他们的时间记录在每场比赛之后。X5常数将添加到每个获胜时间。 现在,我要进行的修改是将起点的可变性交换到终点。也就是说,我希望所有竞争者和所有种族的起点都为零,从而消除X1,但是我想添加一个参数X6,该参数指定以X4为中心的均匀分布范围的大小,每个竞争对手从每场比赛都采集终点线。这样,在此模型中,每个竞争对手的价值将分别为X2,X3,X4和X6,而我们的竞争对手价值仍为X5。 如果有人愿意为此提供帮助,我将非常感谢。 哦,并提供从上述“ X”命名参数到我链接的LBA代码使用的变量名的映射:X1 = x0max; X2 =漂移率;X3 =标准差 X4 =气; X5 = Ter。

1
基本自举置信区间的覆盖概率
我正在研究的课程存在以下问题: 进行蒙特卡洛研究,以估计标准正常自举置信区间和基本自举置信区间的覆盖概率。从正常人群中抽样,并检查样本均值的经验覆盖率。 标准普通引导程序CI的覆盖率很容易: n = 1000; alpha = c(0.025, 0.975); x = rnorm(n, 0, 1); mu = mean(x); sqrt.n = sqrt(n); LNorm = numeric(B); UNorm = numeric(B); for(j in 1:B) { smpl = x[sample(1:n, size = n, replace = TRUE)]; xbar = mean(smpl); s = sd(smpl); LNorm[j] = xbar + …

2
如何绘制具有置信区间的交互图?
我的尝试: 我无法获得置信区间 interaction.plot() 另一方面plotmeans(),“ gplot”包不会显示两个图表。此外,我不能在两个plotmeans()图之间加上两个图,因为默认情况下轴是不同的。 我使用plotCI()了'gplot'包并叠加了两个图形,但取得了一些成功,但是轴的匹配并不完美。 关于如何制作具有置信区间的交互图的任何建议?通过一个函数,或有关如何叠加plotmeans()或plotCI()图形的建议。 代码样本 br=structure(list(tangle = c(140L, 50L, 40L, 140L, 90L, 70L, 110L, 150L, 150L, 110L, 110L, 50L, 90L, 140L, 110L, 50L, 60L, 40L, 40L, 130L, 120L, 140L, 70L, 50L, 140L, 120L, 130L, 50L, 40L, 80L, 140L, 100L, 60L, 70L, 50L, 60L, 60L, 130L, 40L, 130L, …


4
在R中标记箱线图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我需要构建一个没有任何轴的箱线图并将其添加到当前图线(ROC曲线)中,但是我需要向箱线图添加更多文本信息:最小和最大标签。当前代码行在下面(也是当前图形)。 非常感谢您的协助。 boxplot(data, horizontal = TRUE, range = 0, axes=FALSE, col = "grey", add = TRUE) 另一种解决方案是将线从0添加到1(而不是x轴),但是我希望它穿过中心线...例如,如下图所示
11 r  boxplot 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.