Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
在R中检查假设lmer / lme混合模型
我进行了重复的设计,在三个不同的任务中测试了30位男性和30位女性。我想了解男性和女性的行为有何不同,以及如何取决于任务。我同时使用了lmer和lme4软件包对此进行了研究,但是,我坚持尝试检查两种方法的假设。我运行的代码是 lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 通过将其与没有交互的较简单模型进行比较并运行方差分析,我检查了交互是否是最佳模型: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) 问题1:可以在线性混合模型中使用这些分类预测变量吗? 问题2:我是否正确理解结果变量(“行为”)不需要本身正态分布(跨性别/任务)吗? 问题3:如何检查方差的均匀性?对于简单的线性模型,我使用plot(LM$fitted.values,rstandard(LM))。使用plot(reside(lm.base1))足够了吗? Q4:检查正常使用下面的代码好吗? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

2
如何使用R prcomp结果进行预测?
我有一个800 obs的data.frame。的40个变量,并希望使用主成分分析来改善我的预测结果(到目前为止,这在支持向量机上对大约15个手工挑选的变量效果最好)。 我了解prcomp可以帮助我改善预测,但是我不知道如何使用prcomp函数的结果。 我得到结果: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 0.0446 …
25 r  pca 

1
“内核密度估计”是什么的卷积?
我试图更好地了解内核密度估计。 使用Wikipedia中的定义:https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) 让我们以是一个矩形函数赋予如果是间和和否则,和(窗口大小)为1。1 x − 0.5 0.5 0 小时K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 我知道密度是两个函数的卷积,但是我不确定我如何定义这两个函数。其中一个应该(可能)是数据的函数,对于R中的每个点,它告诉我们该位置有多少个数据点(大多数为)。而另一个函数可能应该是对内核函数的修改,并结合窗口大小。但是我不确定如何定义它。000 有什么建议么? 贝娄是一个R代码示例,(我怀疑)它复制了我上面定义的设置(两个高斯的混合物,),我希望在此上看到一个“证明”,证明要卷积的函数是我们怀疑的。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

1
Calinski&Harabasz(CH)准则的可接受值是多少?
我已经进行了数据分析,试图使用R和kml包对纵向数据进行聚类。我的数据包含约400条单独的轨迹(在本文中称为)。您可以在下图中看到我的结果: 阅读相应论文中的第2.2章“选择最佳数量的群集”后,我没有得到任何答案。我希望有3个簇,但CH仍为80时结果仍然可以。实际上,我什至不知道CH值代表什么。 所以我的问题是,Calinski&Harabasz(CH)准则的可接受值是多少?

3
R是否适用于生产(部署)代码
我已经阅读了许多有关R,R和R的公司的文章,例如Google,Facebook和许多其他公司。我读过的另一种情况是,公司使用R来对分析解决方案进行原型设计,然后以另一种语言重新实现。 我正在尝试查找有关使用R进行实际生产分析代码的公司的文献。用例可能是推荐系统,用户可以通过网页与之交互,该网页从远程服务器上执行的R脚本获取响应。我在查找此类报告时遇到困难,这使我想知道是否不建议这样做。如果可以,为什么?
25 r  references 

3
如何在R中测量时间序列的平滑度?
有没有一种好的方法可以测量R中时间序列的平滑度?例如, -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 比...光滑得多 -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 尽管它们具有相同的均值和标准差。如果有一个函数可以在一个时间序列上给我一个平稳的分数,那就太酷了。
25 r  time-series 

3
泊松回归的残差与拟合值的解释图
我试图用R中的GLM(泊松回归)拟合数据。当我绘制残差与拟合值时,该图创建了多个(几乎是线性的,带有轻微的凹曲线)“线”。这是什么意思? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays + hscore + chcond1 + chcond2, family=poisson, data=dvisits) plot(modl)

6
有关R的统计资料参考书-是否存在,并且应包含什么?
背景 围绕此问题进行了很多讨论,因此我认为我可以从StackExchange的早期版本以及通过疯狂地搜索来找到答案。经过半天的尝试,我只为R找到了一本关于(生物)统计的参考书,但我完全感到困惑,不得不放弃。也许免费材料的组合实际上比您现在可以购买的任何书都要好。让我们找出答案。 互联网上充斥着许多不错的R语言免费文学作品,因此,平庸的书实在是没有意义的,因为平庸的书大部分时间都被用作办公装饰。R主页站点列出了与R相关的书籍,其中有很多。更准确地说:115.其中只有一个广告标有“ 独立统计参考书 ”。现在已经8岁了,可能已经过时了。带S的《现代应用统计》的第四版甚至更旧。R书经常被认为过于基础,因此不推荐使用,因为缺乏参考,格式不良的代码和草率的处理。 但是,我正在寻找一本书,该书可以用作对带有R(第二)的实用统计(第一和第一)的独立参考。这本书应该放在我的办公室桌上,收集注解,咖啡渍和油腻的指纹,而不是书架上的灰尘。它应该取代我到目前为止一直在使用的免费pdf集合,不要忘记R带有出色的参考库。“ 正确的方法是什么?”,“ 为什么?“和‘ 在技术上,它是如何工作的? ’往往更迫切问题不是‘ 怎么有R办呢? ’ 由于我是生态学家,所以我对生物统计学的应用最感兴趣。但是,由于这些东西经常联系在一起,因此跨学科的一般性参考对我来说将是最有价值的。 任务 如果存在这样的书(我对此表示怀疑),请提供该书的名称(每个答案仅一个),并简要介绍该书,以解释为什么应将其命名为该主题的参考书。由于此问题与现有问题并没有太大不同,请使用此提示进行回答。您还可以列出书中的缺陷,以便我们将其列为理想参考书的功能。 我的问题是带有R的(最常用的)统计参考书应包含哪些内容? 一些初步的想法是遵循以下一般功能(请更新): 蠢如顽石 简洁但可以理解 填满数字(提供R代码) 易于理解的表格和图表描述了文本中最重要的细节 易于理解的有关统计/方法的描述性文字,其中包含最重要的方程式。 每种方法的良好示例(带有R代码) 广泛而最新的参考文献清单 最少错别字 目录 由于我不是统计学家,因此需要此书(不存在吗?)来回答这个问题,因此我很难写出内容。因为R书显然打算成为R的统计参考书,但经常遭到批评,所以我从书中复制了目录,以此作为独立R统计参考书的目录的起点。附加任务:请为目录提供补充,建议,删除等。 入门 R语言基础 数据输入 数据框 图形 桌子 数学 古典测验 统计建模 回归 方差分析 协方差分析 广义线性模型 计数数据 表中数据计数 比例数据 二进制响应变量 广义加性模型 混合效应模型 非线性回归 树模型 时间序列分析 多元统计 …
25 r  references 



4
Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?
在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说: 数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。 幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?

2
我什么时候不应该对MLE使用R的nlm函数?
我遇到了一些指南,建议我使用R的nlm进行最大似然估计。但是,它们中的任何一个(包括R的文档)都没有给出何时使用或不使用该功能的大量理论指导。 据我所知,nlm只是沿牛顿方法进行梯度下降。是否有合理的时间使用这种方法的原则?有哪些替代方法?另外,对数组的大小是否有限制,等等。可以传递给nlm吗?

2
R中的似然比检验
假设我要对几个自变量进行单变量逻辑回归,如下所示: mod.a <- glm(x ~ a, data=z, family=binominal("logistic")) mod.b <- glm(x ~ b, data=z, family=binominal("logistic")) 我进行了模型比较(似然比检验),以查看该命令是否比空模型更好 1-pchisq(mod.a$null.deviance-mod.a$deviance, mod.a$df.null-mod.a$df.residual) 然后我建立了一个包含所有变量的模型 mod.c <- glm(x ~ a+b, data=z, family=binomial("logistic")) 为了查看变量在多变量模型中是否具有统计意义,我使用了以下lrtest命令epicalc lrtest(mod.c,mod.a) ### see if variable b is statistically significant after adjustment of a lrtest(mod.c,mod.b) ### see if variable a is statistically significant after …
25 r  logistic  diagnostic 

2
在多问题考试中检测作弊方式
题: 我有关于考试题的二进制数据(正确/不正确)。一些人可能事先有问题的一部分和正确答案。我不知道是谁,多少或哪个。如果没有作弊,则假设我将对项目做出正确响应的概率建模为,其中代表问题难度,是个人的潜在能力。这是一个非常简单的项目响应模型,可以使用R中ltm的rasch()之类的函数进行估算。除了潜在变量的(其中索引个体)之外,我还可以访问单独的估算值\ hat {q} _j升ø 克我吨((p 我 = 1 | Ž ))= β 我 + ž β 我 Ž Ž Ĵ Ĵ q Ĵ一世一世i升Ø克我吨((p一世= 1 |ž))= β一世+ z升ØG一世Ť((p一世=1个|ž))=β一世+žlogit((p_i = 1 | z)) = \beta_i + zβ一世β一世\beta_ižžzž^Ĵž^Ĵ\hat{z}_jĴĴjq^Ĵq^Ĵ\hat{q}_j 相同潜变量的变量,这些变量是从另一个不可能作弊的数据集中得出的。 目的是确定可能被欺骗的个人及其被欺骗的物品。您可能会采取哪些方法?除了原始数据之外,β^一世β^一世\hat{\beta}_i,ž^Ĵž^Ĵ\hat{z}_j和q^Ĵq^Ĵ\hat{q}_j都可用,尽管前两个由于作弊会有所偏差。理想情况下,解决方案将采用概率聚类/分类的形式,尽管这不是必需的。实践思想和形式方法都受到高度欢迎。 到目前为止,我已经比较了q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j -\hat{z}_j 分数较高或较低的成对个体的问题分数的相关性(其中q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j - \hat{z}_j 为他们被骗的可能性的粗略指标)。例如,我用\ hat {q} _j-\ hat …

1
比较R中发生GLM后的因素水平
以下是有关我的处境的一些背景信息:我的数据是指被捕食者成功吃掉的猎物的数量。由于每个试验中猎物的数量都是有限的(可用25个),因此我有一列“ Sample”代表可用猎物的数量(因此,每个试验中有25个),另外一个名为“ Count”的数字表示成功的数量(吃了多少猎物)。我的分析基于R书中有关比例数据的示例(第578页)。解释变量是温度(4个级别,我将其视为因素)和捕食者的性别(显然是雄性还是雌性)。所以我最终得到这个模型: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) 得出“偏差分析”表后,事实证明,温度和性别(但不存在相互作用)对猎物的消耗有显着影响。现在,我的问题是:我需要知道哪个温度不同,即,我必须将这四个温度相互比较。如果我有线性模型,则可以使用TukeyHSD函数,但由于使用的是GLM,所以不能。我一直在浏览MASS软件包,并尝试建立一个对比度矩阵,但是由于某种原因它不起作用。有什么建议或参考吗? 这是我从模型中获得的摘要,如果可以使它更清楚…… y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.