Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何最小化指数拟合的平方的剩余平方和?
我有以下数据,并希望对其采用负指数增长模型: Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), from = 0, to =45, add = T, col = "green", …

1
寻找一个使用R对二分数据(二元变量)进行因子分析的示例的步骤
我有一些二分数据,只有二进制变量,老板要求我使用四分相关矩阵进行因子分析。以前,我已经能够自学如何根据此处的示例以及UCLA的统计站点和其他类似站点进行不同的分析,但我似乎无法通过示例进行二分法因素分析使用R的数据(二进制变量)。 我确实看到了 chl对一个有点类似的问题的回答,也看到了ttnphns的回答,但是我正在寻找更详细的内容,这是我可以使用的示例的一步。 这里有人通过使用R对二进制变量进行因子分析的示例知道这一步骤吗? 更新2012-07-11 22:03:35Z 我还应该补充一点,我正在使用一个已建立的,具有三个维度的工具,我们在其中添加了一些其他问题,现在希望找到四个不同的维度。此外,我们的样本量仅为,目前我们有19个项目。我将样本量和项目数与许多心理学文章进行了比较,我们绝对处于较低端,但无论如何我们都想尝试一下。虽然,这对于我正在寻找的逐步示例和以下caracal的示例并不重要n=153n=153n=153191919看起来确实很棒。早上,我将首先使用数据来解决问题。

1
如何使用lmer估计具有随机效应的模型的方差成分并将其与lme结果进行比较
我进行了一项实验,从两个不同的来源人群中抚养了不同的家庭。每个家庭被分配两种治疗方法之一。实验结束后,我测量了每个人的几个特征。为了测试治疗或来源的效果以及它们之间的相互作用,我使用了以家庭为随机因素的线性混合效应模型,即 lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") 到目前为止,到目前为止,我现在必须计算相对方差分量,即通过处理或源以及交互作用来解释的变化百分比。 没有随机效应,我可以轻松地使用平方和(SS)来计算每个因素所解释的方差。但是对于混合模型(带有ML估计),没有SS,因此我认为我也可以使用Treatment和Source作为随机效应来估计方差,即 lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") 但是,在某些情况下,lme无法收敛,因此我使用了lme4软件包中的lmer: lmer(Trait~1+(Treatment*Source|Family),data=DATA) 在哪里使用摘要功能从模型中提取方差: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] 我得到与VarCorr函数相同的值。然后,我使用这些值以总和作为总变化量来计算实际的变化百分比。 我在努力挣扎的是对初始lme模型(以治疗和来源为固定效应)和随机模型以估计方差成分(以治疗和来源为随机效应)的结果的解释。我发现在大多数情况下,由每个因素解释的方差百分比与固定效应的重要性不符。 例如,对于性状HD,最初的lme暗示了相互作用的趋势以及对治疗的重要性。使用后退程序,我发现“治疗”有接近明显的趋势。但是,在估计方差成分时,我发现Source具有最高的方差,占总方差的26.7%。 LME: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF denDF F-value p-value (Intercept) 1 426 0.044523 0.8330 as.factor(Treatment) 1 426 5.935189 0.0153 as.factor(Source) 1 11 0.042662 0.8401 as.factor(Treatment):as.factor(Source) 1 426 3.754112 0.0533 和lmer: summary(lmer(HD~1+(as.factor(Treatment)*as.factor(Source)|Family),data=regrexpdat)) Linear mixed model fit by REML Formula: …
14 r  anova  variance  lme4-nlme 

5
用探索性因子分析解释R和SPSS之间的差异
我是计算机科学的研究生。我一直在为一个研究项目做一些探索性因素分析。我的同事(领导项目的人)使用SPSS,而我更喜欢使用R。这没关系,直到我们发现两个统计数据包之间存在重大差异。 我们使用主轴因子分解作为提取方法(请注意,我很清楚PCA和因子分析之间的区别,并且至少没有故意地没有使用PCA)。根据我的阅读,根据R文档,这应该对应于R中的“主轴”方法,以及SPSS中的“主轴分解”或“未加权最小二乘” 。我们使用一种倾斜旋转方法(特别是promax),因为我们期望相关因子,并且正在解释模式矩阵。 在R和SPSS中运行两个过程,存在主要差异。模式矩阵给出不同的负载。尽管这给变量关系带来了几乎相同的因素,但是在相应的载荷之间存在多达0.15的差异,这似乎比仅采用不同的提取方法和promax旋转实现的预期要大。但是,这并不是最惊人的差异。 由这些因素解释的累积方差在SPSS结果中约为40%,在R结果中约为31%。这是一个巨大的差异,这导致我的同事希望使用SPSS而不是R。我对此没有问题,但是相差很大,使我认为我们可能错误地解释了某些内容,这是一个问题。 当我们进行非加权最小二乘分解时,SPSS更加令人困惑,报告了不同类型的解释方差。初始特征值解释的方差的比例为40%,而平方负荷提取和(SSL)的解释方差的比例为33%。这使我认为初始特征值不是要查看的适当数字(我怀疑这是旋转之前解释的方差,尽管它太大了,超出了我的范围)。更令人困惑的是,SPSS还显示了旋转SSL,但没有计算出解释方差的百分比(SPSS告诉我,具有相关因子意味着我无法添加SSL来找到总方差,这与我所见的数学很有意义)。来自R的报告的SSL与这些都不匹配,R告诉我它描述了总方差的31%。R的SSL与轮换SSL最接近。来自原始相关矩阵的R的特征值确实与来自SPSS的初始特征值匹配。 另外,请注意,我一直在使用不同的方法,并且SPSS的ULS和PAF似乎最接近R的PA方法。 我的具体问题: 在使用因子分析实现的R和SPSS之间,我期望有多少差异? 我应该解释SPSS的哪些平方荷载总和,初始特征值,提取或旋转? 还有其他我可能会忽略的问题吗? 我对SPSS和R的呼叫如下: SPSS: FACTOR /VARIABLES <variables> /MISSING PAIRWISE /ANALYSIS <variables> /PRINT INITIAL KMO AIC EXTRACTION ROTATION /FORMAT BLANK(.35) /CRITERIA FACTORS(6) ITERATE(25) /EXTRACTION ULS /CRITERIA ITERATE(25) /ROTATION PROMAX(4). R: library(psych) fa.results <- fa(data, nfactors=6, rotate="promax", scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)

3
有人可以解释动态时间扭曲以确定时间序列相似性吗?
我正在尝试掌握动态时间扭曲量度以将时间序列一起比较。我有三个时间序列数据集,如下所示: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, 0.000447627573859, …

1
用于相等和不等式约束的约束优化库
对选择适合我的优化功能的约束优化库有什么建议吗?我正在最小化ai)具有线性等式和不等式约束的非线性函数,并且ii)具有函数的梯度和粗麻布。 如果有帮助,我要最小化的函数是Kullback-Liebler散度。 constrOptim仅处理不平等约束。Quadprog处理二次方。信任不支持约束。因此,KL差异不适合这些解决方案。 R Cran任务页面上有很多用于优化的解决方案。我能够使用fmincon()函数在MATLAB中执行优化,该函数似乎使用了内部点或信任区域反射。理想情况下,有一个非常适合定义的问题的库。

3
如何在R中使用Levene测试功能?
我是统计学和R的新手,使用Levene函数时遇到了麻烦(我想检查两个样本的方差是否相等)。文档说我应该运行: levene.test(y,组) 但是我不知道我应该作为y和group放置什么?我有两个不同的样本,我想检查方差是否相等。我是否应该将样本值之一作为y,将第二个值作为组参数? 有什么提示吗?

2
使用R(tm包)进行文本挖掘的示例
tm在阅读了一位朋友的草稿后,我花了三天时间,他在那儿用UCINET探索了文本语料库,显示了文本云,两模式网络图和单值分解(带有使用Stata的图形)。我遇到了很多问题:在Mac OS X上,诸如Snowball(填充)或Rgraphviz(图形)之类的库背后存在Java问题。 可能有人点出不包 -我已经看过tm,wordfish并wordscores和了解NLTK -但研究,如果可能的代码,在文本数据,成功地使用tm或别的东西来分析像议会辩论和立法文件数据?我似乎在这个问题上找不到太多的东西,甚至学到的代码也更少。 我自己的项目是为期两个月的议会辩论,这些变量以CSV文件形式提供:议会会议,发言人,议会小组,口头干预文本。我希望在演讲者之间,尤其是在议会团体之间,在使用罕见和较不罕见的术语时出现分歧,例如,“安全对话”与“公民自由”对话。
14 r  text-mining 

1
如何在mgcv GAM模型中调整平滑
我试图弄清楚如何在mgcv:gam模型中控制平滑参数。 我有一个二项式变量,我想主要将其建模为固定网格上x和y坐标的函数,以及一些其他影响较小的变量。过去,我使用locfit包和(x,y)值构建了一个相当不错的局部回归模型。 但是,我想尝试将其他变量合并到模型中,看起来通用加性模型(GAM)很有可能。看完gam和mgcv软件包后,它们都具有GAM功能,我选择了后者,因为邮件列表线程中的许多注释似乎都推荐它。缺点是它似乎不支持像黄土或locfit这样的局部回归平滑器。 首先,我只想尝试仅使用(x,y)坐标来复制locfit模型。我尝试使用常规和张量积平滑: my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, y), family=binomial(logit), data=my.data, scale = -1) 但是,绘制来自模型的预测,与locfit模型相比,它们要平滑得多。因此,我一直在尝试调整模型,使其不会过度平滑。我曾尝试过调整参数sp和k,但是我不清楚它们如何影响平滑度。在locfit中,nn参数控制所使用邻域的跨度,较小的值允许较少的平滑和更多的“摆动”,这有助于捕获网格上二项式结果的概率快速变化的某些区域。我将如何设置gam模型以使其表现相似?
14 r  smoothing  mgcv 

2
合并/减少序数或名义数据类别的方法?
我正在努力寻找一种方法来减少名义或有序数据中的类别数量。 例如,假设我要在具有多个名义和有序因素的数据集上构建回归模型。尽管此步骤没有问题,但我经常遇到这样的情况:名义特征在训练集中没有观测值,但随后存在于验证数据集中。当模型出现(到目前为止)看不见的情况时,这自然会导致错误。我想要合并类别的另一种情况是,当类别过多而观察不到时。 所以我的问题是: 虽然我认识到最好根据它们代表的先前真实世界的背景信息来组合许多名义(和次序)类别,但是否有系统的方法(R最好是软件包)可用? 您将针对阈值等提出什么指导和建议? 文学中最受欢迎的解决方案是什么? 除了将较小的名义类别合并为新的“ OTHERS”类别之外,还有其他策略吗? 如果您还有其他建议,请随时输入。

6
R中获取由标识符分组的数据帧的第一行的快速方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 有时,我只需要按标识符将数据集的第一行获取,例如当每个人有多个观察值时检索年龄和性别时。在R中最快(或最快)的方法是什么?我在下面使用了aggregate(),并怀疑还有更好的方法。在发布此问题之前,我在Google上进行了一些搜索,发现并尝试了ddply,但感到惊讶的是它运行速度极慢,并给我数据集上的内存错误(400,000行x 16列,7,000个唯一ID),而aggregate()版本相当快。 (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # 1 30 1 # 2 40 0 # 2 40 0 # 3 35 1 # 3 35 1 ag <- data.frame(ID=levels(dx$ID)) ag <- …
14 r  dataset  aggregation  plyr 

2
根据任意分布计算p值
我希望这不是一个愚蠢的问题。假设我有一些任意的连续分布。我也有一个统计信息,我想使用此任意分布来获取此统计信息的p值。 我意识到,只要您的发行版适合内置发行版之一,就可以很容易地在R中执行此操作,就像正常情况一样。但是,是否有一种简单的方法可以对任何给定的分布执行此操作,而无需进行这种假设?

2
解释R中的drop1输出
在R中,drop1命令输出整洁的东西。 这两个命令应该为您提供一些输出: example(step)#-> swiss drop1(lm1, test="F") 我的看起来像这样: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.