Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
大型稀疏矩阵上的降维(SVD或PCA)
/ edit:现在可以进行进一步跟进,您可以使用irlba :: prcomp_irlba / edit:跟进我自己的帖子。 irlba现在具有“中心”和“比例”自变量,可用于计算主成分,例如: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v 我Matrix想在机器学习算法中使用大量稀疏的功能: library(Matrix) set.seed(42) rows <- 500000 cols <- 10000 i <- unlist(lapply(1:rows, function(i) rep(i, sample(1:5,1)))) j <- sample(1:cols, length(i), replace=TRUE) M <- sparseMatrix(i, j) 因为此矩阵有很多列,所以我想将其维数减少到更易于管理的程度。我可以使用出色的irlba软件包执行SVD并返回前n个主要成分(此处显示5个;我可能会在实际数据集中使用100或500): library(irlba) pc <- irlba(M, nu=5)$u 但是,我已经读过在执行PCA之前,应该将矩阵居中(从每一列中减去列均值)。这在我的数据集上很难做到,而且会破坏矩阵的稀疏性。 对未缩放的数据执行SVD,并将其直接输入到机器学习算法中有多“糟糕”?在保留矩阵稀疏性的同时,是否有任何有效的方法可以缩放此数据? / edit:B_miner引起我注意的“ …


1
BUGS和R中的参数化对于哪些分布不同?
我发现一些BUGS和R具有不同参数化的分布:正态,对数正态和Weibull。 对于这些中的每一个,我都收集到R所使用的第二个参数需要在BUGS(在我的情况下为JAGS)中使用之前需要进行逆变换(1 /参数)。 有人知道当前存在的这些转换的完整列表吗? 我能找到的最接近的结果是将JAGS 2.2.0用户手册的表7中的分布与etc的结果?rnorm以及一些概率文本进行比较。这种方法似乎需要分别从pdf推导转换。 如果执行此任务,我希望避免执行此任务(以及可能的错误),否则,请从此处开始列表。 更新资料 基于Ben的建议,我编写了以下函数,将参数的数据帧从R转换为BUGS参数化。 ##' convert R parameterizations to BUGS paramaterizations ##' ##' R and BUGS have different parameterizations for some distributions. ##' This function transforms the distributions from R defaults to BUGS ##' defaults. BUGS is an implementation of the BUGS language, and these …


1
混合效果模型上的多重比较
我正在尝试使用混合效果模型分析一些数据。我收集的数据代表了一些不同基因型的年轻动物随时间的体重。 我正在使用此处提出的方法:https : //gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ 特别是我正在使用解决方案2 所以我有类似 require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) 现在,我想进行一些比较。使用multcomp我可以做到: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) 而且,当然,我可以随着时间做同样的事情。 我有两个问题: 如何mcp查看时间与基因型之间的相互作用? 我跑步时glht收到以下警告: covariate interactions found -- default contrast might be inappropriate 这是什么意思?我可以放心地忽略它吗?还是应该避免这种情况? 编辑: 我发现此PDF指出: 由于在这种情况下不可能自动确定感兴趣的参数,因此默认情况下,multcomp中的mcp()将仅针对主要效果生成比较,而忽略协变量和交互作用。从版本1.1-2开始,可以指定对交互项进行平均,并分别使用参数interact_average = TRUE和covariate_average = TRUE进行协变量,而早于1.0-0的版本将对交互项进行自动平均。但是,我们建议用户手动编写所需的对比集。每当对默认的对比度量有疑问时,都应该这样做,这通常发生在具有更高阶交互项的模型中。关于这个问题的进一步讨论和例子,我们参考许(1996),第7章,和塞尔(1971),第7.3章。 我没有那些书,但是也许有人在吗?

6
如何提高研究的长期可重复性(尤其是使用R和Sweave)
情境: 为了回应先前有关可重复研究的问题,杰克写道 创建JASA归档文件时发现的一个问题是CRAN软件包的版本和默认值已更改。因此,在该归档文件中,我们还包括了所用软件包的版本。当人们更改其包装时,基于小插图的系统可能会崩溃(不确定如何在《纲要》的包装中包括额外的包装)。 最后,我想知道当R本身改变时该怎么做。例如,是否有生产虚拟机的方法,该虚拟机可以复制用于纸张的整个计算环境,从而使虚拟机不会很大? 题: 有什么好的策略可确保可重现的数据分析在将来(例如发布后的五,十年或二十年)可重现? 具体来说,使用Sweave和R时,有什么好的策略可以最大程度地提高重复性? 这似乎与确保可重现的数据分析项目将在其他人的计算机上运行时使用的默认值,软件包等略有不同的问题有关。

2
R中随机森林分类中一组预测变量的相对重要性
我想确定变量集对randomForestR中的分类模型的相对重要性。该importance函数MeanDecreaseGini为每个单独的预测变量提供度量标准-是否像对集合中的每个预测变量求和一样简单? 例如: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

3
是否可以为套索回归模型计算AIC和BIC?
是否可以为套索回归模型和其他正则化模型(参数仅部分进入方程式)计算AIC或BIC值。如何确定自由度? 我正在使用R将套索回归模型与程序包中的glmnet()函数进行拟合glmnet,并且我想知道如何计算模型的AIC和BIC值。通过这种方式,我可以将值与没有正则化的模型拟合进行比较。这可能吗?
31 r  model-selection  lasso  aic  bic 

7
存在数百万个点时可以更有效地绘制数据的统计方法?
我发现当存在数百万个点时,R可能需要很长时间才能生成图-考虑到点是单独绘制的,这不足为奇。此外,这样的地块常常太杂乱,太密集而无法使用。许多点重叠并形成黑色块,并且花费大量时间在该块上绘制更多点。 在标准散点图中,有没有其他统计方法可以表示大数据?我考虑过密度图,但是还有哪些其他选择?ññn

2
什么是准二项式分布(在GLM中)?
我希望有人能够提供关于准二项式分布及其作用的直观概述。我对这些要点特别感兴趣: 准二项式与二项式分布有何不同。 当响应变量是一个比例(示例值包括0.23、0.11、0.78、0.98)时,准二项式模型将在R中运行,而二项式模型则不会。 当TRUE / FALSE响应变量过度分散时,为什么要使用准二项式模型。

2
lme和lmer比较
我想知道是否有人可以启发我了解这两个功能之间的当前区别。我发现以下问题:如何为混合效果模型选择nlme或lme4 R库?,但这要追溯到几年前。那是软件界的一生。 我的具体问题是: 有没有(还)任何相关结构,lme即lmer不处理? 可以/建议使用lmer面板数据吗? 道歉,如果这些是一些基本的。 更详细一点:面板数据是我们在不同时间对同一个人进行多次测量的地方。我通常在业务环境中工作,在该环境中,您可能拥有多年的回头客/长期客户数据。我们希望允许随时间的变化,但显然每个月或每年拟合一个虚拟变量效率低下。但是,我不清楚lmer对于这种数据是否合适的工具,或者我是否需要具有的自相关结构lme。

1
anova()命令对lmer模型对象有什么作用?
希望这是一个问题,在这里有人可以为我解答,该问题的本质是根据拟合的混合效应模型lmer(来自lme4 R软件包)分解平方和。 首先,我应该说我已经意识到使用这种方法的争议,在实践中,我更有可能使用自举LRT来比较模型(如Faraway,2006年所建议)。但是,我对如何复制结果感到困惑,因此出于我的理智,我想在这里问一下。 基本上,我正在使用lme4包装所适合的混合效果模型。我知道您可以使用该anova()命令来总结按顺序测试模型中的固定效果。据我所知,这就是Faraway(2006)所说的“预期均方”方法。我想知道的是平方和如何计算? 我知道我可以从特定模型中获取估计值(使用coef()),假设它们是固定的,然后使用有和没有感兴趣因素的模型残差平方和进行测试。这对于包含单个主题内因子的模型来说是很好的。但是,在实施分割图设计时,平方和值I get等于R通过aov()适当的Error()名称使用R生成的值。但是,尽管F比率相同,但这与命令在模型对象上产生的平方和并不anova()相同。 当然这是完全有意义的,因为Error()在混合模型中不需要分层。但是,这必须意味着在混合模型中对平方和进行某种程度的惩罚,以提供适当的F比率。如何实现的?模型如何以某种方式校正图间平方和而不校正图内平方和。显然,这是通过为不同效果指定不同的误差值而实现的经典分割图方差分析所必需的,那么混合效果模型如何做到这一点? 基本上,我希望能够自己复制anova()应用于lmer模型对象的命令的结果,以验证结果和我的理解,但是,目前,我可以针对常规的受试者内部设计实现此目标,而对于拆分主体则无法实现。情节设计,我似乎无法找出为什么是这种情况。 举个例子: library(faraway) library(lme4) data(irrigation) anova(lmer(yield ~ irrigation + variety + (1|field), data = irrigation)) Analysis of Variance Table Df Sum Sq Mean Sq F value irrigation 3 1.6605 0.5535 0.3882 variety 1 2.2500 2.2500 1.5782 summary(aov(yield ~ irrigation + variety + Error(field/irrigation), …


4
如何在R中使用PCA进行降维
我有一个大数据集,我想执行降维。 现在到处都有我可以使用PCA的信息。但是,在计算/执行PCA之后,我似乎仍然无所适从。在R中,可以通过命令轻松完成princomp。 但是计算完PCA后该怎么办?如果我决定要使用前主要成分,如何精确减少数据集?100100100
30 r  pca 

1
GAM中的张量积交互作用的直觉(R中的MGCV程序包)
广义加性模型是例如 的模型。功能是平稳的,并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包,作者(Simon Wood)用R实例写了一本关于他的软件包的书。Ruppert等。(2003年)写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作: 如果我们在OLS地(只是一个beta) ,解释不会有问题。如果我们通过罚样条进行估计,那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”,然后立即注视着试图阅读我所发现的解释。我不够聪明,或者数学解释得不好,或者两者兼而有之。 代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te(),也不知道如何解释上述很酷的输出。就在前一天晚上,我做了一场噩梦,正在开会。我给大家看了一个很酷的图表,他们问我这是什么意思,我不知道。然后我发现我没有衣服。 任何人都可以通过一些机械和直觉来帮助我和后代,以了解这里引擎盖下面的情况吗?理想情况下,要说说正常的加性相互作用情况与张量情况之间的区别?在继续学习数学之前,用简单的英语说所有东西的好处是。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.