Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

5
Matlab / octave或R是否更适合蒙特卡洛模拟?
我开始在R从事蒙特卡洛的业余爱好,但最终一位财务分析师建议迁移到Matlab。我是一位经验丰富的软件开发人员。但是是蒙特卡洛的初学者。我想用灵敏度分析来构造静态模型,然后再构造动态模型。需要指导我的好的库/算法。 在我看来,R具有出色的库,而且我怀疑mathlab被无经验的程序员所青睐,因为它具有类似于pascal的简单语言。R语言是基于方案的,这对初学者来说很难,但对我而言却不是。如果Matlab / Octave在数值/库方面没有优势,我会坚持使用R。
14 r  matlab  monte-carlo 

1
如何使年龄金字塔像R中的情节?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 年龄金字塔看起来像这样: 我想做类似的事情,即2个具有相同类别的条形图(不是直方图),它们像金字塔一样垂直旋转并向两侧延伸。 这是在R中执行此操作的简单方法吗? 控制每个条形的颜色也是很好的。


2
当选择的特征数量减少时,为什么随机森林OOB误差估计会提高?
我在微阵列数据集上应用随机森林算法作为分类器,将其分为两个已知的具有1000多个特征的组。初次运行后,我查看了这些功能的重要性,并使用5个,10个和20个最重要的功能再次运行树算法。 我发现,对于所有功能,前10位和前20位的OOB错误率估计为1.19%,而前5位功能的错误率为0%。 这对我来说似乎是违反直觉的,因此我想知道您是否可以解释我是否缺少某些内容或使用了错误的指标。 我在ntree = 1000,nodesize = 1和mtry = sqrt(n)中使用R中的randomForest包

3
R包用于固定效果逻辑回归
我正在寻找一个R使用Chamberlain的1980年估计量来估计具有单独固定效应(个体截距)的logit模型系数的软件包。它通常被称为张伯伦的固定效应logit估计器。 在处理二进制结果面板数据(至少在计量经济学中)时,这是一个经典的估算器,但我只是在CRAN中找不到与之相关的任何信息。 有什么线索吗?

2
来自混合效应模型的预测值周围的置信区间是什么意思?
我在看这个页面并注意到R中lme和lmer的置信区间方法。对于不了解R的人,这些是生成混合效果或多级模型的函数。如果我在重复测量设计等方面具有固定效果,那么围绕预测值(类似于均值)的置信区间意味着什么?我可以理解,对于一个效果,您可以有一个合理的置信区间,但是在我看来,在这样的设计中,围绕预期均值的置信区间似乎是不可能的。承认随机变量会导致估计中的不确定性这一事实可能很大,但在那种情况下,从推断的意义上比较各个值根本毫无用处。要么, 我是否在这里遗漏了一些东西,或者我对情况的分析是正确的?... [并且可能是为什么没有在lmer中实现(但很容易在SAS中实现)的理由。:)]

5
混合效应模型:比较分组变量各个级别的随机方差分量
假设我有参与者,每个参与者给出响应20次,一种情况为10次,另一种情况为10次。我拟合了一个线性混合效应模型,比较了每种情况下的这是一个可重现的示例,使用中的包来模拟这种情况:ÿ ÿñNNÿYYÿYYlme4R library(lme4) fml <- "~ condition + (condition | participant_id)" d <- expand.grid(participant_id=1:40, trial_num=1:10) d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental")) set.seed(23432) d <- cbind(d, simulate(formula(fml), newparams=list(beta=c(0, .5), theta=c(.5, 0, 0), sigma=1), family=gaussian, newdata=d)) m <- lmer(paste("sim_1 ", fml), data=d) summary(m) 该模型m产生两个固定效应(条件的截距和斜率)和三个随机效应(参与者的随机截距,条件的参与者随机斜率和截距-斜率相关性)。 我想在统计上比较由定义的各组参与者的随机截距方差的大小condition(即,在对照和实验条件下分别计算以红色突出显示的方差分量,然后测试各分量的大小是否存在差异不为零)。我将如何做(最好在R中)? 奖金 假设该模型稍微复杂一些:参与者各自经历10次刺激,每次20次,一种情况发生10次,另一种情况发生10次。因此,有两组交叉的随机效应:参与者的随机效应和刺激的随机效应。这是一个可重现的示例: library(lme4) fml <- "~ condition …

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

2
Logistic回归预测的输出
我使用以下代码创建了Logistic回归: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) 然后,我使用输出来创建最终模型: final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) 然后,我使用了预测函数预测了不同数据集的结果: log.pred.f.v <- …

2
R:glm函数,族=“二项式”和“重量”规格
我对体重与family =“ binomial”在glm中的工作方式非常困惑。在我的理解中,具有family =“ binomial”的glm的可能性指定如下: ,其中y是“观察到的成功比例”,n是已知的试验次数。ynf(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) yyynnn 以我的理解,成功概率ppp由一些线性系数\ beta参数ββ\beta化为p=p(β)p=p(β)p=p(\beta)并且glm函数带有family =“ binomial”搜索: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). 然后可以将此优化问题简化为: arg 最大β∑一世日志F(y一世)= arg 最大值β∑一世ñ一世[ y一世日志p (β)1 − p (β)- (- 日志(1 − …

3
R:我在gbm和RandomForest的部分依赖图中看到了什么?
实际上,我以为我已经理解了一个可以显示具有部分依赖图的图,但是使用一个非常简单的假设示例,我很困惑。在下面的代码块中,我生成了三个自变量(a,b,c)和一个因变量(y),其中c与y呈紧密线性关系,而a和b与y不相关。我使用R包使用增强的回归树进行回归分析gbm: a <- runif(100, 1, 100) b <- runif(100, 1, 100) c <- 1:100 + rnorm(100, mean = 0, sd = 5) y <- 1:100 + rnorm(100, mean = 0, sd = 5) par(mfrow = c(2,2)) plot(y ~ a); plot(y ~ b); plot(y ~ c) Data <- data.frame(matrix(c(y, a, b, …

3
使用R计算多元回归中每个预测变量所解释的方差
我进行了一次多元回归分析,该模型作为一个整体是有意义的,并解释了约13%的方差。但是,我需要找到每个重要预测变量所解释的方差量。如何使用R做到这一点? 以下是一些示例数据和代码: D = data.frame( dv = c( 0.75, 1.00, 1.00, 0.75, 0.50, 0.75, 1.00, 1.00, 0.75, 0.50 ), iv1 = c( 0.75, 1.00, 1.00, 0.75, 0.75, 1.00, 0.50, 0.50, 0.75, 0.25 ), iv2 = c( 0.882, 0.867, 0.900, 0.333, 0.875, 0.500, 0.882, 0.875, 0.778, 0.867 ), iv3 = c( …
14 r  regression  variance 

2
R中是否有一个函数可以获取找到的簇的中心并将簇分配给新数据集
我有一个多维数据集的两个部分,我们称它们为train和test。我想基于火车数据集构建一个模型,然后在测试数据集上对其进行验证。簇数是已知的。 我试图在R中应用k-means聚类,但得到了一个包含聚类中心的对象: kClust <- kmeans(train, centers=N, nstart=M) R中是否有一个功能可以获取找到的簇的中心并将簇分配给我的测试数据集? 我可以尝试其他哪些方法/算法?
14 r  clustering  k-means 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.