Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。


2
为什么lrtest()与anova(test =“ LRT”)不匹配
我一直在寻找在R中进行似然比测试以比较模型拟合的方法。我首先自己编写了代码,然后在包中找到了默认anova()功能。但是,当我检查时,即使将“ test”参数设置为“ LRT” ,也总是会产生与其他两个略有不同的p值。实际上是在执行一些微妙的不同测试,还是我不了解某些内容?lrtest()lmtestanova()anova() 平台:在Linux Mint 17 lmtest版本0.9-33 上运行的R 3.2.0 样例代码: set.seed(1) # Reproducibility n=1000 y = runif(n, min=-1, max=1) a = factor(sample(1:5, size=n, replace=T)) b = runif(n) # Make y dependent on the other two variables y = y + b * 0.1 + ifelse(a==1, 0.25, 0) mydata = …

1
glmnet logistic回归可以直接处理因子(类别)变量而不需要虚拟变量吗?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 我正在使用LASSO方法在R中构建逻辑回归,并具有cv.glmnet用于选择lambda和glmnet用于最终模型的功能。 我已经知道关于自动模型选择的所有缺点,但是无论如何我都需要这样做。 我的问题是我需要在模型中包括因子(分类)变量,有什么方法可以在不创建大量虚拟变量的情况下做到这一点?此变量几乎是所有字符串,而不是数字。

1
仅观察一次的随机效应将如何影响广义线性混合模型?
我有一个数据集,在该数据集中,我想用作随机效果的变量在某些级别上只有一个观察值。基于对先前问题的回答,我认为原则上可以。 我可以将混合模型与只有1个观察值的对象拟合吗? 随机截距模型-每个科目一次测量 但是,在第二个链接中,第一个答案指出: “ ...假设您没有使用广义线性混合模型GLMM,在这种情况下,过度分散的问题将发挥作用” 我正在考虑使用GLMM,但我真的不了解单次观察的随机效应水平将如何影响模型。 这是我要拟合的模型之一的示例。我正在研究鸟类,我想模拟人口和季节对迁徙期间停留次数的影响。我想将个人用作随机效应,因为对于某些个人,我拥有长达5年的数据。 library(dplyr) library(lme4) pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", …

3
β随机变量的反正态CDF遵循什么分布?
假设您定义: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) 其中Φ−1Φ−1\Phi^{-1}是的逆标准正态分布的CDF。 我的问题是:Y是否遵循简单分布,或者可以近似于Y?YYYYYY我问,因为我有一个基于模拟结果强烈怀疑(如下图所示),其YYY收敛为正态分布时,αα\alpha和ββ\beta都很高,但我不知道为什么它会数学。(当然,当α=1;β=1α=1;β=1\alpha=1;\beta=1,XXX将是均匀的,而YYY将是标准法线,但是为什么对于更高的值会成立呢?) 如果确实收敛到法线,那么就αα\alpha和而言,该法线的参数是什么ββ\beta?(我预计平均将Φ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})因为那是模式的变换,但我不知道标准差)。 (换句话说,这可能会问“ 对于μ和σ的某个方向,Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))收敛到beta分布吗?”我不确定这是否更容易回答)。μμ\muσσ\sigma 仿真结果 在这里,我展示了为什么我怀疑结果是正常的(因为我无法用数学来支持它)。可以使用和在R中完成模拟。例如,选择较高的参数α = 3000和β = 7000:YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) 这看起来很正常,qqnorm与夏皮罗-威尔克测试(其中正常是零假设),建议左右为好: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 为了更深入地探讨正态性,我执行了2,000次仿真,每次都模拟 5,000个值,然后执行测试以将其与正常值进行比较。(我选择5K值是因为这是可以处理的最大值,并且可以最大程度地检测出偏离规范的能力)。YYYshapiro.test 如果分布确实是正态分布,我们将期望p值是均匀的(因为null为true)。它们确实接近均匀,表明分布非常接近正态: hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, …

2
通过插入号和基本randomForest包从randomForest获得不同的结果
我有点困惑:经过插入符号训练的模型的结果与原始包装中的模型有什么不同?我阅读了使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?但我在这里不使用任何预处理。 我通过使用插入符号包并调整了不同的mtry值来训练了不同的随机森林。 > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, method = "rf", metric="ROC", tuneGrid = newGrid) > curClassifier = classifierRandomForest 我发现mtry = …

1
从exp(系数)到几率及其对数Logistic回归的解释
我根据SAT分数和家庭/种族背景对大学的录取率进行了线性回归。数据是虚构的。这是对先前已回答问题的跟进。这个问题的重点是在为简单起见而撇开SAT分数时收集和解释优势比的方法。 变量是Accepted(0或1)和Background(“红色”或“蓝色”)。我设置了数据,以便具有“红色”背景的人们更容易进入: fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 问题: 0.7是接受“蓝色”背景的人的比例吗?我之所以这样问是因为,Backgroundblue如果我改为运行以下代码,也会获得0.7的“ ”: fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit))) 甲Ç Ç é p 吨ë d / [R ë d :阿Ç Ç é p 吨ë d /乙升ù ë一种CCËpŤËd/[RËd:一种CCËpŤËd/乙升üË\rm …
14 r  regression  logistic 

3
如何计算经验概率密度之间的重叠?
我正在寻找一种方法来计算R中两个内核密度估计之间的重叠区域,以度量两个样本之间的相似性。为了澄清,在下面的示例中,我需要量化紫色重叠区域的面积: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 这里讨论了一个类似的问题,不同之处在于我需要对任意经验数据而不是预定义的正态分布进行此操作。该overlap软件包解决了这个问题,但显然仅用于时间戳记数据,这对我不起作用。Bray-Curtis索引(在vegan包的vegdist(method="bray")函数中实现)似乎也很相关,但对于有些不同的数据也是如此。 我对理论方法和我可能会采用的R函数都感兴趣。

1
似然比测试-LMER R-非嵌套模型
我目前正在审查一些工作,遇到了以下问题,这对我来说似乎是错误的。使用lmer拟合了两个混合模型(在R中)。这些模型是非嵌套的,并通过似然比测试进行比较。简而言之,这是我拥有的可复制示例: set.seed(105) Resp = rnorm(100) A = factor(rep(1:5,each=20)) B = factor(rep(1:2,times=50)) C = rep(1:4, times=25) m1 = lmer(Resp ~ A + (1|C), REML = TRUE) m2 = lmer(Resp ~ B + (1|C), REML = TRUE) anova(m1,m2) 据我所知,它lmer被用来计算对数似然,并且该anova语句使用具有通常自由度的卡方来测试模型之间的差异。这对我来说似乎不正确。如果是正确的话,有人知道有什么参考可以证明这一点吗?我知道依赖模拟的方法(Lewis等人的论文,2011年)和Vuong(1989年)开发的方法,但是我不认为这是在这里产生的。我认为该anova陈述的使用不正确。

3
在随机森林模型中加权最近的数据
我正在使用随机森林训练一个分类模型,以区分6个类别。我的交易数据大约有6万多个观察值和35个变量。这是一个大致的示例。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 | …

3
我可以根据样本大小以及最小值和最大值重建正态分布吗?我可以使用中点来代表均值
从统计上讲,我知道这可能有些困难,但这是我的问题。 我有很多范围数据,即变量的最小,最大和样本大小。对于其中一些数据,我也有一个平均值,但并不多。我想将这些范围相互比较,以量化每个范围的变异性,并比较均值。我有充分的理由假设分布在均值周围是对称的,并且数据将具有高斯分布。因此,我想我可以证明在没有均值时使用分布的中点作为均值的代理。 我想做的是为每个范围重建一个分布,然后使用该分布为该分布提供标准偏差或标准误差。我仅有的信息是从样本中观察到的最大值和最小值,以及将中点作为平均值的代表。 这样,我希望能够基于我拥有的范围数据和我的假设(对称分布和正态分布)来计算每组的加权均值,并计算出每组的变异系数。 我打算使用R来做到这一点,因此任何代码帮助也将不胜感激。


3
通过多项式回归了解置信带
我试图理解我在下面的图中看到的结果。通常,我倾向于使用Excel并获得线性回归线,但在以下情况下,我使用R并通过以下命令获得多项式回归: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 所以我的问题可以归结为: 蓝色回归线周围的灰色区域(箭头1)是什么?这是多项式回归的标准偏差吗? 我可以说灰色区域(箭头2)外部的任何东西都是“离群值”,而灰色区域(箭头3)内部的所有东西都在标准偏差之内吗?

3
每叶具有线性回归模型的回归树算法
简短版:我正在寻找可以构建决策树的R包,而决策树中的每个叶子都是完整的线性回归模型。AFAIK,该库rpart创建决策树,其中因变量在每个叶子中都是恒定的。是否存在rpart可以构建此类树的另一个库(或我不知道的设置)? 加长版:我正在寻找一种基于训练数据集构建决策树的算法。树中的每个决策根据自变量之一的条件将训练数据集分为两部分。树的根包含完整的数据集,并且数据集中的每一项仅包含在一个叶节点中。 该算法如下所示: 从完整的数据集开始,该数据集是树的根节点。选择这个节点,并调用它。NNN 在的数据上创建线性回归模型。NNN 如果的的线性模型比某个阈值更高,那么我们已处理完毕的,所以标记作为叶并跳转到步骤5。R2R2R^2NNNθR2θR2\theta_{R^2}NNNNNN 尝试随机决策,然后选择在子节点中产生最佳决策: nnnR2R2R^2 选择一个随机独立变量,以及一个随机阈值θ 我。viviv_iθiθi\theta_i 决定拆分所述数据集的Ñ成两个新节点,Ñ和〜Ñ。vi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} 创建两个线性回归模型Ñ和〜Ñ,并计算它们的- [R 2(它们调用ř和〜- [R )。N^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} 从所有这些元组(v 我,θ 我,- [R , 〜 - [R )中,选择一个具有最大米我Ñ ([R , 〜 - [R )。 这就产生了树一个新的决定,并ñ有两个新的子节点ñ和〜ñ。nnn(vi,θi,r^,r~)(vi,θi,r^,r~)(v_i, \theta_i, \hat{r}, \tilde{r})min(r^,r~)min(r^,r~)min(\hat{r}, \tilde{r})NNNN^N^\hat{N}N~N~\tilde{N} 我们已经完成了处理。选择一个尚未处理的新节点N,然后返回步骤2。如果所有节点均已处理,则算法结束。NNNNNN 这将以递归方式建立决策树,将数据分成较小的部分,并在每个部分上计算线性模型。 步骤3是退出条件,可以防止算法过度拟合。当然,还有其他可能的退出条件: 出口如果的树中的深度为上述θ d Ë p 吨ħNNNθdepthθdepth\theta_{depth} 出口如果在数据集中小于θ d 一吨一个小号ë 吨NNNθdatasetθdataset\theta_{data …
14 r  regression  rpart  cart 

1
R中的非线性混合效应回归
令人惊讶的是,我无法使用Google找到以下问题的答案: 我有一些个体的生物学数据,这些数据显示了乙状结肠的及时生长行为。因此,我希望使用标准的物流增长对其进行建模 P(t) = k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)) 其中p0是t = 0处的起始值,k是t-> infinity处的渐近极限,r是生长速度。据我所知,我可以使用nls对此模型轻松地建模(我缺乏理解:为什么我不能通过缩放时间和数据来使用标准logit回归建模类似的东西?感谢:Nick,显然人们这样做了,例如比例,但很少见http://www.stata-journal.com/article.html?article=st0147。关于此切线的下一个问题是模型是否可以处理> 1的离群值。 现在,我希望允许对三个参数k,p0和r进行固定(主要是分类)和随机(单个ID,还可能是研究ID)影响。nlme是这样做的最好方法吗?SSlogis模型对于我想做的事情似乎很明智,这是正确的吗?以下任一个是明智的模型吗?我似乎无法正确设置起始值,并且update()仅适用于随机效果,而不适用于固定效果-有任何提示吗? nlme(y ~ k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)), ## not working at all (bad numerical properties?) data = data, fixed = k + p0 + r ~ var1 + var2, random = k + p0 + r ~ 1|UID, start …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.