Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
通过逻辑回归和对数线性回归估计的系数何时有所不同?
在对连续比例建模时(例如,在调查样方上的比例植被覆盖,或从事某项活动的时间比例),逻辑回归被认为是不合适的(例如,Warton&Hui(2011)反正弦是精氨酸:生态学中比例的分析)。相反,对数转换比例后的OLS回归或beta回归更为合适。 使用R lm和时,在什么条件下对数线性回归和对数回归的系数估计不同glm? 以下面的模拟数据集为例,我们可以假定它们p是我们的原始数据(即连续比例,而不是表示):ñS ^ ü ç ç è 小号小号Ë 小号ñ吨ř 我一升小号ñsüCCËssËsñŤ[R一世一种升s{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) p <- plogis(logit.p) plot(p ~ x, ylim=c(0, 1)) 拟合对数线性模型,我们获得: summary(lm(logit.p ~ x)) ## ## Call: ## lm(formula = …
11 r  regression  logistic 

1
R-套索回归-每个回归者的Lambda不同
我要执行以下操作: 1)OLS回归(无惩罚项)以获得beta系数;代表用于回归的变量。我这样做 Ĵb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2)带惩罚项的套索回归,选择标准应为贝叶斯信息标准(BIC),由 λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} 其中代表变量/回归数,代表观察数,代表步骤1)中获得的初始beta。我想获得此特定值的回归结果,该值对于使用的每个回归变量都不同。因此,如果存在三个变量,则将存在三个不同的值。Ť b * Ĵ λ Ĵ λ ĴjjjTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j 然后通过以下公式给出OLS-Lasso优化问题 中号我Ñb ε - [Rñ= { ∑t = 1Ť(yŤ− b⊤XŤ)2+ T∑j = 1米(λŤ| bĴ| ) }minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} )^{2} …
11 r  regression  glmnet  lars 

1
具有完全成功的分类变量的二项式glmm
我正在运行带有二项式响应变量和分类预测变量的glmm。随机效果由用于数据收集的嵌套设计给出。数据如下所示: m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …

1
我的ACF图告诉我有关数据的什么信息?
我有两个数据集: 我的第一个数据集是相对于时间的投资价值(十亿美元),每个单位时间是自1947年第一季度以来的四分之一。时间一直延伸到2002年第三季度。 我的第二个数据集是“将[第一个数据集]中的投资值转换为近似平稳过程的结果”。 第一组数据和第二组数据 相应的ACF图: 我知道这些情节是正确的,因此请我“对其进行评论”。我对自动相关功能还比较陌生,我也不完全确定它能告诉我有关我的数据的信息。 如果有人可以花时间简短地解释一下,将不胜感激。

1
R中的蒙特卡洛模拟
我正在尝试解决以下练习,但实际上我不知道如何开始执行此操作。我在书中找到了一些看起来像这样的代码,但这是完全不同的练习,我不知道如何将它们彼此关联。如何开始模拟到达,如何知道到达的时间?我知道如何存储它们,并据此计算a,b,c,d。但我不知道我实际需要如何模拟蒙特卡洛模拟。有人可以帮我开始吗?我知道这不是一个可以为您解答所有问题的地方,而是可以解决的。但是问题是我不知道如何开始。 一个IT支持服务台代表一个排队系统,由五名助手接听客户的电话。这些呼叫根据Poisson进程进行,平均每45秒发出一次呼叫。第1个,第2个,第3个,第4个和第5个助手的服务时间分别是参数为λ1= 0.1,λ2= 0.2,λ3= 0.3,λ4= 0.4和λ5= 0.5 min-1的指数随机变量(第j个服务台助理的λk= k / 10 min-1)。除了受帮助的客户外,最多可以保留十个其他客户。在达到此容量时,新的呼叫者会收到忙音。使用蒙特卡洛方法估算以下性能特征, (a)收到繁忙信号的客户比例; (b)预期的响应时间; (c)平均轮候时间; (d)每个服务台助理服务的客户部分; 编辑:我到目前为止(不是很多): pa = 1/45sec-1 jobs = rep(1,5); onHold = rep(1,10); jobsIndex = 0; onHoldIndex = 0; u = runif(1) for (i in 1:1000) { if(u <= pa){ # new arrival if(jobsIndex < 5) # …

1
在左侧删节的数据上使用标准的机器学习工具
我正在开发一个预测应用程序,其目的是允许进口商预测其分销商客户网络对其产品的需求。只要有足够的库存来满足需求,销售数字就可以很好地满足需求。但是,当库存减少到零时(我们正在努力帮助客户避免这种情况),我们对错过目标的了解并不多。如果客户有足够的供应量,他们将进行多少次销售?使用Sales作为简单目标变量的基于标准回归的ML方法将对时间,我的描述性变量和需求之间的关系产生不一致的估计。 Tobit建模是解决该问题的最明显方法:http : //en.wikipedia.org/wiki/Tobit_model。我想知道随机森林,GBMS,SVM和神经网络的ML适应性也占数据的左手检查结构的原因。 简而言之,如何将机器学习工具应用于左删失的回归数据,以获得对因变量和自变量之间关系的一致估计?首先是R中可用的解决方案,其次是Python。 干杯, 亚伦


2
什么是lme4 :: lmer等同于三向重复测量方差分析?
我的问题基于此回答,该回答表明哪个lme4::lmer模型对应于两次重复测量方差分析: require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) 我现在的问题是如何将其扩展到三向方差分析的情况: …

6
R或Python中在无监督学习中执行特征选择的方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 R / Python中有哪些可用的方法/实现来丢弃/选择数据中不重要/重要的功能?我的数据没有标签(无监督)。 数据具有约100种混合类型的要素。一些是数字的,而另一些是二进制的(0/1)。

1
PCA和PLS中的“负荷”和“相关负荷”有什么区别?
做主成分分析(PCA)时,要做的一件事是相互绘制两个载荷以研究变量之间的关系。在随附的用于进行主成分回归和PLS回归的PLS R软件包的论文中,有一个不同的图,称为相关负荷图(请参见本文中的图7和第15页)。的相关性装载,因为它是解释的,是分数之间和实际观察到的数据的相关性(从PCA或PLS)。 在我看来,加载和相关加载非常相似,只是它们的缩放比例有所不同。使用内置数据集mtcars的R中的可重现示例如下: data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], correlationloadings[,2], xlim=c(-1,1), ylim=c(-1,1), main='Correlation Loadings for PC1 vs. PC2') 这些图的解释有什么区别?哪种曲线图(如果有的话)最适合在实践中使用?

3
ARIMA干预传递函数-如何可视化效果
我有一个干预措施的每月时间序列,我想量化此干预措施对结果的影响。我意识到该系列非常短,效果尚未得出结论。 数据 cds <- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim=c(29L, 1L), .Dimnames=list(NULL, "CD"), .Tsp=c(2012, 2014.33333333333, 12), class="ts") 方法论 1)该auto.arima功能使用了干预前系列(直到2013年10月)。建议的模型为ARIMA(1,0,0),均值非零。ACF图看起来不错。 pre <- window(cds, start=c(2012, 01), end=c(2013, 09)) …

1
测试两个回归系数是否显着不同(理想情况下为R)
如果这是一个重复的问题,请指出正确的方法,但是我在这里发现的相似问题还不够相似。假设我估计模型Y=α+βX+uY=α+βX+uY=\alpha + \beta X + u 并找到。但是,事实证明,我怀疑,尤其是。因此,我估计了模型并找到了重要证据。然后如何测试是否?我考虑过运行另一个回归并测试。这是最好的方法吗?X = X 1 + X 2 ∂ ý / ∂ X 1 ≠ ∂ ý / ∂ X 2 ∂ ý / ∂ X 1 > ∂ ý / ∂ X 2 Ŷ = α + β 1 X 1 + β 2 …

3
将多级模型拟合到R中的复杂测量数据
我正在寻找有关如何在R中使用多级模型分析复杂调查数据的建议。我已使用该survey软件包对一级模型中选择的不平等概率进行加权,但是此软件包没有用于多层建模的功能。该lme4软件包非常适合用于多层建模,但是我不知道有一种方法可以在不同级别的聚类中包含权重。Asparouhov(2006)提出了问题: 多级模型通常用于分析群集抽样设计中的数据。但是,这样的抽样设计通常在集群级别和单个级别使用不相等的选择概率。在一个或两个级别上分配采样权重以反映这些概率。如果在任何一个级别上都忽略了采样权重,则参数估计值可能会出现明显偏差。 用于两级模型的一种方法是在MPLUS中实现的多级伪最大似然(MPML)估计器(Asparouhov等,α)。Carle(2009)回顾了主要的软件包,并提出了一些有关如何进行的建议: 为了使用复杂的调查数据和设计权重正确地执行MLM,分析人员需要可以在程序外部包括按比例缩放的权重并包括“新”缩放的权重而无需自动修改程序的软件。当前,三个主要的MLM软件程序允许这样做:Mplus(5.2),MLwiN(2.02)和GLLAMM。不幸的是,HLM和SAS都无法做到这一点。 West和Galecki(2013)给出了更新的评论,我将详细引用相关文章: 有时,分析人员希望使LMM适合从复杂设计的样本中收集的数据集(见Heeringa等,2010,第12章)。复杂的样本设计通常具有以下特征:将人群划分为各个阶层,从阶层内部对个体集群进行多阶段选择,以及集群和最终样本个体的选择概率均等。这些不平等的选择概率通常会导致构建个体的采样权重,从而确保在纳入分析时对描述性参数进行无偏估计。这些权重可能会针对调查无响应而进一步调整,并根据已知的总体总数进行校准。传统上,分析人员在估计回归模型时可能会考虑基于设计的方法来整合这些复杂的采样功能(Heeringa等,2010)。最近,统计学家已经开始探索基于模型的方法来分析这些数据,使用LMM来结合采样层的固定效应和采样群的随机效应。 开发基于模型的方法来分析这些数据的主要困难是选择适当的方法来合并抽样权重(有关问题的摘要,请参见Gelman,2007)。Pfeffermann等。(1998),Asparouhov和Muthen(2006)以及Rabe-Hesketh和Skrondal(2006)开发了用于以合并调查权重的方式估算多层次模型的理论,Rabe-Hesketh和Skrondal(2006),Carle(2009)和Heeringa等。(2010年,第12章)介绍了使用当前软件程序的应用程序,但这仍然是统计研究的活跃领域。能够适应LMM的软件过程处于实现迄今为止文献中提出的用于合并复杂设计特征的方法的各个阶段,分析人员在将LMM拟合到复杂的样本调查数据时需要考虑这一点。有兴趣将LMM拟合到从复杂样本调查收集的数据中的分析人员,将被吸引到能够将调查权重正确纳入估计程序(HLM,MLwiN,Mplus,xtmixed和gllamm)的程序。区域。 这使我想到我的问题:是否有人对将LMM拟合R中的复杂测量数据有最佳实践建议?

1
弗里德曼测试与威尔科克森测试
我正在尝试评估监督型机器学习分类算法的性能。观察结果属于名义类别(目前为2类,不过我想将其概括为多类问题),这些样本来自99名受试者。 我想回答的问题之一是,如果算法在输入类别之间的分类准确度方面存在显着差异。对于二元分类的情况,我正在使用配对的Wilcoxon检验来比较受试者之间各类之间的平均准确性(因为基础分布是非正态的)。为了将此程序推广到多类问题,我特别使用了Friedman检验。 但是,在二进制IV的情况下,通过这两种方法获得的p值变化很大,Wilcoxon检验屈服,p < .001而p = .25Friedman检验。这使我相信我对弗里德曼测试的结构有基本的误解。 在这种情况下,使用弗里德曼检验来比较所有受试者重复测量准确性的结果是否合适? 我获得这些结果的R代码(subject是对象标识符,acc精度DV和expected观察等级IV): > head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …

4
如何使用回归确定一个系数并拟合其他系数
我想手动固定某个系数,例如,然后将系数拟合到所有其他预测变量,同时在模型中保留。β1=1.0β1=1.0\beta_1=1.0β1=1.0β1=1.0\beta_1=1.0 如何使用R实现此目的?glmnet如果可能的话,我特别想与LASSO()合作。 或者,如何将这个系数限制在特定范围内,例如?0.5≤β1≤1.00.5≤β1≤1.00.5\le\beta_1\le1.0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.