Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
如何在R中编写具有100个变量的线性模型公式
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 R中有一种简单的方法可以在R中具有100个参数的模型上创建线性回归吗?假设我们有一个具有10个值的向量Y和一个具有10列100行的数据框X以数学符号表示Y = X[[1]] + X[[2]] + ... + X[[100]]。如何用R语法写类似的东西?
22 r 

1
如何分解具有多个季节性成分的时间序列?
我有一个包含双重季节性成分的时间序列,我想将该序列分解为以下时间序列成分(趋势,季节性成分1,季节性成分2和不规则成分)。据我所知,用于分解R中序列的STL过程仅允许一个季节性成分,因此我尝试了两次分解序列。首先,使用以下代码将频率设置为第一个季节性成分: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 然后,我dec_1通过将频率设置为第二个季节性分量来分解分解系列()的不规则分量,从而: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") 我对这种方法不是很自信。而且我想知道是否还有其他方法可以分解具有多个季节性的序列。另外,我注意到tbats()R 预测软件包中的函数允许一个模型适合具有多个季节性的序列,但是它并未说明如何使用它来分解一个序列。



1
为什么R函数'princomp'和'prcomp'给出不同的特征值?
您可以使用十项全能数据集{FactoMineR}重现该数据。问题是为什么计算出的特征值与协方差矩阵的特征值不同。 以下是使用的特征值princomp: > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 和使用相同PCA: > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative percentage of variance comp …
22 r  pca 

6
图论-分析和可视化
我不确定主题是否会引起CrossValidated兴趣。你会告诉我的。 我必须研究一个图(从图论)。我有一定数量的点相连。我有一张桌子,上面有所有的点,每个点都依赖于这些点。(我也有另一个表的含义) 我的问题是: 是否有一个好的软件(或R包)可以轻松学习? 有显示图的简单方法吗?

3
解释部分依赖图的y轴
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以: 我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。 我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。 我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。 相反地 y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。 文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。 另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗? 我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了? 我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。

2
尽管数据有些变化,为什么在混合模型中我得到的随机效应的方差为零?
我们使用以下语法运行了混合效果逻辑回归: # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 主题和项目是随机效果。我们得到一个奇怪的结果,即该主题词的系数和标准偏差均为零; Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

2
聚类二进制矩阵
我有一个尺寸为250k x 100 的二进制特征的半小矩阵。每行是一个用户,列是某些用户行为的二进制“标签”,例如“ likes_cats”。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 我想让用户适合5-10个集群,并分析负载以查看是否可以解释用户行为组。似乎有很多方法可以在二元数据上拟合聚类-我们认为什么是此数据的最佳策略? PCA 制作Jaccard相似度矩阵,拟合层次集群,然后使用顶部的“节点”。 K中位数 K-类固醇 前肢? 艾格尼丝 到目前为止,我在使用分层群集方面取得了一些成功,但是我真的不确定这是最好的方法。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …


2
回归中的Wald检验(OLS和GLM):t分布与z分布
我了解Wald回归系数检验基于渐近成立的以下属性(例如Wasserman(2006):All Statistics,第153、214-215页): 其中表示估计的回归系数,\ widehat {\ operatorname {se}}(\ hat {\ beta})表示回归系数的标准误差,\ beta_ {0}是相关值(\ beta_ {0}通常为0,以测试系数是否为与0明显不同)。这样大小\阿尔法 Wald检验是:拒绝H_ {0}时(β^- β0)SEˆ(β^)〜ñ(0 ,1 )(β^-β0)SE^(β^)〜ñ(0,1个) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ(β^)SE^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| w ^| > zα / 2|w ^|>žα/2|W|> z_{\alpha/2},其中 w ^= β^SEˆ(β^)。w ^=β^SE^(β^)。 W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. 但是,当您使用lmR 进行线性回归时,将使用ŤŤt值而不是žžz值来测试回归系数是否显着不同于0(带有summary.lm)。此外,glmR中的输出有时会给出žžz,有时会给出ŤŤt作为测试统计量。显然,假设色散参数已知时使用z值,而模拟色散参数则使用t值(请参阅此链接)。žžzŤŤt 有人可以解释一下,为什么即使系数和其标准误的比率被假定为标准正态分布,但有时还是将ŤŤt用于Wald检验? 回答问题后进行编辑 这篇文章还为问题提供了有用的信息。

3
为什么Lars和Glmnet为Lasso问题提供不同的解决方案?
我想更好地理解R封装Lars和Glmnet,这是用来解决问题的套索: (有关变量和样本,请参见第3页的www.stanford.edu/~hastie/Papers/glmnet.pdf)米我Ñ( β0β)∈ [Rp + 1[ 12 N∑我= 1ñ( y一世- β0- xŤ一世β)2+ λ | |β| |升1个]米一世ñ(β0β)∈[Rp+1个[1个2ñ∑一世=1个ñ(ÿ一世-β0-X一世Ťβ)2+λ||β||升1个]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppññN 因此,我将它们都应用于相同的玩具数据集。不幸的是,对于相同的数据输入,这两种方法不能提供相同的解决方案。有人知道差异的来源吗? 我得到的结果如下:生成一些数据(8个样本,12个特征,Toeplitz设计,所有内容都居中)之后,我使用Lars计算了整个套索路径。然后,我使用由Lars计算的lambda序列(乘以0.5)运行Glmnet,希望获得相同的解决方案,但我没有。 可以看到解决方案是相似的。但是我如何解释这些差异?请在下面找到我的代码。这里有一个相关的问题:用于计算LASSO解决方案的GLMNET或LARS?,但没有包含我的问题的答案。 设定: # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 nb.lambdas …

1
类内相关性(ICC)是否可以进行交互?
假设我对每个站点的每个主题都有一些度量。就计算类内相关性(ICC)值而言,主题和地点这两个变量是令人关注的。通常,我会使用lmerR包中的函数lme4并运行 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 可以从上述模型中随机效应的方差获得ICC值。 但是,我最近读了一篇论文,这真的使我感到困惑。使用上述示例,作者在nlme程序包中使用函数lme计算了论文中的三个ICC值:一个用于主题,一个用于站点,一个用于主题与站点的交互。该文件未提供更多细节。我从以下两个角度感到困惑: 如何用lme计算ICC值?我不知道如何在lme中指定这三个随机效果(主题,站点及其交互)。 考虑将ICC用于主题和网站之间的交互真的有意义吗?从建模或理论角度来看,您可以进行计算,但是从概念上讲,我很难解释这种相互作用。

5
原始或正交多项式回归?
我想将变量回归yyy到。我应该使用原始多项式还是正交多项式?我在处理这些问题的网站上看了一个问题,但我真的不明白使用它们有什么区别。 x,x2,…,x5x,x2,…,x5x,x^2,\ldots,x^5 为什么我不能只是做一个“正常”的回归得到的系数的βiβi\beta_iy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i(与p值和所有其他不错的东西一起),而是不必担心使用原始多项式还是正交多项式?在我看来,这种选择超出了我想要做的事情的范围。 在我目前正在阅读的统计书中(Tibshirani等人的ISLR)中没有提到这些东西。其实,他们在某种程度上被淡化。 原因是AFAIK,lm()在R 中的函数中,使用y ~ poly(x, 2)等于使用正交多项式,而使用y ~ x + I(x^2)等于使用原始多项式。但是在第116页上,作者说我们使用第一个选项,因为后者是“麻烦的”,它没有迹象表明这些命令实际上对完全不同的事物(因此具有不同的输出)。 (第三个问题)为什么会ISLR的作者混淆读者这样呢?

8
您如何可视化3个类别变量之间的关系?
我有一个包含三个分类变量的数据集,我想在一张图中直观地显示所有三个变量之间的关系。有任何想法吗? 目前,我正在使用以下三个图形: 每张图都针对基线抑郁水平(轻度,中度,严重)。然后,在每个图表中,我查看治疗(0,1)与抑郁改善之间的关系(无,中等,严重)。 这3个图可以查看三向关系,但是有一种已知的方法可以处理一个图吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.