Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何解释自相关
我已经根据鱼的位置:X(x.ts)和Y(y.ts)在时间序列数据上计算了鱼的运动模式的自相关。 通过使用R,我运行了以下函数并生成了以下图: acf(x.ts,100) acf(y.ts,100) 我的问题是,如何解释这些图?报告任何类型的模式都需要什么信息?我一直在浏览互联网,还没有找到一种有效的解释方式的简洁方法。 另外,您如何确定要使用的正确滞后量?我用了100,但我不确定这是否太多。

5
缺失值的多重插补
我想在某些约束下使用插补替换数据集中的缺失值。 例如,我希望估算的变量x1大于或等于我的另外两个变量,例如x2和x3。我也想x3通过或者被估算0或者>= 14,我想x2无论以任何打杀0或>= 16。 我尝试在SPSS中为多个插值定义这些约束,但是在SPSS中,我只能定义最大值和最小值。有什么方法可以在SPSS中定义进一步的约束,或者您知道任何R包可以让我为缺失值的插值定义此类约束吗? 我的数据如下: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

1
对数链接的Gamma GLM与对数链接的高斯GLM与对数转换的LM
从我的结果来看,GLM Gamma似乎可以满足大多数假设,但这是否是对数转换后的LM值得的改进?我发现的大多数文献都涉及泊松或二项式GLM。我发现使用随机化对广义线性模型假设进行评估非常有用,但是缺少用于做出决策的实际图。希望有经验的人可以为我指明正确的方向。 我想对响应变量T的分布进行建模,其分布如下图所示。如您所见,这是正偏度: 。 我要考虑两个类别因素:METH和CASEPART。 请注意,该研究主要是探索性的,本质上是在对模型进行理论化并围绕模型进行DoE之前作为试点研究。 我在R中具有以下模型及其诊断图: LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat) GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log')) GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log')) 我还通过Shapiro-Wilks残差检验获得了以下P值: LM.LOG: 2.347e-11 GLM.GAMMA: 0.6288 GLM.GAUS: 0.6288 我计算了AIC和BIC值,但是如果我是正确的话,由于GLM / LM中的族不同,它们并不能告诉我太多。 另外,我注意到了极端值,但是由于没有明确的“特殊原因”,因此无法将它们分类为异常值。

1
系数路径–岭,套索和弹性净回归的比较
我想比较使用脊线,套索和弹性网选择的模型。下图显示了使用所有三种方法的系数路径:山脊(图A,alpha = 0),套索(图B; alpha = 1)和弹性网(图C; alpha = 0.5)。最佳解决方案取决于所选的lambda值,该值是基于交叉验证选择的。 查看这些图时,我希望弹性网(图C)表现出分组效应。然而,目前情况尚不清楚。套索和弹性网的系数路径非常相似。这可能是什么原因?这仅仅是编码错误吗?我在R中使用了以下代码: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net …

1
如何从脆弱模型(使用R coxph)生成预测的幸存者曲线?
我想计算一个脆弱的考克斯比例风险模型的预测幸存者功能[使用生存包]。看起来当脆弱项在模型中时,无法计算预测的幸存者功能。 ## Example require(survival) data(rats) ## Create fake weight set.seed(90989) rats$weight<-runif(nrow(rats),0.2,0.9) ## Cox model with gamma frailty on litter fit <- coxph(Surv(time, status) ~ rx+weight+frailty(litter,dist="gamma"), data = rats) ## Compute survival curve from the cox model for rx=0 and weight=0.5 kg plot(survfit(fit, newdata=data.frame(rx=0,weight=0.5)),xlab = "time", ylab="Survival") ## Running this line, …

3
R中的非负套索实现
我正在寻找可以使用的开放源代码或现有库。据我所知,glmnet软件包不是很容易扩展以涵盖非负面情况。我可能是错的,任何有任何想法的人都非常感谢。 非负数是指所有系数均被约束为正数(> 0)。
13 r  lasso 

4
在有马之前或有马以内的时差时间序列
在使用Arima之前最好先区分一个系列(假设需要),还是在Arima中使用d参数更好? 令我惊讶的是,取决于使用相同模型和数据的路线,拟合值有多么不同。还是我做错了什么? install.packages("forecast") library(forecast) wineindT<-window(wineind, start=c(1987,1), end=c(1994,8)) wineindT_diff <-diff(wineindT) #coefficients and other measures are similar modA<-Arima(wineindT,order=c(1,1,0)) summary(modA) modB<-Arima(wineindT_diff,order=c(1,0,0)) summary(modB) #fitted values from modA A<-forecast.Arima(modA,1)$fitted #fitted from modB, setting initial value to the first value in the original series B<-diffinv(forecast.Arima(modB,1)$fitted,xi=wineindT[1]) plot(A, col="red") lines(B, col="blue") 加: 请注意,我先对系列进行求差并拟合arima(1,0,0),然后将arima(1,1,0)拟合到原始序列。我(我认为)反转差异文件上arima(1,0,0)的拟合值的差异。 我正在比较拟合值-而不是预测。 这是情节(红色是arima(1,1,0),蓝色是在变回原始比例后的差分序列上的arima(1,0,0)): 回应Hyndman博士的回答: 1)您能否在R代码中说明我需要做些什么才能使Arima(1,1, 0)和Arima(1,0,0)在手动差分序列上?我认为这与没有包含在modA中有关,但是我不确定如何进行。 …
13 r  time-series  arima 

2
e1071 libsvm有问题吗?
我有一个包含两个重叠类的数据集,每个类中有七个点,点在二维空间中。在R中,我正在svm从e1071软件包中运行,以为这些类构建单独的超平面。我正在使用以下命令: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) 其中x包含我的数据点并y包含其标签。该命令返回一个svm-object,我用它来计算分离超平面的参数(法向矢量)和(截距)。wwwbbb 下图(a)显示了我的点和svm命令返回的超平面(让我们将此超平面称为最佳平面)。带符号O的蓝点表示空间原点,虚线表示边距,带圆圈的是非零ξξ\xi(松弛变量)的点。 图(b)显示了另一个超平面,它是最佳5的平行平移(b_new = b_optimal-5)。不难看出,对于该超平面,目标函数 0.5||w||2+cost∑ξi0.5||w||2+cost∑ξi 0.5||w||^2 + cost \sum \xi_i (通过C分类svm最小化)将具有比图所示的最佳超平面更低的值(一个)。看来此svm功能有问题吗?还是我在某个地方犯了错误? 以下是本实验中使用的R代码。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, nrow(x)) for (i in 1:nrow(x)) { xi[i] <- 1 - …

5
lme4或等效于asreml-R的其他开源R软件包代码
我想使用lme4,nlme,贝叶斯回归包或任何可用的模型拟合混合模型。 Asreml-R编码约定中的混合模型 在进行具体说明之前,对于不熟悉ASREML代码的用户,我们可能希望了解有关asreml-R约定的详细信息。 y = Xτ + Zu + e ........................(1) ; 通常的混合模型,其中y表示观测值的n×1向量,其中τ是固定效应的p×1向量,X是全列秩的n×p设计矩阵,将观测值与固定效应的适当组合相关联,u是随机效应的q×1向量,Z是将观察结果与适当的随机效应组合相关的n×q设计矩阵,e是残差的n×1向量,模型(1)被称为线性混合模型或线性混合效应模型。假设 其中矩阵G和R分别是参数γ和φ的函数。 参数θ是方差参数,我们将其称为比例参数。 在具有多个残差方差的混合效应模型中,例如在分析具有多个截面或变量的数据时,参数θ固定为1。在具有单个残差方差的混合效应模型中,θ等于残差方差(σ2)。在这种情况下,R必须是相关矩阵。有关模型的更多详细信息,请参见Asreml手册(链接)。 误差的方差结构:R结构和随机效应的方差结构:可以指定G结构。 asreml()中的方差建模重要的是要了解通过直接乘积形成方差结构的过程。通常的最小二乘假设(以及asreml()中的默认值)是这些都是独立且均匀分布的(IID)。但是,如果数据来自以r行×c列的矩形阵列布置的现场实验,例如,我们可以将残差e安排为矩阵,并可能认为它们在行和列内是自相关的。向量以场顺序排列,也就是说,通过对列内的残差行(块内的曲线)进行排序,则残差的方差可能为 分别是行模型(阶r,自相关参数½r)和列模型(阶c,自相关参数½c)的相关矩阵。更具体地,在田间试验分析中,有时会针对常见误差假定二维可分离的自回归空间结构(AR1 x AR1)。 示例数据: nin89来自asreml-R库,该库在矩形字段的复制/块中生长了不同的变量。为了控制行或列方向上的其他可变性,每个图都被称为行和列变量(行列设计)。因此此行列的设计具有阻塞性。产量是测量变量。 示例模型 我需要等同于asreml-R代码的内容: 简单的模型语法如下所示: rcb.asr <- asreml(yield ∼ Variety, random = ∼ Replicate, data = nin89) .....model 0 线性模型在固定(必需),随机(可选)和rcov(误差分量)参数中指定为公式对象。默认值是简单误差项,不需要像模型0中那样正式为误差项指定。 这里的变化是固定的,随机是重复的(块)。除了随机和固定项,我们还可以指定误差项。在该模型0中为默认值。通过rcov参数在公式对象中指定模型的残差或误差分量,请参见以下模型1:4。 以下模型1更复杂,其中同时指定了G(随机)和R(错误)结构。 模型1: data(nin89) # Model 1: RCB analysis …
13 r 

6
用于识别变量之间关系的R包
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 4年前关闭。 是否可以使用R包来探索变量之间是否存在关系? 通常,当我寻找模式时,我会先看相关性,然后看一个方面图。然后,我将一些转换手动应用于数据中的变量。我想知道是否可以通过R包来加快此过程。

1
PCA和组件分数基于连续变量和二进制变量的混合
我想在由混合类型变量(连续和二进制)组成的数据集上应用PCA。为了说明该过程,我在下面的R中粘贴了一个最小的可复制示例。 # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2) x3 <- x1 + x2 + rnorm(n) x4 <- rbinom(n, 1, 0.5) x5 <- rbinom(n, 1, 0.6) data <- data.frame(x1, x2, x3, x4, x5) # Correlation matrix with appropriate coefficients # Pearson product-moment: …
13 r  pca 

1
解释R中的逻辑回归输出
我正在使用进行R中的多元逻辑回归glm。预测变量是连续的和分类的。该模型摘要的摘录显示以下内容: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 置信区间: 2.5 % 97.5 % (Intercept) 0.10969506 1.863217e+03 Age 0.99565783 …

2
R vs.Excel中的自相关公式
我试图弄清楚R如何计算滞后k自相关(显然,它与Minitab和SAS使用的公式相同),以便可以将其与使用适用于该系列及其k滞后版本的Excel CORREL函数进行比较。R和Excel(使用CORREL)给出的自相关值略有不同。 我也想知道一种计算是否比另一种更正确。
13 r  sas  autocorrelation  excel 

1
解释R's plot.stl中的范围条吗?
我很难弄清楚范围条的plot.stl确切含义。我在该问题上找到了加文(Gavin)的帖子,并阅读了文档,我知道它们告诉了被分解组件的相对大小,但是我仍然不确定它们是如何工作的。 例如: 数据:微小条,无刻度季节性:完整条,刻度在-0.6到0.2范围内趋势:另一个微小条(似乎等于数据),无剩余刻度:中号条,从-1.5到0.5 我不明白联系的基础是什么,为什么趋势没有规模。我尝试过stl,decompose乘法和加法的结果相同。
13 r  time-series 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.