Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
R中的Wilcoxon秩和检验
我将同一测试的结果应用于两个独立样本: x <- c(17, 12, 13, 16, 9, 19, 21, 12, 18, 17) y <- c(10, 6, 15, 9, 8, 11, 8, 16, 13, 7, 5, 14) 我想计算一个Wilcoxon秩和检验。 当我手动计算统计量,我得到: T W = ∑ rank (X i)= 156.5TWTWT_{W}TW=∑rank(Xi)=156.5TW=∑rank(Xi)=156.5 T_{W}=\sum\text{rank}(X_{i}) = 156.5 当我让R执行a时wilcox.test(x, y, correct = F),我得到: W = 101.5 这是为什么?统计不应仅在我执行带符号秩检验时返回吗?还是我误解了等级总和测试?W+W+W^{+}paired = …

3
比例差异的置信区间
我想知道是否有人可以正确地计算出两个比例之间的差异的置信区间。 样本大小为34,其中女性为19,男性为15。因此,比例差异为0.1176471。 我计算出95%的置信区间为-0.1183872和0.3536814之间的差异。当置信区间经过零时,差异在统计上并不显着。 以下是我在R中所做的工作,并给出了注释结果: f <- 19/34 # 0.5588235 m <- 15/34 # 0.4411765 n <- 34 # 34 difference <- f-m # 0.1176471 lower <- difference-1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # -0.1183872 upper <- difference+1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # 0.3536814

1
线性模型中的R平方与广义线性模型中的偏差成正比?
这是我针对这个问题的上下文:据我所知,使用加权数据和数据survey包时,我们无法在R中运行普通的最小二乘回归。在这里,我们必须使用svyglm(),而不是运行一个广义线性模型(可能是同一件事?在这里我不清楚什么是不同的)。 在OLS中,通过该lm()函数,它可以计算R平方值,我确实理解其解释。但是,svyglm()似乎并没有计算出这个误差,而是给了我一个偏差,我在互联网上的短暂旅行告诉我,这是一种拟合优度度量,其解释与R平方不同。 所以我想我基本上有两个我希望得到指导的问题: 为什么survey似乎无法在Stata中使用加权数据来在包中运行OLS ? 广义线性模型的偏差和r平方值在解释上有什么区别?

1
R中的wilcox.test和coin :: wilcox_test有什么区别?
R中存在这两个函数,但我不知道它们之间的区别。似乎当wilcox.test使用时correct=FALSE,和wilcox_test(在硬币包装中)使用时,它们仅返回相同的p值distribution="aymptotic"。对于其他值,它们返回不同的p值。而且wilcox.test始终为我的数据集返回W = 0,而与参数的设置无关: x = c(1, 1, 1, 3, 3, 3, 3) 和 y = c(4, 4, 6, 7, 7, 8, 10) 另外,当我尝试使用除R以外的其他工具(一些可在线使用,其他作为Excel附加组件)时,有时它们报告的p值不同。 那么我怎么知道哪个工具给出了“正确的” p值呢? 是否存在“正确的” p值,或者如果一些工具给出的p值<0.05,我应该感到高兴吗?(有时这些工具没有提供像R这样的众多参数化可能性。) 我在这里想念什么?

1
PCA双线图中的箭头是什么意思?
考虑以下PCA双线图: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) 有一堆红色箭头,它们是什么意思?我知道标有“ Var1”的第一个箭头应指向数据集变化最大的方向(如果我们认为它们是2000个数据点,则每个都是大小为6的向量)。我还从某处读取,变化最大的方向应该是第一特征向量的方向。 但是,请阅读R中的biplot代码。有关箭头的线是: if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y实际在哪里是荷载矩阵,它是特征向量矩阵。所以它看起来像第一个箭头实际上是从指向(0, 0)到(y[1, 1], y[1, 2])。我了解我们正在尝试在2D平面上绘制高维箭头。这就是为什么我们要使用y[1, ]向量的第一和第二元素。但是我不明白的是: 第一特征向量方向y[, 1]不是由表示的向量y[1, ]吗?(同样,这y是通过PCA或通过的特征分解获得的特征向量矩阵t(x) %*% x),即特征向量应该是列向量,而不是那些水平向量。 即使我们将它们绘制在2D平面上,我们也应该绘制第一个方向从(0, 0)指向(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

2
R中的梯度下降与lm()函数?
我正在看吴安德(Andrew Ng)的免费在线机器学习课程中的视频在斯坦福大学中。他讨论了梯度下降作为解决线性回归的算法,并在Octave中编写函数来执行该算法。大概我可以用R重写那些函数,但是我的问题是lm()函数是否已经给了我线性回归的输出?为什么要编写自己的梯度下降函数?有优势还是纯粹作为学习练习?lm()会进行梯度下降吗?

4
用R中的随机效应估计折断的棒/分段线性模型中的断点[包括代码和输出]
当我还需要估计其他随机效应时,有人可以告诉我如何让R估计分段线性模型中的断裂点(作为固定或随机参数)吗? 我在下面提供了一个玩具示例,该示例适合曲棍球杆/折断的杆回归,其随机点的斜率变化和y轴截距的随机变化为4的断裂点。我想估算断裂点而不是指定断裂点。它可以是随机效果(最好)或固定效果。 library(lme4) str(sleepstudy) #Basis functions bp = 4 b1 <- function(x, bp) ifelse(x < bp, bp - x, 0) b2 <- function(x, bp) ifelse(x < bp, 0, x - bp) #Mixed effects model with break point = 4 (mod <- lmer(Reaction ~ b1(Days, bp) + b2(Days, bp) + (b1(Days, …

1
如何针对重复测量设计计算方差分析:R中的aov()vs lm()
标题说明了一切,我很困惑。下面的代码在R中运行重复的aov(),并运行我认为是等效的lm()的调用,但是它们返回不同的误差残差(尽管平方和相同)。 显然,来自aov()的残差和拟合值是模型中使用的残差和拟合值,因为它们的平方和加到summary(my.aov)中报告的每个模型/残差平方和。那么,应用于重复测量设计的实际线性模型是什么? set.seed(1) # make data frame, # 5 participants, with 2 experimental factors, each with 2 levels # factor1 is A, B # factor2 is 1, 2 DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), A.2=rnorm(5, 100, 20), B.1=rnorm(5, 20, 20), B.2=rnorm(5, 50, 20)) # get our experimental conditions conditions <- …

4
在R中计算AUPR
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 8个月前关闭。 在ROC下很容易找到包装计算面积,但是有一个包装在精确召回曲线下计算面积吗?

2
有人可以阐明线性混合效应还是非线性混合效应?
我将要学习R,而我的学习项目将需要对数据集应用混合或随机效应回归,以开发预测方程。我在这篇文章中分享了作者的关注点。 如何为混合效果模型选择nlme或lme4 R库?想知道NLME还是LME4是使自己熟悉的更好的软件包。一个更基本的问题是:线性和非线性混合效应建模之间有什么区别? 作为背景知识,我在我的MS研究中应用了ME建模(在MATLAB中,不是在R中),因此我熟悉固定变量和随机变量的处理方式。但是我不确定我所做的工作是线性的还是非线性的。它仅仅是所用方程式的函数形式还是其他形式?

3
分析纵向数据集时使用aov()和lme()有什么区别?
谁能告诉我使用aov()和lme()分析纵向数据之间的区别,以及如何解释这两种方法的结果? 下面,我使用aov()和分析相同的数据集,lme()并得到2个不同的结果。使用时aov(),我在治疗交互作用的时间上得到了显着的结果,但是在拟合线性混合模型时,通过治疗交互作用的时间是无关紧要的。 > UOP.kg.aov <- aov(UOP.kg~time*treat+Error(id), raw3.42) > summary(UOP.kg.aov) Error: id Df Sum Sq Mean Sq F value Pr(>F) treat 1 0.142 0.1421 0.0377 0.8471 Residuals 39 147.129 3.7725 Error: Within Df Sum Sq Mean Sq F value Pr(>F) time 1 194.087 194.087 534.3542 < 2e-16 *** time:treat 1 2.077 …

3
如何将样条曲线拟合到包含值和一阶/二阶导数的数据?
我有一个数据集,其中包含一些位置,速度和加速度的测量值。全部来自同一“运行”。我可以构造一个线性系统,并将多项式拟合所有这些度量。 但是我可以用样条线做同样的事情吗?这样做的“ R”方式是什么? 这是一些我想拟合的模拟数据: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- …

4
为什么说“残留标准误差”?
标准误差是估计的标准偏差σ(θ)的估计的θ为参数θ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta 为什么将残差的估计标准偏差称为“残差标准误差”(例如,在R summary.lm函数的输出中)而不称为“残差标准差”?我们在此为什么参数估计配备标准误差? 我们是否将每个残差都视为“其”误差项的估计量,并估计所有这些估计量的“合并”标准误差?

1
R中具有多个外生变量的Arima时间序列预测(auto.arima)
我想基于具有多个外生变量的多个时间序列ARIMA模型进行预测。由于我对统计数据和RI都不希望保持尽可能简单(3个月的趋势预测就足够了)。 我有1个相关的时间序列和3-5个预测器时间序列,所有月度数据,无间隔,同时为“水平”。 我遇到了auto.arima函数,并问自己这是否适合我的问题。我有不同的商品价格和用它们制成的产品的价格。所有原始数据都是非平稳的,但是通过一阶微分,它们都变成了平稳数据。ADF,KPSS对此进行了说明。(这意味着我已经对集成进行了测试,对吗?)。 我现在的问题是:如何将它与auto.arima函数一起应用,而且ARIMA是否是正确的方法?一些人已经建议我使用VAR,但是ARIMA也可以吗? 下表是我的数据。实际上,数据集直到105个观测值为止,但前50个观测值可以。在这里,趋势和季节性显然很有趣。 感谢您的任何建议和帮助!格奥尔格
14 r  time-series  arima 

5
从平滑数据中找到R中的拐点
我有一些可以平滑使用的数据loess。我想找到平滑线的拐点。这可能吗?我确定有人已经找到了解决这个问题的好方法...我的意思是...毕竟是R! 我可以更改使用的平滑功能。我刚刚使用过,loess因为那是我过去使用过的。但是任何平滑功能都可以。我确实意识到拐点将取决于我使用的平滑功能。我可以。我想通过仅具有任何有助于吐出拐点的平滑功能来开始。 这是我使用的代码: x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)
14 r  smoothing  loess 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.