Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
具有每日数据的自动ARIMA:如何捕获季节性/周期性?
我正在每天时间序列上拟合ARIMA模型。从2010年2月1日到2011年7月30日每天收集数据,这些数据与报纸的销售有关。由于可以发现每周的销售模式(星期一至星期五的每日平均销售份数通常相同,然后在星期六和星期日增加),因此我试图捕捉这种“季节性”。给定销售数据“数据”,我按如下方式创建时间序列: salests<-ts(data,start=c(2010,1),frequency=365) 然后使用auto.arima(。)函数通过AIC准则选择最佳的ARIMA模型。结果始终是非季节性的ARIMA模型,但是如果我尝试使用以下语法作为示例的SARIMA模型,例如: sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) 我可以获得更好的结果。ts命令/ arima规范中是否有任何错误?每周模式非常强大,因此我不希望在捕获它时遇到太多困难。任何帮助将非常有用。谢谢朱莉娅·德皮里(Giulia Deppieri) 更新: 我已经改变了一些论点。更准确地说,当我设置时,该过程选择ARIMA(4,1,3)作为最佳模型D=7,但AIC和其他拟合指数和预测良好的方法根本没有改善。我猜是由于季节性和周期性之间的混淆导致一些错误。 使用Auto.arima调用并获得输出: modArima<-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) …

5
高p值的强相关系数示例
我想知道,是否可能有一个非常强的相关系数(例如0.9或更高)和高p值(例如0.25或更高)? 这是一个相关系数较低,p值较高的示例: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927,p = 0.6994 高相关系数,低p值: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809,p = 2.2e-16 低相关系数,低p值: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018,p = 2.2e-16 高相关系数,高p值:???

2
如何在R中的函数lm中使用权重?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 谁能提供一些有关如何weights在R lm函数中使用参数的指针?举例来说,假设您要针对交通数据拟合模型,并且有数百行,每个行代表一个城市(人口不同)。如果您希望模型根据人口规模来调整每个观测值的相对影响,您是否可以简单指定weights=[the column containing the city's population]?那是可以进入的向量weights吗?还是您需要完全使用其他R函数/包/方法? 好奇地听到人们如何解决这个问题-在我在那里看到的任何线性建模教程中都没有看到它。谢谢!
21 r  regression 

1
生成相关的二项式随机变量
我想知道遵循线性变换方法是否可能生成相关的随机二项式变量? 下面,我尝试了一些简单的R语言,它产生了一些相关性。但是我想知道是否有原则性的方法可以做到这一点? X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

2
逆变换方法如何工作?
反转方法如何工作? 说我有一个随机样本与密度在,因此cdf在。然后通过反演方法,我得到的分布为。 f (x ; θ )= 1X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_n 0&lt;X&lt;1˚FX(X)=X1/θ(0,1)X˚F - 1 X(Û)=Üθf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;x&lt;10<x<1FX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}(0,1)(0,1)(0,1)XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta 那么是否具有的分布?这是反演方法的工作方式吗? Xuθuθu^\thetaXXX u&lt;-runif(n) x&lt;-u^(theta)

1
为什么GLM中的准泊松不被视为负二项式的特例?
我正在尝试将广义线性模型拟合到可能过度分散的某些计数数据集。此处适用的两个规范分布是泊松和负二项式(Negbin),其EV和方差μμ\mu VarP=μVarP=μVar_P = \mu VarNB=μ+μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} 可以分别使用glm(..,family=poisson)和将其安装在R中glm.nb(...)。还有一个quasipoisson家庭,以我的理解,这是一个经过调整的泊松,具有相同的EV和方差 VarQP=ϕμVarQP=ϕμVar_{QP} = \phi\mu, 即落在Poisson和Negbin之间。准泊松族的主要问题是没有相应的可能性,因此没有许多非常有用的统计检验和拟合度量(AIC,LR等)。 如果比较QP和Negbin方差,可能会注意到可以通过来使它们相等。继续这种逻辑,您可以尝试将准泊松分布表示为Negbin的特例:ϕ=1+μθϕ=1+μθ\phi = 1 + \frac{\mu}{\theta} QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP(μ,ϕ)=NB(μ,θ=μϕ−1)QP\,(\mu,\phi) = NB\,(\mu,\theta = \frac{\mu}{\phi-1}), 即,一个\ theta的Negbin与\ muθθ\theta线性相关。我试图通过根据上述公式生成一个随机的数字序列并将其拟合为来验证这种想法:μμ\muglm #fix parameters phi = 3 a = 1/50 b = 3 x = 1:100 #generating points according to an exp-linear curve #this way …

4
如何测试我的分布是否为多峰?
当我绘制数据的直方图时,它有两个峰值: 这是否意味着潜在的多峰分布?我dip.test在R(library(diptest))中运行,输出为: D = 0.0275, p-value = 0.7913 我可以得出结论,我的数据具有多模式分布? 数据 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …

3
如何计算glm(R)的拟合优度
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 我从运行glm函数得到以下结果。 我如何解释以下值: 零偏差 残余偏差 AIC 他们和健康的好处有关吗?我可以根据这些结果(例如R平方或其他任何度量)来计算拟合优度吗? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept -1.305e-01 …

1
GBM的n.minobsinnode参数在R中的作用
这个问题不太可能对将来的访客有所帮助;它仅与较小的地理区域,特定的时间段或格外狭窄的情况(通常不适用于Internet的全球受众)有关。要获得使该问题更广泛适用的帮助,请访问帮助中心。 7年前关闭。 我想知道GBM软件包中n.minobsinnode参数的含义。我阅读了手册,但不清楚它的作用。该数字应该小还是大以改善结果?
21 r  gbm 

3
为什么nls()给我“初始参数估计时的奇异梯度矩阵”错误?
我有一些有关减排和每辆车成本的基本数据: q24 &lt;- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") 我知道这是一个指数函数,因此我希望能够找到适合的模型: model &lt;- nls(cost.per.car ~ a * exp(b * reductions) + c, data = q24, start = …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
lmer()中的“模型无法收敛”警告
对于以下数据集,我想查看响应(效果)是否随站点,季节,持续时间及其相互作用而变化。一些在线统计论坛建议我继续使用线性混合效应模型,但是问题在于,由于每个站点内的重复样本都是随机的,因此我几乎没有机会连续几个季度从完全相同的位置收集样本(例如,季风后s1的repl-1可能与季风不同。这与临床试验(采用受试者内部设计)不同,在临床试验中,您会按季节重复测量同一受试者。但是,考虑到站点和季节是随机因素,我运行了以下命令并收到警告消息: Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues 谁能帮我解决这个问题?代码如下: library(lme4) read.table(textConnection("duration season sites effect 4d mon s1 7305.91 4d mon s2 856.297 4d mon s3 649.93 4d mon …

4
如何创建任意协方差矩阵
例如,在R中的MASS::mvrnorm()功能对于生成数据以演示统计中的各种情况很有用。它采用强制性Sigma参数,该参数是一个对称矩阵,用于指定变量的协方差矩阵。如何创建带有任意条目的对称矩阵?n × nñ×ñn\times n

1
lme()和lmer()给出矛盾的结果
我一直在处理一些重复测量有问题的数据。在这样做的过程中,我注意到测试数据之间lme()以及lmer()使用测试数据时存在非常不同的行为,并且想知道为什么。 我创建的虚假数据集具有10个对象的身高和体重测量值,每个测量值两次。我设置数据以使受试者之间的身高和体重之间存在正相关关系,但在每个个体内重复测量之间存在负相关关系。 set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement 这是数据的图,线连接了每个人的两个测量值。 因此,我运行了两个模型,一个模型lme()来自nlmepackage,一个模型来自lmer()from lme4。在这两种情况下,我都进行了体重对身高的回归分析,并使用ID的随机效应来控制每个人的重复测量。 library(nlme) Mlme=lme(Height~Weight,random=~1|ID,data=DF) library(lme4) Mlmer=lmer(Height~Weight+(1|ID),data=DF) …

3
寻找一种模拟这种分布的随机数的方法
我试图用R编写一个程序,该程序使用累积分布函数模拟来自分布的伪随机数: F(x )= 1 − 经验( − a x − bp + 1Xp + 1),X ≥ 0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 其中一个,b &gt; 0 ,p ∈ (0 ,1 )a,b&gt;0,p∈(0,1)a,b>0, p \in (0,1) 我尝试了逆变换采样,但是逆解析似乎无法解决。如果您可以提出解决方案,我将很高兴

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.