Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

5
如何分析非周期时间序列中的趋势
假设我有以下非周期性的时间序列。显然,这种趋势正在减少,我想通过一些测试(使用p值)证明这一趋势。由于值之间存在强烈的时间(序列)自相关,因此我无法使用经典的线性回归。 library(forecast) my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9, 6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1), start = 1, end = 27,frequency = 1) plot(my.ts, col = "black", type = "p", pch = 20, cex = 1.2, ylim = c(0,13)) # line of moving averages lines(ma(my.ts,3),col="red", lty = 2, lwd = 2) 我有什么选择?
12 r  time-series 

4
在R中为nls模型获取正确的起始值
我试图将一个简单的幂定律模型拟合到如下数据集: mydf: rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 目标是使电源线通过并使用它来预测rev未来几周的赞誉。大量的研究使我找到了该nls功能,我按如下方式实现了该功能。 newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) 虽然这适用于lm模型,但会出现singular gradient错误,我理解这与我的初始值a和有关b。我尝试了不同的值,甚至可以在Excel中进行绘制,传递一个孤行,获取一个方程式,然后使用该方程式中的值,但仍然遇到错误。我看着一堆像答案的这一个,并试图在第二个答案(看不惯第一),但都没有结果。 我真的可以在这里找到有关如何找到正确的起始值的帮助。或者,我可以使用什么其他功能代替nls。 如果您想mydf轻松地重新创建: mydf <- data.frame(rev=c(17906.4, 5303.72, 2700.58 ,1696.77 ,947.53 ,362.03), weeks=c(1,2,3,4,5,6))

2
面板数据的机器学习算法
在这个问题中- 是否有一种考虑结构化/分层/多级预测变量的构造决策树的方法?-他们提到了树木的面板数据方法。 是否有支持矢量机和神经网络的特定面板数据方法?如果是这样,您能否引用一些有关算法和实现它的R包的文章?

1
测试大型数据集的正态性-可靠性如何?
我正在检查数据集中包含46840个双精度值(一部分从1到1690)的两组数据的一部分。为了分析这些组之间的差异,我首先检查了值的分布以选择正确的测试。 按照有关正常性测试的指南,我做了一个qqplot,直方图和boxplot。 这似乎不是正态分布。由于指南在某种程度上正确地指出仅凭图形检查是不够的,因此我也想测试分布的正态性。 考虑到数据集的大小和R中shapiro-wilks检验的局限性,应如何测试给定分布的正态性并考虑数据集的大小,这是否可靠?(请参阅对此问题的公认答案) 编辑: 我指的Shapiro-Wilk检验的局限性在于,要测试的数据集仅限于5000点。引用有关此主题的另一个好答案: Shapiro-Wilk检验的另一个问题是,当您向它提供更多数据时,被拒绝原假设的机会就更大。因此,发生的情况是,对于大量数据,甚至可以检测到与正态性的很小偏差,从而导致出于实际目的拒绝原假设事件,数据已经足够正常。 幸运的是,shapiro.test通过将数据大小限制为5000,可以保护用户免受上述影响。 至于为什么我要首先测试正态分布: 一些假设检验假设数据为正态分布。我想知道是否可以使用这些测试。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
使用带有插入符号包的RandomForest的FinalModel进行预测之前是否需要进行预处理?
我使用插入符号包训练10x10CV的randomForest对象。 library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) 之后,我在testSet上测试randomForest(新数据) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) 混乱矩阵向我展示了该模型还不错。 confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference Prediction 0 1 0 886 179 1 53 126 Accuracy : 0.8135 95% CI : (0.7907, 0.8348) No Information Rate : 0.7548 P-Value …

2
为什么在完全分散的点模式中,Moran的I不等于“ -1”
维基百科是错的...还是我听不懂? 维基百科:白色和黑色正方形(“象棋图案”)完全分散,因此莫兰的I为-1。如果将白色方块堆叠到板子的一半,将黑色方块堆叠到板子的另一半,则莫兰的I将接近+1。正方形颜色的随机排列将使Moran's I的值接近于0。 # Example data: x_coor<-rep(c(1:8), each=8) y_coor<-rep(c(1:8), length=64) my.values<-rep(c(1,0,1,0,1,0,1,0,0,1,0,1,0,1,0,1), length=64) rbPal <- colorRampPalette(c("darkorchid","darkorange")) my.Col <- rbPal(10)[as.numeric(cut(my.values,breaks = 10))] # plot the point pattern... plot(y_coor,x_coor,col = my.Col, pch=20, cex=8, xlim=c(0,9),ylim=c(0,9)) 如您所见,点完全分散 # Distance matrix my.dists <- as.matrix(dist(cbind(x_coor,y_coor))) # ...inversed distance matrix my.dists.inv <- 1/my.dists # diagonals are "0" diag(my.dists.inv) …

1
动态因素分析与状态空间模型
R中的MARSS软件包提供了用于动态因子分析的功能。在此程序包中,动态因子模型被编写为状态空间模型的一种特殊形式,并且它们假定遵循AR(1)过程的共同趋势。由于我对这两种方法不太熟悉,因此我提出了两个问题: 动态因子分析是状态空间模型的一种特殊形式吗?这两种方法有什么区别? 此外,动态因素分析并不一定假定AR(1)过程具有共同趋势。是否有任何软件包可以使通用趋势作为季节性ARIMA(或其他)过程?

1
逻辑回归模型操纵
我想了解以下代码在做什么。编写代码的人不再在这里工作,并且几乎完全没有文档记录。有人认为“ 这是贝叶斯逻辑回归模型 ” ,有人要求我进行调查 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + …

2
R中k均值聚类的解释结果
我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下,“集群意味着”代表什么?它是集群中所有对象的距离的平均值吗? 在最后一部分中,我还有: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4%的值,可能是它的解释?

1
预测R中的有序logit
我正在尝试进行有序的logit回归。我正在像这样运行模型(只是一个愚蠢的小模型,它根据收入和人口指标来估算市场中的公司数量)。我的问题是关于预测。 nfirm.opr<-polr(y~pop0+inc0, Hess = TRUE) pr_out<-predict(nfirm.opr) 当我运行预测(我试图使用它来获取预测的y)时,输出为0、3或27,这决不会反映基于我根据系数的人工预测应该看起来像是预测估计和截距。有谁知道如何为我订购的logit模型获得“准确”的预测? 编辑 为了澄清我的担忧,我的回答数据包含所有级别的观察结果 >head(table(y)) y 0 1 2 3 4 5 29 21 19 27 15 16 正如我的预测变量似乎在聚集 > head(table(pr_out)) pr_out 0 1 2 3 4 5 117 0 0 114 0 0

1
如何使用nlmer()对重复测量数据拟合非线性混合效应模型?
我正在尝试分析重复测量的数据,并努力使其在R。我的数据基本上如下,我有两个治疗组。每组中的每个主题每天都要接受测试,并给出分数(测试正确率)。数据为长格式: Time Percent Subject Group 1 0 GK11 Ethanol 2 0 GK11 Ethanol 3 0 GK11 Ethanol 4 0 GK11 Ethanol 5 0 GK11 Ethanol 6 0 GK11 Ethanol 数据类似于对数曲线,受试者在几天内表现很差,随后迅速改善,随后达到平稳状态。我想知道这种处理方法是否会对测试性能曲线产生影响。我的想法是在中使用nlmer()该lme4软件包R。我可以使用以下方法为每个组拟合线条: print(nm1 <- nlmer(Percent ~ SSlogis(Time,Asym, xmid, scal) ~ Asym | Subject, salinedata, start = c(Asym =.60, xmid = 23, scal …

4
Bootstrap,蒙特卡洛
作为作业的一部分,我被设置了以下问题: 设计并实施模拟研究,以检查引导程序的性能,以获取单变量数据平均值的95%置信区间。您的实现可以采用R或SAS。 您可能要查看的性能方面是置信区间覆盖率(即,置信区间包含真实均值的几率)和蒙特卡洛变化(即,模拟之间的上下置信限有多少变化)' 有谁知道该怎么做蒙特卡洛变化方面?我似乎什至无法解决算法或其他问题。与蒙特卡洛积分有关吗?谢谢!

3
如何在R中重新采样而不重复排列?
在R中,如果我先set.seed(),然后使用样本函数将列表随机化,是否可以保证不会生成相同的排列? 即... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } 这产生 [1] 1 2 0 3 [1] 0 2 1 3 [1] 0 3 2 1 [1] 3 1 2 0 [1] 2 3 0 1 [1] 0 1 3 2 …

5
如何从二元正态分布数据中获取椭圆区域?
我有看起来像的数据: 我尝试在其上应用正态分布(内核密度估计效果更好,但我不需要这么高的精度),并且效果很好。密度图为椭圆形。 我需要获取该椭圆函数来确定一个点是否位于椭圆区域内。怎么做? 欢迎使用R或Mathematica代码。
12 r  regression  pdf  bivariate 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.