Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何使用2个百分位数计算对数正态分布的均值和标准差
我正在尝试从2个百分位数计算对数正态分布的均值和标准差。 我成功地使用X = mean + sd * Z均值和标准差并求解了正态分布的计算。 当我尝试对数正态分布做同样的事情时,我想我错过了一个方程。我看了一下维基百科并尝试使用,ln(X) = mean + sd * Z但在这种情况下,均值和标准差是用于正态分布还是对数正态,我感到困惑。 我应该使用哪些方程式?我需要超过2个百分点来解决计算问题吗?
11 r  lognormal 

1
用于集群验证的信息(VI)指标变化背后的直觉是什么?
对于像我这样的非统计学家来说,VI即使阅读了Marina Melia的相关论文“ Comparing clusters-an based based distance ”(多变量分析杂志,2007年),也很难把握度量(信息的变化)的概念。实际上,我不熟悉许多集群的术语。 以下是MWE,我想知道在使用的不同指标中输出的含义。我在R中具有这两个群集,并且具有相同的id顺序: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, …


1
了解在R中执行的引导程序的输出(tsboot,MannKendall)
我对R中的tsboot调用的解释有疑问。我检查了Kendall和启动软件包的文档,但并不比以前更聪明。 当我使用Kendall包中的示例运行引导程序时,测试统计量为Kendall的tau: library(Kendall) # Annual precipitation entire Great Lakes # The Mann-Kendall trend test confirms the upward trend. data(PrecipGL) MannKendall(PrecipGL) 这确认了上升趋势: tau = 0.265, 2-sided pvalue =0.00029206 然后,该示例继续使用块引导程序: # #Use block bootstrap library(boot) data(PrecipGL) MKtau<-function(z) MannKendall(z)$tau tsboot(PrecipGL, MKtau, R=500, l=5, sim="fixed") 我收到以下结果: BLOCK BOOTSTRAP FOR TIME SERIES Fixed Block Length …
11 r  bootstrap 

2
“逐步回归”如何工作?
我使用以下R代码来拟合概率模型: p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') 我想知道到底是做什么stepwise和backward/forward做什么,以及如何选择变量?


4
如何在广义增强回归模型中选择树数?
是否有选择GBM中树木数量的策略?具体而言,ntrees在自变量R的gbm函数。 我不明白为什么您不应该设置ntrees为最高合理值。我注意到,大量的树明显减少了来自多个GBM的结果的可变性。我认为大量树木不会导致过度拟合。 有什么想法吗?

1
R神经网络-计算给出恒定答案
我正在尝试使用R的neuralnet软件包(此处的文档)进行预测。 这是我想做的: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

2
时间序列数据的空间自相关
我有一个20年数据集,其中包含一组多边形(约200个不规则形状的连续多边形)的物种丰富度的年度计数。我一直在使用回归分析来推断每个多边形的趋势(每年计数变化),以及基于管理边界的多边形数据汇总。 我确信数据中存在空间自相关,这肯定会影响汇总数据的回归分析。我的问题是-如何对时间序列数据进行SAC测试?我是否需要查看每年回归分析中残差的SAC(全局Moran's I)?还是我可以全年进行一次测试? 一旦我测试了是的,那么就有SAC了,解决这个问题容易吗?我的统计资料背景很少,我在时空建模方面阅读的所有内容听起来都很复杂。我知道R具有距离加权自协变量函数-这一点简单易用吗? 我真的很困惑如何评估/添加SAC来解决此问题,非常感谢任何建议,链接或参考。提前致谢!

2
QQ剧情解读
考虑以下代码和输出: par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") 看来,对数正态的QQ图与weibull的QQ图几乎相同。我们如何区分它们?此外,如果这些点在两条外部黑色线所定义的区域内,是否表示它们遵循指定的分布?

1
验证Poisson回归模型的成本函数
对于我收集的计数数据,我使用泊松回归来构建模型。我使用glmR中的函数来执行此操作family = "poisson"。为了评估可能的模型(我有几个预测变量),我使用了AIC。到目前为止,一切都很好。现在,我要执行交叉验证。我已经使用包中的cv.glm函数成功完成了此操作boot。从我的文档中可以cv.glm看到,例如对于二项式数据,您需要使用特定的成本函数来获得有意义的预测误差。但是,我还不知道哪种成本函数适用于family = poisson,并且广泛的Google搜索没有产生任何特定的结果。我的问题是,任何人都需要弄清楚哪种成本函数适用cv.glm于Poisson glm。

5
如果不是泊松,那么这是什么分布?
我有一个数据集,其中包含个人在7天内执行的操作数。具体操作与该问题无关。下面是该数据集的一些描述性统计: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} 这是数据的直方图: 从数据的来源来看,我认为它适合泊松分布。但是,均值≠方差,并且直方图在左侧的权重很高。另外,我goodfit在R中运行测试并得到: > gf <- goodfit(actions,type="poisson", method = "MinChisq") <br> > summary(gf) <br> Goodness-of-fit test for poisson …

2
在R randomForest中进行替换采样
randomForest实现不允许采样超过观察次数,即使使用替换采样也是如此。为什么是这样? 工作正常: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 我想做的事: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 没有分层样本的类似错误: rf <- randomForest(Species ~ …

2
R中的零膨胀计数模型:真正的优势是什么?
为了分析零膨胀的鸟类计数,我想使用R包pscl应用零膨胀的计数模型。但是,查看文档中提供的主要功能之一(?zeroinfl)的示例后,我开始怀疑这些模型的真正优势是什么。根据此处给出的示例代码,我计算了标准泊松,拟泊松和负生物模型,简单的零膨胀泊松和负二项式模型以及零膨胀泊松模型和负二项式模型,其中零分量为回归变量。然后,我检查了观测数据和拟合数据的直方图。(这是复制该代码的代码。) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family = quasipoisson) fm_nb <- glm.nb(art ~ ., data = bioChemists) ## with simple inflation (no regressors for zero component) …

1
连续和分类预测变量之间相互作用的混合模型多重比较
我想lme4用来拟合混合效果回归并multcomp计算成对比较。我有一个包含多个连续和类别预测变量的复杂数据集,但是可以使用内置ChickWeight数据集作为示例来说明我的问题: m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Time是连续的并且Diet是绝对的(4个级别),每个饮食中有多个小鸡。所有的雏鸡都以相同的体重开始,但是它们的饮食(可能)会影响它们的生长速度,因此Diet截距应该(或多或少)相同,但斜率可能会有所不同。我可以得到Diet像这样的拦截效果的成对比较: summary(glht(m, linfct=mcp(Diet = "Tukey"))) 并且确实没有显着差异,但是如何进行类似的测试Time:Diet?仅将交互作用项放入mcp会产生错误: summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in evaluating the argument 'object' in selecting a method for function 'summary': Error in mcp2matrix(model, linfct …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.