Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


5
主题测试后的特设课程?
在主题测试中进行事后调查的首选方法是什么?我已经看过使用Tukey的HSD的已发表工作,但是对Keppel和Maxwell&Delaney的评论表明,这些设计中可能会违反球形性,因此误差项不正确,并且这种方法存在问题。Maxwell&Delaney在他们的书中提供了解决该问题的方法,但我从未在任何统计数据包中看到过这样做的方法。他们提供的方法合适吗?对多个配对样本t检验进行Bonferroni或Sidak校正是否合理?可接受的答案将提供通用的R代码,该代码可以对包装中的ezANOVA功能所产生的简单,多路和混合设计进行事后分析ez,并提供适当的引文,可能会引起审阅者的注意。

4
从正态分布的混合中生成随机变量
如何从中的混合分布,尤其是正态分布的混合中采样R?例如,如果我想从以下位置取样: 0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1)0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) 我该怎么办?

2
插入符号训练对glmnet是否对alpha和lambda交叉验证?
R caret包是否同时针对模型alpha和模型lambda进行交叉验证glmnet?运行此代码, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) 培训日志如下所示。 Fold10.Rep3: alpha=1.0, lambda=NA 什么lambda=NA意思

3
如何在GLM中解释拦截项?
我正在使用R,并且一直在使用具有二项式链接的GLM分析数据。 我想知道输出表中拦截的含义是什么。我的一个模型的截距明显不同,但是变量没有。这是什么意思? 什么是拦截。我不知道我是否只是在迷惑自己,而是在互联网上搜索,没有什么可说的,就是这样,注意它...还是不。 请帮助,一个非常沮丧的学生 glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** treatmentshiny_non-shiny 0.000 1.461 0.000 1.00000 (Dispersion parameter for binomial family …

5
为什么要用低秩近似值打扰?
如果您的矩阵具有n行和m列,则可以使用SVD或其他方法来计算给定矩阵的低秩近似。 但是,低阶近似仍将具有n行和m列。假设您拥有相同数量的特征,低秩近似对于机器学习和自然语言处理如何有用?

5
是否有一个R函数可以计算余弦相似度矩阵?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我想通过基于余弦距离的行聚类制作一个热图。我正在使用R并heatmap.2()制作数字。我可以看到其中有一个dist参数,heatmap.2但是找不到用于生成余弦相异度矩阵的函数。内置dist函数不支持余弦距离,我还发现了一个arules带有dissimilarity()函数的包,但仅适用于二进制数据。

2
为逻辑回归绘制预测概率的置信区间
好的,我进行了逻辑回归,并使用该predict()函数根据我的估计来绘制概率曲线。 ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") 很好,但我对绘制概率的置信区间感到好奇。我已经尝试过plot.ci()但是没有运气。谁能指出一些完成此操作的方法,最好是使用car包装或基数R。

2
配对t检验是线性混合效应建模的特例
我们知道,配对t检验只是单向重复测量(或对象内)ANOVA以及线性混合效应模型的一种特殊情况,可以用Rme中的lme()函数的lme()函数进行演示如下所示。 #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") 当我运行以下配对t检验时: t.test(x1, x2, paired = TRUE) 我得到了这个结果(由于随机生成器,您将得到不同的结果): t = -2.3056, df = 9, p-value = 0.04657 …

1
R中qqline()产生的行的用途是什么?
的qqnorm()一个R函数产生一个正常QQ-情节和qqline()增加了穿过第一和第三四分位数的线。这条线的起源是什么?检查正常性是否有帮助?这不是经典线(线性缩放后,对角线)。ÿ= xÿ=Xy=x 这是一个例子。首先,我比较的理论分布函数经验分布函数: 现在我绘制QQ-情节与线Ŷ = μ + σ X ; 该图大致对应于上一个图的(非线性)缩放比例: 但是,这是带有R qqline的qq图: 这最后一个图没有像第一个图那样显示偏离。ñ(μ^,σ^2)ñ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)ÿ= μ^+ σ^Xÿ=μ^+σ^Xy=\hat\mu + \hat\sigma x

1
非参数检验是否从同一分布中抽取两个样本
我想检验一个假设,即从同一总体中抽取两个样本,而无需对样本或总体的分布进行任何假设。我应该怎么做? 在Wikipedia上,我的印象是Mann Whitney U考试应该是合适的,但实际上似乎对我没有用。 为了具体起见,我创建了一个数据集,其中包含两个样本(a,b),它们大(n = 10000),并从两个非正态(双峰),相似(均值),但不同(标准差)的总体中得出我正在寻找一种测试,可以识别出这些样本不是来自同一群体。 直方图视图: R代码: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n = c(rnorm(1e4, mean=50, sd=3), rnorm(1e4, mean=100, sd=3))) ggplot(rbind(a,b), aes(x=n, fill=group)) + geom_histogram(position='dodge', bins=100) 令人惊讶的是,这是曼·惠特尼(Mann Whitney)检验(?)无法拒绝样本来自同一总体的原假设: > wilcox.test(n ~ group, rbind(a,b)) Wilcoxon rank …

3
稀有事件逻辑回归偏差:如何用一个最小的例子模拟被低估的p?
CrossValidated对于何时以及如何应用King和Zeng(2001)的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西:一个基于模拟的最小演示,证明存在偏差。 特别是国王和曾国 “……在极少数事件数据中,几千个样本量的概率偏差可能实际上是有意义的,并且处于可预测的方向:估计的事件概率太小。” 这是我尝试模拟R中的这种偏差: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …

3
朱莉娅(Julia):回顾过去的表现
这篇文章与一个快速变化的事件有关。 我遇到了一个2012年的问题,该问题对朱莉娅进行了很好的讨论,关于朱莉娅是R / Python的替代品,用于各种类型的统计工作。 这是2012年关于朱莉娅的诺言的原始问题 不幸的是,朱莉娅那时还很新,而统计工作所需的工具包有些原始。错误正在被消除。发行版很难安装。等等。 有人对此问题发表了非常恰当的评论: 这就是说,事后才可能回答这个问题还需要5年。到目前为止,Julia缺少统计编程系统的以下关键方面,这些系统可能与R竞争日常用户: 那是在2012年。现在已经到了2015年,并且已经过去了三年,我想知道人们如何看待Julia的成就? 语言本身和整个Julia生态系统是否有更丰富的经验?我会很高兴知道。 特别: 您会建议统计工具的新用户学习R上的Julia吗? 您会建议某人使用哪种Statistics统计用例? 如果R在执行某项任务时很慢,切换到Julia或Python是否有意义? 注意:2015年6月14日首次发布。
19 r  python  computing  julia 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.