统计和大数据 r

6

我有使用t检验分析的实验数据。对因变量进行间隔缩放，并且数据不成对（即2组）或成对（即对象内）。例如（主题内）： x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) 但是，数据并不正常，因此一位评论者要求我们使用t检验以外的其他方式。但是，很容易看出，数据不仅不呈正态分布，而且在不同条件之间分布也不相等：因此，不能使用常规的非参数检验，Mann-Whitney-U检验（成对）和Wilcoxon检验（成对），因为它们要求条件之间的分布相等。因此，我认为最好进行一些重采样或置换测试。现在，我正在寻找基于t检验的基于置换的R实现，或有关如何处理数据的任何其他建议。我知道有一些R包可以帮我做到这一点（例如硬币，烫发，exactRankTest等），但我不知道该选哪个。因此，如果有一些使用这些测试的经验的人可以给我一个快速的开始，那将是ubercool。更新：如果您可以提供一个如何报告此测试结果的示例，那将是理想的。

56 r t-test nonparametric permutation-test

8

如何模拟满足特定约束（例如具有特定均值和标准偏差）的数据？

这个问题是由我的荟萃分析问题引起的。但是我想这对于在您要创建与现有已发布数据集完全相同的数据集的教学环境中也很有用。我知道如何从给定的分布中生成随机数据。因此，例如，如果我读到了一项研究的结果，该研究具有：平均102 标准偏差5.2 样本大小为72。我可以rnorm在R中使用生成类似的数据。例如， set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) 当然，平均值和标准差将分别不完全等于102和5.2： round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 通常，我对如何模拟满足一组约束的数据感兴趣。在上述情况下，约束条件是样本大小，均值和标准差。在其他情况下，可能会有其他限制。例如，可能知道数据或基础变量的最小值和最大值。可能已知该变量仅采用整数值或仅采用非负值。数据可能包含具有相互关系的多个变量。问题通常，我该如何模拟完全满足一组约束的数据？是否有关于此的文章？R中是否有任何程序可以做到这一点？为了举例说明，我应该并且应该如何模拟变量，使其具有特定的均值和sd？

56 r dataset simulation random-generation

4

在LM和GLM之间选择对数转换后的响应变量

我试图了解使用广义线性模型（GLM）与线性模型（LM）的原理。我在下面创建了一个示例数据集：日志（y）= x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化，因此我假设对数转换的y的线性模型是最好的。在下面的示例中，确实是这种情况（我认为）-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和（SS），但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高（即使SS是模型中最低的）。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗？另外，应该如何选择合适的分销家庭。在此先感谢您的帮助。 [编辑]：我现在调整了摘要统计信息，以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- …

55 r generalized-linear-model linear-model gamma-distribution link-function

3

有关如何在lmer中指定随机效应的问题

我最近通过测量在不同上下文中查看该单词时的ERP（EEG），测量了在反复暴露（练习：第1天到第10天）时如何获取一个新单词的含义。我还控制了上下文的属性，例如，它对发现新词义（高或低）的有用性。我对练习的效果（天）特别感兴趣。由于单独的ERP记录比较嘈杂，因此可以通过对特定条件的试验求平均值来获得ERP组件值。通过该lmer函数，我应用了以下公式： lmer(ERPindex ~ practice*context + (1|participants), data=base) 和 lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) 在文献中，我还看到了以下等效随机效应： lmer(ERPindex ~ practice*context + (practice|participants) + (practice|participants:context), data=base) 使用以下形式的随机因子可以完成什么工作participants:context？是否有一个很好的资源可以让对矩阵代数仅有粗略了解的人准确地了解线性混合模型中的随机因素是什么以及应该如何选择它们？

55 r mixed-model lme4-nlme random-effects-model

6

R中逻辑回归的替代方法

我想要执行与逻辑回归相同任务的许多算法。也就是说，可以使用一些解释变量（X）预测二进制响应（Y）的算法/模型。如果为算法命名后，如果您还演示如何在R中实现它，我将非常高兴。这是一个可以用其他模型更新的代码： set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

55 r regression logistic classification predictive-models

9

R和Python在数据科学方面如何互补？

在许多教程或手册中，叙述似乎暗示R和python作为分析过程的补充组件共存。但是，对我而言，这两种语言似乎在做同样的事情。所以我的问题是，这两种语言是否真的有专门的细分市场，还是使用一种或另一种只是个人喜好？

54 r python software

3

使用主成分分析（PCA）进行特征选择

我是功能选择的新手，我想知道您将如何使用PCA进行功能选择。PCA是否为每个输入变量计算一个相对分数，您可以使用它来过滤掉非信息性输入变量？基本上，我希望能够按差异或所包含的信息量对数据中的原始特征进行排序。

54 r pca feature-selection

3

像Box-Cox这样的自变量转换？

是否存在类似于Box-Cox的自变量转换？就是说，可以优化变量的转换，以便可以更合理地拟合线性模型？xxxy~f(x) 如果是这样，是否有执行此操作的功能R？

53 r regression data-transformation normality-assumption

3

数据API /提要作为R中的软件包提供

编辑：Web技术和服务 CRAN 任务视图包含R中可用的数据源和API的更全面的列表。如果希望将包添加到任务视图，则可以在github上提交拉取请求。我列出了已经挂接到R或易于设置的各种数据馈送。这是我最初的软件包列表，我想知道我还缺少什么。我试图将此列表限制为“实时”或“接近实时”数据供稿/ API，其中底层数据可能在下载之间发生变化。静态数据集有很多列表，只需下载一次即可。该列表目前偏向于财务/时间序列数据，我可以借助一些帮助将其扩展到其他领域。免费数据：数据源-包谷歌财经的历史数据 - quantmod 谷歌财经的资产负债表 - quantmod 雅虎财经的历史数据 - quantmod 雅虎财经的历史数据- TSERIES 雅虎财经当前的期权链 - quantmod 雅虎财经历史分析师的预期 - fImport 雅虎财经当前关键统计 - fImport -似乎被打破 OANDA历史汇率/金属价格 - quantmod FRED历史性的宏观经济指标 - quantmod 世界银行历史的宏观经济指标 - WDI 谷歌趋势的历史搜索量数据 - RGoogleTrends 谷歌文档- RGoogleDocs 谷歌存储- RGoogleStorage Twitter的 - Twitter的 Zillow的 …

53 r references dataset

6

随机森林模型的预测是否具有预测间隔？

如果运行randomForest模型，则可以基于该模型进行预测。有没有一种方法可以获取每个预测的预测间隔，以使我知道模型如何“确定”其答案。如果可能的话，是仅仅基于整个模型的因变量的可变性，还是根据特定预测所遵循的特定决策树，其间隔会变宽还是变窄？

52 r confidence-interval random-forest

6

如何使用R中的ROC曲线确定最佳截止点及其置信区间？

我有一项测试数据，可用于区分正常细胞和肿瘤细胞。根据ROC曲线，此目的看起来不错（曲线下的面积为0.9）：我的问题是：如何确定该测试的临界点及其置信区间，在该区间应该将读数判断为不明确？可视化此最佳方法（使用ggplot2）是什么？图是使用ROCR和ggplot2包呈现的： #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …

51 r data-visualization confidence-interval roc ggplot2

6

推荐哪本书开始同时使用R学习统计信息？

使用R学习统计书籍我要寻找的书到底是什么。我正在寻找的是一本书，该书在使用R的同时教给您一些统计知识，从而为您提供动手实践的经验，从而最终帮助您一起学习R。我在亚马逊上看到了很多尝试这样做的书，但是没有R的书。Minitab和SAS是例子。 R书和统计计算可以选择吗？- 仍然没有回答。《 R书与统计计算：使用S-Plus进行数据分析入门》似乎是可行的，但此处的读者意见将对您有所帮助并受到欢迎。这本书与统计课程有何关系？为了更精确地寻找我要寻找的东西，请考虑这两门课程是从大学的数学系学习统计学的成果，我目前是一名学生：中级统计和概率统计，也就是说，我在书中看的是一门中级水平的普通统计课程，而不仅仅是学习和使用R的纸和纸。这也意味着我正在寻找一本假定我想从一开始就学习统计学的书。这本书也适合研究人员。我也是一名软件工程师研究员，但我想目前的情况是发现大量的数据，并且想要学习统计数据以继续编写代码以实现自动化，这几乎适用于许多其他领域。这意味着我对学习每条曲线的每个属性的每个细节都没有兴趣，但是更关心在研究领域中了解数据的意义，尽管我不介意这本书是否想深入探讨该问题。。作为最后的动力，我发现自己在不同种类的社区中阅读科学论文，这些论文根据统计推断来宣称结果，而没有可读的证据证明是否违反了统计假设/约束。与统计资料无关的AR书籍不会确保我不会遵循这种做法，这也是为什么我决定寻找一本类似于R的统计学课程的书籍，而不是浏览概述书籍的原因。交叉验证中的相关问题。哪些书概述了适用于计算机科学的计算统计信息？-不同之处在于，在使用R学习统计信息时，问题会寻找概述。开源统计书籍提供了在线可用的开源（开放书籍）列表。有关此问题的答案和反馈。 @朱丽叶建议的书很少见，但是很不幸，它不适合我：初级统计有R，使用R代表介绍统计，统计：使用为r的介绍是少数的，我已经看了关于亚马逊的书籍，但都是关于统计概述或作出这样的要求之前的统计知识假设。概述书的问题主要是关于不引起对假设，约束的关注，并提供足够的解释以使信息有意义。如果您认为没有一本书也可以满足此需求，或者您认为R书或《统计计算：使用S-Plus进行数据分析入门》也适合，我也希望得到这种答案。 @克里斯托弗·亚丁概率统计概论使用R似乎是我所寻找的最接近的方法，但仍是广义的方法。我期望的是像David S. Moore这样的书，《统计基础》，因为：它涵盖了所有统计主题。它使用miniTab等两个工具对上述方法进行动手学习。它非常突出了假设和约束。对于尚未参加深度统计学课程并想使用统计学的研究人员而言，这非常重要。几乎没有概述书籍可以涵盖这些内容，这对研究人员来说是危险的。您可以在此处查看本书的目录。请注意，重点是统计，工具的使用是为了增进理解，并使学生在学习后以更简单的方式知道如何使用工具进行统计。它与工具无关，与统计有关！我想要完全一样的东西，但是使用R。 @格雷戈里·德明它使用R作为教学法示例，假设您想学习统计学，最重要的是，它是开源的。不幸的是，它不包括ANOVA，ANCOVA或其他更高级的主题。彼得·埃利斯对于涵盖该问题需要内容的教科书，提出了很好的建议。提问者认为可以回答问题的书籍。 @Peter Ellis和@Gregory Demin。亚马逊上R书的集合可以在这里找到有关针对不同学生背景的R书的亚马逊讨论。视频讲座教学，使用R进行统计从2007年也促使这个问题，涵盖了更多关于数据挖掘，而不是统计数据，但同时，使用R谷歌技术讲座在这里。

50 r references

1

从逻辑回归模型拟合中获得预测值（Y = 1或0）

假设我有一个类的对象glm（对应于逻辑回归模型），并且我想将predict.glm使用参数提供的预测概率type="response"转换为二进制响应，即或。在R中最快，最规范的方法是什么？Y=1Y=1Y=1Y=0Y=0Y=0 再次，虽然我知道了predict.glm，但我不知道截止值确切 -我想这是我这里的主要绊脚石。P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

50 r generalized-linear-model logistic

1

Bootstrap与Jackknife

引导法和折刀法都可以用来估计估计值的偏差和标准误差，并且两种重采样方法的机制也没有很大的不同：一次替换采样与一次不进行观察。但是，折刀在研究和实践中不像自举法那样受欢迎。使用引导程序而不使用折刀刀有明显的优势吗？

49 r confidence-interval bootstrap jackknife

4

在t检验中根据t值手动计算P值

我有一个31个值的样本数据集。我使用R进行了两尾t检验，以检验真实均值是否等于10： t.test(x=data, mu=10, conf.level=0.95) 输出： t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 现在，我正在尝试手动执行相同的操作： t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) 使用此方法计算的t值与t检验R函数的输出相同。但是，p值为3.025803e-12。 …

48 r statistical-significance t-test p-value

Questions tagged «r»