统计和大数据 r

5

我想知道为什么像R这样的某些语言同时具有NA和NaN。有什么区别或相等？真的需要NA吗？

48 r

4

我在R中使用具有10,000行和34个特征的party包，并且某些要素特征具有300多个级别。计算时间过长。（到目前为止，已花费了3个小时，但尚未完成。）我想知道哪些元素对随机森林的计算时间有很大影响。它的因素过多吗？是否有优化的方法来缩短RF计算时间？

48 r random-forest

7

经验丰富的开发人员从何处开始统计

在2015年上半年，我参加了机器学习课程（由GREAT课程的Andrew Ng 撰写）。并学习了机器学习的基础知识（线性回归，逻辑回归，SVM，神经网络...）我也是开发人员已有10年了，因此学习一种新的编程语言将不是问题。最近，我开始学习R以实现机器学习算法。但是我已经意识到，如果我想继续学习，我将需要更正式的统计学知识，目前我对它不是一个正规的知识，但是由于其局限性，例如，我无法正确确定几个线性模型中的哪个会更好（通常我倾向于使用R平方，但显然这不是一个好主意）。因此，对我来说，很明显我需要学习统计学的基础知识（我是在uni上学习的，但是却忘记了大部分），我应该在哪里学习，请注意，我实际上并不需要一门全面的课程一个月之内就可以让我了解足够的知识，这样我就可以渴望并了解更多:)。到目前为止，我已经阅读了有关“ 无泪统计 ”的信息，还有其他建议吗？

47 r regression machine-learning references

1

如果预测是目标，如何将标准化/标准化应用于训练和测试集？

是否同时转换所有数据或折叠（如果应用了简历）？例如 (allData - mean(allData)) / sd(allData) 我是否要分别转换训练集和测试集？例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 还是要转换训练集并在测试集中使用计算？例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 我相信3是正确的方法。如果3是正确的，我必须担心平均值不为0或范围不在[0; 1]或[-1; 1]（规范化）的测试集？

47 r cross-validation data-transformation normalization standardization

5

R-QQPlot：如何查看数据是否正态分布

在进行了Shapiro-Wilk正态性检验后，我已对此进行了绘制。测试表明，总体上可能呈正态分布。但是，如何在此情节中看到这种“行为”？更新数据的简单直方图：更新 Shapiro-Wilk测试表明：

47 r data-visualization normal-distribution histogram qq-plot

4

Logistic回归子集选择如何做？

我在R中拟合一个二项式族glm，并且我有一个完整的解释变量组合，所以我需要找到最好的（R平方作为度量是可以的）。缺少编写脚本以遍历解释变量的随机不同组合然后记录执行效果最好的脚本的过程，我真的不知道该怎么办。leaps程序包突飞猛进的功能似乎并没有进行逻辑回归。任何帮助或建议，将不胜感激。

47 r logistic

5

首先学习R包源代码，以研究编写自己的包

我打算开始编写R包。我认为最好学习现有软件包的源代码，以了解软件包构造的约定。我学习优质课程的标准：简单的统计/技术思想：重点是学习包装构造的机理。了解该程序包不要求有关该程序包实际主题的详细的高度特定领域的知识。简单和常规的编码风格：我在寻找的东西不止于此，Hello World而不仅仅是更多。第一次学习R软件包时，特质的技巧和黑客会分心。良好的编码风格：编写良好的代码。通常，它揭示了对良好编码的理解以及对R中编码约定的认识。问题：哪些套餐适合学习？为什么相对于上述标准或任何其他可能相关的标准，建议的软件包源代码对于研究起来很好？更新（13/12/2010）根据Dirk的评论，我想明确地说，毫无疑问，许多软件包都应该适合初学者。我也同意，软件包将提供用于不同事物的模型（例如，小插图，S3类，S4类，单元测试，Roxygen等）。尽管如此，阅读有关开始时使用好的软件包的具体建议以及为什么它们是开始时使用好的软件包的原因将很有趣。我还更新了上面的问题，以指代“包装”而不是“包装”。

47 r

3

是否可以基于曲线形状进行时间序列聚类？

我具有一系列网点的销售数据，并希望根据其随时间变化的曲线形状对其进行分类。数据大致如下所示（但显然不是随机的，并且有一些丢失的数据）： n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

47 r time-series clustering

5

如何根据R的logistic回归计算伪？

克里斯托弗·曼宁（Christopher Manning）关于R中逻辑回归的文章显示，R中的逻辑回归如下： ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) 一些输出： > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.31827 0.12221 …

46 r logistic log-likelihood

3

对数转换的预测变量和/或响应的解释

我想知道是否仅对因变量（无论是因变量还是自变量）还是仅对自变量进行了对数转换，在解释上是否有所不同。考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长，但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

2

如何模拟人工数据进行逻辑回归？

我知道我对逻辑回归的理解中缺少一些东西，非常感谢您的帮助。据我所知，逻辑回归假设给定输入的结果为“ 1”的概率是通过逆逻辑函数传递的输入的线性组合。以下R代码对此进行了举例说明： #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 …

45 r regression logistic generalized-linear-model simulation

5

在线使用R-无需安装[关闭]

是否可以在Web界面中使用R而无需安装它？我只有一个喜欢运行的小脚本，但我只想花一点时间就可以完成安装。谢谢。

45 r

3

什么是偏差？（特别是在CART / rpart中）

什么是“偏差”，它是如何计算的，在统计的不同字段中有什么用？特别是，我个人对它在CART中的使用（及其在R中的rpart中的实现）感兴趣。我之所以这么问，是因为维基文章似乎有所欠缺，您的见解将受到极大欢迎。

45 r cart rpart deviance

3

高斯家族的lm和lm之间有什么区别吗？

具体来说，我想知道lm(y ~ x1 + x2)和之间是否有区别glm(y ~ x1 + x2, family=gaussian)。我认为glm的这种特殊情况等于lm。我错了吗？

45 r normal-distribution generalized-linear-model lm

1

如何解释I型，II型和III型ANOVA和MANOVA？

我的主要问题是进行I型（顺序）方差分析时如何解释输出（系数，F，P）？我的具体研究问题要复杂一些，因此我将把例子分成几部分。首先，如果我对蜘蛛密度（X1）对植物生长（Y1）的影响感兴趣，并且我在围墙内种植了幼苗并控制了蜘蛛密度，那么我可以使用简单的ANOVA或线性回归分析数据。然后，对于ANOVA使用I，II或III平方和（SS）都没关系。就我而言，我有5个密度级别的4个副本，因此可以将密度用作因子或连续变量。在这种情况下，我更喜欢将其解释为连续的独立（预测变量）变量。在RI中可以运行以下命令： lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) 运行方差分析功能对于以后的比较很有希望，因此请在这里忽略它的奇怪之处。输出为： Response: y1 Df Sum Sq Mean Sq F value Pr(>F) density 1 0.48357 0.48357 3.4279 0.08058 . Residuals 18 2.53920 0.14107 现在，让我怀疑我无法控制的土壤中无机氮的起始水平可能也显着影响了植物的生长。我对这种效果并不特别感兴趣，但是想潜在地解释它引起的变化。确实，我的主要兴趣在于蜘蛛密度的影响（假设：蜘蛛密度的增加会导致植物生长的增加-大概是通过减少草食性昆虫引起的，但我只测试这种作用而不是机理）。我可以将无机氮的影响添加到我的分析中。出于我的问题，让我们假设我测试了交互作用密度* inorganicN，并且它并不重要，因此我将其从分析中删除并运行以下主要效果： > lm2 <- lm(y1 ~ density + inorganicN, data = Ena) > anova(lm2) …

45 r hypothesis-testing anova manova sums-of-squares

Questions tagged «r»