统计和大数据 r

7

如果知道我希望分布具有的均值和方差，如何计算Beta分布的和β参数？使用R命令执行此操作的示例将非常有帮助。αα\alphaββ\beta

66 r distributions estimation beta-distribution

8

我是经济学的研究生，最近从其他非常著名的统计软件包转换为R（我主要使用SPSS）。目前，我的小问题是我是班上唯一的R用户。我的同学使用Stata和Gauss，我的一位教授甚至说R是工程学的理想选择，而不是经济学的理想选择。他说，许多软件包是由对编程了解很多但对经济学了解不多的人构建的，因此并不可靠。他还提到了这样一个事实，因为构建R包实际上不涉及任何金钱，因此没有动机去正确地完成它（例如，与Stata不同），并且他使用R一段时间并在其中获得了一些“荒谬”的结果。他尝试估算一些东西。此外，他抱怨说自己在R中使用了随机数生成器，他说这是“ 我使用R仅仅一个多月了，我必须说我爱上了它。我从教授那里听到的所有这些东西只是让我沮丧。所以我的问题是：“ R在经济学领域是否可靠？”。

64 r software econometrics

1

如何解释泊松回归中的系数？

我如何解释泊松回归中的主要影响（虚拟编码因子的系数）？假设以下示例： treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

64 r generalized-linear-model interpretation poisson-distribution regression-coefficients

8

PCA后跟旋转（例如varimax）是否仍然是PCA？

我试图重现从SPSS一些研究（使用PCA）在R.根据我的经验，principal() 功能从包psych是差一点的唯一功能（或者，如果我没记错的话，死的）来匹配输出。为了匹配与SPSS中相同的结果，我必须使用parameter principal(..., rotate = "varimax")。我见过一些论文谈论它们如何进行PCA，但是基于SPSS的输出和旋转的使用，听起来更像是因子分析。问题：即使旋转（使用varimax），PCA还是PCA吗？我的印象是，这实际上可能是因子分析……如果不是这样，我遗漏了哪些细节？

63 r spss pca factor-analysis factor-rotation

3

如何实际从randomForest :: getTree（）绘制示例树？[关闭]

任何人都有关于如何从以下位置实际绘制几个示例树的库或代码建议： getTree(rfobj, k, labelVar=TRUE) （是的，我知道您不应该在操作上进行此操作，RF是一个黑匣子，依此类推。我想在视觉上检查树，以查看是否有任何违反直觉的变量，需要进行调整/组合/离散化/转换，检查我的编码因子的效果如何，等等）先前的问题，没有合适的答案：如何使随机森林更具解释性？同时从随机森林中获取知识我实际上想绘制一个样本树。所以，现在就不要与我争论。我不是在问varImpPlot（变量重要性图）或partialPlot或MDSPlot，或这些其他图，我已经知道了，但是它们不能代替查看示例树。是的，我可以目视检查的输出getTree(...,labelVar=TRUE)。（我想plot.rf.tree()贡献将是非常受欢迎的。）

62 r data-visualization random-forest cart

3

逻辑回归中的残差是什么意思？

在回答这个问题时，约翰·克里斯蒂（John Christie）建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差，它们与DV具有相同的比例，并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归，过去我通常只检查模型拟合的估计值，例如AIC，因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后，我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指： Davison，AC和Snell，EJ（1991）残留和诊断。在：统计理论与建模。为了纪念David Cox爵士，FRS编辑。欣克利，DV，里德，N。和斯内尔，EJ，查普曼和霍尔。我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种？在逻辑条件下，残差平方和会提供一种有意义的模型拟合度量，还是采用信息准则会更好？

62 r logistic generalized-linear-model residuals aic

4

如何报告微小的

对于在某些测试中R，存在对一个下限p值的计算2.22 ⋅ 10− 162.22⋅10-162.22 \cdot 10^{-16}。我不确定为什么是这个数字，是否有充分的理由，或者它是任意的。许多其他统计信息包都可以使用0.0001，因此精度更高。但是我没有看到太多的论文报告或。p < 2.22 ⋅ 10− 16p<2.22⋅10-16p < 2.22\cdot 10^{-16}p = 2.22 ⋅ 10− 16p=2.22⋅10-16p = 2.22\cdot 10^{-16} 报告此计算值是常见/最佳做法，还是报告其他内容（例如p < 0.000000000000001）更典型？

62 r p-value reporting precision

6

使用R进行套索预测的标准误差

我正在尝试使用LASSO模型进行预测，并且需要估算标准误差。肯定有人已经编写了一个软件包来执行此操作。但是据我所知，使用LASSO进行预测的CRAN程序包都不会返回这些预测的标准错误。所以我的问题是：是否有可用的软件包或一些R代码来计算LASSO预测的标准误差？

60 r standard-error prediction lasso

5

为什么在获得重要结果之前收集数据会增加I型错误率？

我确实想知道为什么收集数据直到获得显着结果（例如）（即p-hacking）会增加I型错误率？p < .05p<.05p \lt .05 我也非常感谢R对此现象的演示。

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

4

为什么在GAM中包含纬度和经度会引起空间自相关？

我已经制作了用于毁林的广义加性模型。为了说明空间自相关，我将经度和纬度作为平滑的交互项（即s（x，y））包括在内。我以阅读许多论文为基础，这些论文的作者说：“要考虑空间自相关，将点的坐标作为平滑项包括在内”，但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍，以期找到答案，但是大多数书籍（例如，通用加性模型，R的简介，SN Wood）只是在不加解释的情况下触及了该主题。如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中，以及“帐户”的真正含义，我真的很感激-将其包含在模型中是否足够简单，或者您应该将模型与s（x，y）in和没有模型？术语解释的偏差是否表示空间自相关的程度？

60 r modeling spatial autocorrelation gam

2

如何在ggplot2中更改图例的标题？[关闭]

我在ggplot2中绘制了一个图表，以汇总来自2 x 4 x 3单元格数据集的数据。我已经能够使用制作2级变量的面板，并使用facet_grid(. ~ Age)来设置x和y轴aes(x=4leveledVariable, y=DV)。aes(group=3leveledvariable, lty=3leveledvariable)到目前为止，我以前一直在制作情节。这给了我一个由2级变量覆盖的可视化效果，X轴代表4级变量，并且在面板上为3级变量绘制了不同的线。但是3级变量的键以3级变量的名称作为标题，我希望它成为一个具有字符空间的标题。如何重命名图例的标题？我尝试过的东西似乎不起作用（abp我的ggplot2对象在哪里）： abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") 示例数据： ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

58 r data-visualization ggplot2

1

了解ROC曲线

我在理解ROC曲线时遇到问题。如果我从训练集的每个唯一子集构建不同的模型并使用它来产生概率，ROC曲线下的面积是否有任何优势/改善？例如，如果具有值{ 一个，一，一，一，b ，b ，b ，b }，和我建立模型阿通过使用一个从第一-第四值ÿ的和8-9值ÿ和构建使用剩余火车数据的模型B。最后，产生概率。任何想法/意见将不胜感激。yyy{a,a,a,a,b,b,b,b}{a,a,a,a,b,b,b,b}\{a, a, a, a, b, b, b, b\}AAAaaayyyyyyBBB 这是用于我的问题的更好解释的r代码： Y = factor(0,0,0,0,1,1,1,1) X = matirx(rnorm(16,8,2)) ind = c(1,4,8,9) ind2 = -ind mod_A = rpart(Y[ind]~X[ind,]) mod_B = rpart(Y[-ind]~X[-ind,]) mod_full = rpart(Y~X) pred = numeric(8) pred_combine[ind] = predict(mod_A,type='prob') pred_combine[-ind] = predict(mod_B,type='prob') pred_full = predict(mod_full, type='prob') 所以我的问题是，的ROC曲线下面积pred_combineVS …

57 r roc

1

R中的逻辑回归导致完美的分离（Hauck-Donner现象）。怎么办？

我正在尝试使用50个连续的解释变量来预测二进制结果（大多数变量的范围是到）。我的数据集几乎有24,000行。当我在R中运行时，我得到：∞−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred 我已阅读过其他建议，可能会发生完美分离，但我确信数据中并非如此（尽管存在准完全分离；如何测试情况是否如此？）。如果删除一些变量，则“不收敛”错误可能会消失。但这并不总是会发生。我尝试在bayesglm函数中使用相同的变量，并得到相同的错误。您将采取什么步骤来弄清楚这里到底发生了什么？您如何找出导致问题的变量？

56 r regression logistic separation

8

用于深度学习的R库

我想知道是否有用于深度学习神经网络的良好R库？我知道还有的nnet，neuralnet以及RSNNS，但没有这些似乎实现深度学习方法。我对无监督学习，然后进行有监督学习，以及使用辍学防止共同适应特别感兴趣。 / edit：几年后，我发现h20深度学习软件包设计精良且易于安装。我也喜欢mxnet软件包，该软件包安装起来有点困难，但支持像covnets这样的东西，可以在GPU上运行，而且速度非常快。

56 r neural-networks deep-learning rbm deep-belief-networks

9

如何在lme4混合模型中获得效果的p值（检查显着性）？

我在R中使用lme4来适应混合模型 lmer(value~status+(1|experiment))) 价值是连续的，状态和实验是因素，我得到 Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

56 r hypothesis-testing mixed-model p-value lme4-nlme

Questions tagged «r»