统计和大数据 r

2

我对适合古科学中使用的特定类型模型的不同方法进行了基于计算机的评估。我的训练集很大，因此我随机（分层随机抽样）留出了测试集。我为训练集样本拟合了mmm种不同的方法，并使用mmm结果模型预测了测试集样本的响应，并针对测试集中的样本计算了RMSEP。这是一次运行。然后，我多次重复此过程，每次我通过随机采样新的测试集来选择不同的训练集。完成此操作后，我想研究mmm种方法中的任何一种是否具有更好或更差的RMSEP性能。我还想对成对方法进行多次比较。我的方法是拟合线性混合效果（LME）模型，并为Run提供单个随机效果。我使用lmer()了lme4软件包中的数据，以适应multcomp软件包中的模型和函数，以执行多次比较。我的模特本质上是 lmer(RMSEP ~ method + (1 | Run), data = FOO) 其中method是一个因素，指示用于生成测试集的模型预测的哪种方法，并且Run是每个特定运行的指标 “实验”的。我的问题是关于LME的残差。给定运行的单个随机效应我假设该的RMSEP值在某种程度上相关，但在运行之间不相关，这是基于随机效应所提供的诱导相关性。运行之间的独立性这一假设有效吗？如果不是，那么在LME模型中是否可以解决这个问题，还是我应该寻求采用其他类型的静态分析来回答我的问题？

17 r mixed-model multiple-comparisons simulation independence

3

R中的零膨胀负二项式混合效应模型

是否有提供R中零膨胀负二项式混合效应模型估计的软件包？我的意思是：零充气，您可以在其中为零充气指定二项式模型，例如pscl包中的功能zeroinfl： zeroinfl（y〜X | Z，dist =“ negbin”）其中Z是零通胀模型的公式；模型计数部分的负二项式分布；指定的随机效果类似于软件包lme4的功能lmer。我知道glmmADMB可以做所有的事情，除了不能指定零通货膨胀的公式（这只是一个截距，即Z仅为1）。但是还有其他软件包可以做到吗？我将非常感谢您的帮助！

17 r mixed-model count-data negative-binomial zero-inflation

2

列联表的筛子/镶嵌图的替代品

我曾经偶然发现过一种我非常喜欢的用于Internet上分类数据（即列联表）的图表，但是我再也找不到了，甚至不知道它叫什么。它本质上就像一个筛图，因为行高和列宽是相对于边际概率缩放的。因此，将每个框缩放到独立时预期的相对频率。但是，它与筛网图的不同之处在于，它不是在每个框内绘制交叉影线，而是在每个观测值的双变量均匀变量中随机选择的位置绘制了一个点（类似于散点图）。这样，点的密度反映了观察到的计数与预期计数的匹配程度。也就是说，如果每个框中的密度都相似，则空模型是合理的，我，Ĵ一世，Ĵi,j）在空模型下可能不太可能。因为是绘制点而不是阴影线，所以绘制的元素与观察到的计数之间存在简单直观的对应关系，对于筛网图不一定是正确的（见下文）。此外，点的随机放置使绘图具有“有机”感觉。此外，颜色可用于突出显示与零模型有很大差异的框/单元格，并且图矩阵可用于检查许多不同变量之间的成对关系，因此可以结合相似图的优点。有谁知道这个阴谋叫什么？是否有可以在R或其他软件（例如Mondrian）中轻松实现此功能的软件包/功能？我在vcd中找不到类似的东西。当然，从头开始可能很难对其进行编码，但这会很痛苦。这是一个筛分图的简单示例，请注意，很容易看出在空模型下不同类别的预期计数应如何发挥作用，但很难将交叉影线与实际数字相协调，从而产生了一个不相当容易阅读并且在美学上很丑陋： B ~B A 38 4 ~A 3 19 就其价值而言，镶嵌图具有相反的问题：尽管更容易查看哪些单元格具有“太多”或“太少”的计数（相对于null模型），但更难于识别出它们之间的关系。预期数会是。具体来说，列宽是相对于边际概率缩放的，而行高却不是，因此几乎无法提取该信息。现在换个完全不同的东西... 有谁知道使用蓝色表示“太多”而使用红色表示“太少”的约定从何而来？这对我一直都是违反直觉的。在我看来，是非常高的密度（或太多的意见）去与热，低密度去与冷，而且（至少在舞台灯光）红色是变暖和蓝色是库尔斯。更新：如果我没记错的话，我看到的情节是一本书的pdf文件（简介或ch1），该书是作为市场营销预告片免费在线提供的。这是我从头开始编写的想法的粗略版本：即使使用此粗略版本，我认为它也比筛图更易于阅读，并且在某些方面比镶嵌图更容易理解（例如，更容易识别它们之间的关系）。单元频率之间的差异将是独立的）。这将是很好的函数是：一。将使用任何列联表自动执行此操作；b。可以用作绘图矩阵的构建块，并且c。会具有上述图所附带的出色功能（例如镶嵌图上的标准化残差图例）。

17 r data-visualization categorical-data

3

具有序数自变量的连续因变量

给定连续因变量y和包括序数变量X 1的自变量，如何拟合线性模型R？是否有关于此类模型的论文？

17 r regression lasso ordinal-data predictor

2

列联表：要执行什么测试以及何时执行？

我希望看到有关古老的chi-sq与Fisher的确切测试辩论的讨论的扩展，从而扩大了范围。列联表中有许多用于交互的测试，足以使我旋转。我希望对我应该使用哪种测试以及何时使用进行解释，当然也可以解释为什么一个测试比另一个测试更受欢迎。我目前的问题是经典的情况，但是至少在不确定的情况下，欢迎提供有关更高维度的答案，以及在R中实现各种解决方案的技巧。n×mn×mn \times m 下面列出了我知道的所有测试；我希望通过公开我的错误可以纠正它们。 χ2χ2\chi^2。旧的备用。这里有三个主要选项： R对2x2表内置的校正：“从所有差中减去一半。” 我应该一直这样做吗？|O−E||O−E||O-E| “ ”测试，不确定如何在R中执行此操作。χ 2N−1N−1N-1χ2χ2\chi^2 蒙特卡洛模拟。这总是最好的吗？为什么我这样做时R不给我df？费舍尔的精确检验。传统上建议何时应将任何单元格小于4，但显然有些人对此建议提出异议。（通常是错误的）边际固定的假设真的是这个测试的最大问题吗？巴纳德的精确测试另一个确切的测试，只是我从未听说过。泊松回归关于glms总是让我感到困惑的一件事就是如何进行这种重要性测试，因此在此方面的帮助将不胜感激。最好进行嵌套模型比较吗？对于特定预测变量的Wald检验呢？我真的应该一直在进行泊松回归吗？这是什么和之间的实际差别测试？χ2χ2\chi^2

17 r chi-squared contingency-tables

2

如何在R中创建具有多个因变量的广义线性模型？

我有六个因变量（计数数据）和几个自变量，我看到在MMR中，脚本如下所示： my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) 但是，由于我的数据是计数，因此我想使用广义线性模型，并尝试了以下方法： my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") 并显示此错误消息： Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, : (subscript) logical subscript …

17 r generalized-linear-model multiple-regression

4

在线性回归中确认残差的分布

假设我们进行了简单的线性回归y=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+u，保存残差ui^ui^\hat{u_i}和绘制残差分布的直方图。如果我们得到的东西看起来像是熟悉的分布，是否可以假定我们的误差项具有该分布？说，如果我们发现残差类似于正态分布，那么假设总体中误差项的正态性是否有意义？我认为这是明智的，但是如何证明其合理性呢？

17 r regression residuals

3

R中随时间变化的系数-怎么做？

更新：很抱歉要进行其他更新，但是我发现了一些需要解决的小数多项式和竞争性风险组合的解决方案。问题我在R中找不到一种简单的方法来进行时变系数分析。我希望能够将变量系数转换为时变系数（而不是变量），然后绘制随时间变化的图： β米ÿ_ v a r a a b l e= β0+ β1个* t + β2* Ť2。。。β米ÿ_v一种[R一世一种b升Ë=β0+β1个∗Ť+β2∗Ť2。。。\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能的解决方案 1）分割数据集我看了这个示例（实验课程的第2部分），但是创建一个单独的数据集似乎很复杂，计算量大，而且不是很直观... 2）降级模型-coxvc软件包该coxvc包提供了处理问题的一种优雅的方式-这里有一个手动。问题在于作者不再开发该软件包（最新版本是自2007年5月23日以来），经过一些电子邮件对话，我已经使该软件包起作用，但是我的数据集运行了5个小时（140 000项），并在此期间结束时给出极端估算。您可以在这里找到稍微更新的软件包 -我基本上只是更新了plot函数。这可能只是一个调整问题，但是由于该软件无法轻松提供置信区间，并且该过程非常耗时，因此我现在正在寻找其他解决方案。 3）timereg包令人印象深刻的timereg软件包也解决了这个问题，但是我不确定如何使用它，也无法给我一个顺利的过程。 4）分数多项式时间（FPT）模型我发现Anika Buchholz在“评估随时间变化的疗法和预后因素的长期效果 ”方面的出色论文，在涵盖不同模型方面做得很好。她的结论是，Sauerbrei等人提出的FPT似乎最适合于时间相关系数： FPT非常擅长检测时变效应，而“降低秩次”方法会导致模型过于复杂，因为它不包括时变效应的选择。研究似乎很完整，但对我来说却有点遥不可及。自从她碰巧与Sauerbrei合作以来，我还有些纳闷。听起来似乎不错，但我想可以使用mfp软件包进行分析，但是我不确定如何做。 5）cmprsk软件包我一直在考虑进行竞争性风险分析，但是计算非常耗时，因此我改用常规的Cox回归。该CRR有thoug时间依赖性协变量的选项： .... cov2 matrix of covariates that will be multiplied by functions of time; if …

17 r regression survival cox-model

1

如何使用Sweave和xtable创建彩色表？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。我正在使用Sweave和xtable生成报告。我想在桌子上添加一些颜色。但是我还没有找到任何用xtable生成彩色表的方法。还有其他选择吗？

17 r reproducible-research

2

R中的非参数贝叶斯分析

我正在寻找有关R使用分层狄利克雷过程（HDP）（最近和流行的非参数贝叶斯方法之一）中的数据聚类的良好教程。非参数贝叶斯分析有DPpackage（恕我直言，是所有可用方法中最全面的）R。但是我无法充分理解R News软件包参考手册中或软件包参考手册中提供的示例来编写HDP。任何帮助或指针，表示赞赏。此处提供了用于主题建模的HDP的C ++实现（请在底部查看C ++代码）

17 r bayesian clustering nonparametric

6

R：按组计算相关性

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。在R中，我有一个数据帧，包括一个类别标签C（一个因数）和两个测量值M1和M2。如何计算每个类别中M1和M2之间的相关性？理想情况下，我将返回一个数据帧，其中每个类一行一行，两列：类标签C和相关性。

17 r correlation

1

重复测量的不平衡混合效应方差分析

我有手术期间接受2种不同治疗方法治疗的患者的数据。我需要分析它对心率的影响。每15分钟测量一次心率。鉴于每个患者的手术时间可能不同，因此每个患者可以进行7到10次心率测量。因此，应使用不平衡的设计。我正在使用R进行分析。并且一直在使用ez软件包重复测量混合效果方差分析。但是我不知道如何分析不平衡的数据。有人可以帮忙吗？也欢迎有关如何分析数据的建议。更新：按照建议，我使用lmer函数拟合了数据，发现最好的模型是： heart.rate~ time + treatment + (1|id) + (0+time|id) + (0+treatment|time) 结果如下： Random effects: Groups Name Variance Std.Dev. Corr id time 0.00037139 0.019271 id (Intercept) 9.77814104 3.127002 time treat0 0.09981062 0.315928 treat1 1.82667634 1.351546 -0.504 Residual 2.70163305 1.643665 Number of obs: 378, groups: subj, 60; time, …

17 r mixed-model repeated-measures lme4-nlme

1

在随机森林中，较大的％IncMSE是更好还是更坏？

在R中建立一个（回归）随机森林模型后，该调用rf$importance为我提供了两个针对每个预测变量的度量，%IncMSE和IncNodePurity。%IncMSE值较小的预测变量%IncMSE比值较大的预测变量重要吗？怎么样IncNodePurity？

17 r feature-selection random-forest

2

用于回归的多项式对比

我无法理解回归拟合中多项式对比的用法。特别是，我指的是，用于R表示此页面上描述的间隔变量（具有相等间距的正交变量）使用的编码。在该页面的示例中，如果我理解正确的话，R适合间隔变量的模型，返回一些权重，以加权其线性，二次或三次趋势。因此，拟合模型应为： write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, 其中应取的值，，，或根据不同的电平的间隔可变的。XXX111222333444 它是否正确？而且，如果是这样，多项式对比的目的是什么？

17 r regression contrasts

2

如何在R中同时使用数字/分类值进行有序Logistic回归分析？

基本数据：我约有1,000个人标有评估：“ 1，” [好]，“ 2”，[中]或“ 3” [差] –这些是我将来要为人们预测的价值。除此之外，我还有一些人口统计信息：性别（分类：男/女），年龄（数字：17-80）和种族（分类：黑人/高加索人/拉丁裔）。我主要有四个问题：我最初试图将上述数据集作为多元回归分析来运行。但是我最近了解到，由于我的依存关系是有序因素，而不是连续变量，因此我应该对此类情况使用序数逻辑回归。我最初使用的是这样的东西mod <- lm(assessment ~ age + gender + race, data = dataset)，有人能指出我正确的方向吗？从那里开始，假设我对系数感到满意，就知道如何仅将数值插入x1，x2等。但是，例如在有多种响应的情况下，我将如何处理种族：黑人/高加索人/拉丁美洲人？因此，如果它告诉我白种人系数为0.289，而我要预测的某个人是白种人，那么由于值不是数字，我该如何重新插入？我还缺少一些随机值-有些是种族的，有些是性别的，等等。我是否还需要做其他一些事情以确保它不会歪斜任何东西？（我注意到，当我的数据集被加载到R-Studio中时，当丢失的数据被加载为时NA，R表示类似(162 observations deleted due to missingness)-但如果它们被加载为空白，则它什么都不做。）假设所有这些都可以解决，并且我有我要预测的具有性别，年龄和种族的新数据-R中有没有更简单的方法可以通过我的新系数公式通过所有这些方法来运行所有这些数据，而不是手动进行？（如果这个问题在这里不合适，我可以将其带回R论坛。）

17 r regression logistic missing-data ordered-logit

Questions tagged «r»