Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
如何使用family = Gamma解释GLM中的参数
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我对带有伽玛分布因变量的GLM的参数解释有疑问。这是R通过日志链接返回给我的GLM的结果: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value …

2
如何将二项式GLMM(glmer)应用于百分比而不是是-否计数?
我有一个重复测量实验,其中因变量是一个百分比,并且我有多个因素作为自变量。我想glmer从R包中使用lme4它(通过指定family=binomial)作为逻辑回归问题,因为它似乎可以直接容纳此设置。 我的数据如下所示: > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 6 1 chrmpeak-tpor1d nr075 1 …

5
随机森林与回归
我对具有5个独立变量的数据集运行了OLS回归模型。自变量和因变量都是连续的并且线性相关。R平方约为99.3%。但是,当我在R中使用随机森林运行相同的结果时,结果是“%Var解释为:88.42”。为什么随机森林结果不如回归?我的假设是,随机森林至少与OLS回归一样好。

5
如何控制随机森林中错误分类的成本?
是否有可能控制R包randomForest中错误分类的代价? 在我自己的工作中,误报(例如,由于一个人可能患有疾病而导致的错误失误)比误报的代价要高得多。软件包rpart允许用户通过指定损失矩阵来不同程度地加权错误分类,从而控制错误分类成本。是否有类似的东西存在randomForest?例如,我是否应该使用该classwt选项来控制Gini标准?

5
通过R学习(不仅仅是运行)统计/数学的来源
我对通过R(可以通过其他语言学习统计和数学概念)的来源示例(R代码,R包,书籍,书籍章节,文章,链接等)感兴趣。 面临的挑战是,材料的学习依赖于编程,而不仅取决于如何运行执行算法的代码。 因此,(例如)像R的线性模型这样的书(这是一本好书)不是我想要的。这是因为这本书主要显示了如何在R中实现线性模型,但是并没有围绕使用R来讲授线性模型。 (很棒的)TeachingDemos软件包的帮助文件是我正在寻找的一个很好的例子。它是一个R软件包,其中包括通过各种R小程序和模拟来学习统计概念的功能。随附的帮助文件很好。当然,这两种方法都不足够,并且需要一本外部教科书才能掌握许多确切的细节来学习它们(帮助文件也是如此)。 所有线索将不胜感激。

4
多元回归中预测变量的重要性:部分与标准化系数
我想知道线性模型中部分与系数之间的确切关系是什么,我是否应该仅使用一个或两个来说明因素的重要性和影响。R2R2R^2 据我所知,summary我得到了系数的估计值,并且得到anova了每个因子的平方和-一个因子的平方和除以平方和加残差的和的比例为(以下代码位于中)。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

1
基于MCMC的回归模型中的残留诊断
我最近开始使用MCMC算法(实际上是R中的MCMCglmm函数)在贝叶斯框架中拟合回归混合模型。 我相信我已经了解了如何诊断估计过程的收敛性(迹线,geweke图,自相关,后验分布...)。 在贝叶斯框架中给我留下深刻印象的一件事是,似乎花了很多精力来进行这些诊断,而在检查拟合模型的残差方面却似乎做得很少。例如,在MCMCglmm中,确实存在残留的.mcmc()函数,但实际上尚未实现(即返回:“尚未为MCMCglmm对象实现的残留物”; predict.mcmc()的情况相同)。在其他软件包中似乎也缺少它,而且在我发现的文献中,除讨论广泛的DIC之外,它几乎没有被讨论过。 谁能指出一些有用的参考,理想情况下,我可以使用或修改R代码? 非常感谢。

1
如何对齐/同步两个信号?
我正在做一些研究,但是一直停留在分析阶段(应该更多地关注我的统计讲座)。 我收集了两个同时发生的信号:对体积进行积分的流速和对胸部扩张的改变。我想比较这些信号,最终希望从胸部扩张信号中得出体积。但是首先我必须对齐/同步我的数据。 由于记录不是在同一时间开始,并且胸部扩展被捕获的时间更长,因此我需要在胸部扩展数据集中找到与我的体数据相对应的数据,并衡量它们的对齐程度。如果两个信号不是完全同时启动,或者不是在不同比例和不同分辨率的数据之间启动,我不太确定该如何处理。 我已经附上了这两个信号的示例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc),请告诉我是否还有其他信息。

3
大数据的第一步(,)
假设您正在分析每天有数十亿个观测值的巨大数据集,其中每个观测值都有数千个稀疏值,可能还有多余的数值和类别变量。假设存在一个回归问题,一个不平衡的二元分类问题,以及一项“找出最重要的预测变量”的任务。我对如何解决该问题的想法是: 在数据的越来越大(随机)子样本上拟合一些预测模型,直到: 拟合和交叉验证模型在计算上变得困难(例如,我的笔记本电脑运行异常缓慢,R内存不足等),或者 训练和测试RMSE或精度/召回值稳定。 如果训练和测试错误不稳定(1.),请使用更简单的模型和/或实施该模型的多核或多节点版本,然后从头开始。 如果训练和测试错误稳定下来(2.): 如果(即,我仍然可以在上运行算法,因为它还不太大),请尝试通过扩展特征空间或使用更复杂的模型并从头开始重新启动来提高性能。X 小号ü b 小号Ë 吨ñš ü b 小号Ë 吨≪ NñsübsËŤ≪ñN_{subset} \ll NXš ü b 小号Ë 吨XsübsËŤX_{subset} 如果是'large'并且进行进一步的分析是昂贵的,则分析变量的重要性并结束分析。ñš ü b 小号Ë 吨ñsübsËŤN_{subset} 我打算使用像包biglm,speedglm,multicore,和ffR中最初,并在以后使用更复杂的算法和/或多节点(上EC2)是必要的。 这听起来像是一种合理的方法吗?如果是,那么您是否有任何具体建议或建议?如果没有,那么您将尝试使用这种大小的数据集吗?

3
带插入号的堆叠/组装模型
我经常发现自己使用caretR 训练了几种不同的预测模型。我将使用来在相同的交叉验证折叠上对它们进行训练caret::: createFolds,然后根据交叉验证的误差选择最佳的模型。 但是,在独立测试集上,来自多个模型的中值预测通常要优于最佳单个模型。我正在考虑编写一些用于堆叠/组装插入符模型的函数,这些函数使用相同的交叉验证折叠进行训练,例如,通过对每个折叠上的每个模型进行中位数预测,或通过训练“元模型”。 当然,这可能需要外部交叉验证循环。是否有人知道用于集成插入符号模型的任何现有软件包/开源代码(并可能对这些集成进行交叉验证)?
21 r  caret  ensemble 

3
回归与方差分析的差异(R中的aov与lm)
我一直给人的印象是,回归只是方差分析的一种更一般的形式,其结果是相同的。但是,最近,我对同一数据进行了回归和方差分析,结果差异很大。也就是说,在回归模型中,主效应和相互作用都非常显着,而在方差分析中,一个主效应并不显着。我希望这与交互有关,但是我不清楚这两种对相同问题进行建模的方式有何不同。如果重要的话,一个预测器是分类的,另一个是连续的,如下面的模拟所示。 这是一个示例,说明我的数据看起来如何以及正在执行的分析,但是结果中没有相同的p值或影响显着(上面概述了我的实际结果): group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

1
R中矩阵逆的有效计算
我需要计算矩阵逆,并且一直在使用solve函数。尽管在小型矩阵上效果很好,但solve在大型矩阵上往往非常慢。我想知道是否还有其他功能或功能组合(通过SVD,QR,LU或其他分解功能)可以使我更快地得到结果。

1
如何从R中的线性模型的新输入预测值?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R:中创建了线性模型mod = lm(train_y ~ train_x)。我想通过它的X列表,并获得其预测/估计/预测的Y。我看过了predict(),但是我认为这是用于其他目的,或者我只是不知道如何使用它。 我猜想通过获取模型的系数,我可以手动地一对一插入test_x变量,并获得预测的Y,但是我猜想有一种更有效的方法。

1
时间序列的逻辑回归
考虑到过去的观察,我想在流数据(多维时间序列)的上下文中使用二进制逻辑回归模型,以便预测刚刚到达的数据(即行)的因变量的值。据我所知,逻辑回归通常用于事后分析,因为每个因变量均已设置(通过检查或研究性质)。 但是在时间序列的情况下会发生什么,我们要根据历史数据(例如,在最后秒的时间窗口中)(当然是前一个)动态地对因变量进行预测估计因变量?ŤŤt 并且,如果您随着时间的推移看到上述系统,应该如何构建它才能使回归正常工作?我们是否必须首先通过标记数据的前50行(即将因变量设置为0或1)来训练它,然后使用向量的当前估计值来估计它的新概率?因变量是刚到达的数据的0或1(即刚添加到系统的新行)?ββ{\beta} 为了使我的问题更清楚,我尝试建立一个系统来逐行解析数据集,并在给定所有先前因果关系或解释性知识(观察或估计)的情况下,对二进制结果(因变量)进行预测到达固定时间窗口的变量。我的系统在Rerl中,并使用R进行推断。

1
将指数模型拟合到数据
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 8年前。 我有2个变量,都来自“数字”类: > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 我绘制了它们,现在我想对数据拟合指数模型(并将其添加到绘图中),但是我找不到关于拟合模型以在R中使用多元数据的任何信息!仅单变量数据,有人可以帮忙吗?我什至不知道从哪里开始...谢谢!
21 r 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.