Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
卡方的置信区间
我正在尝试找到一种解决方案,以比较两个“拟合优度卡方”检验。更准确地说,我想比较两个独立实验的结果。在这些实验中,作者使用拟合优度卡方比较随机猜测(预期频率)与观测频率。两次实验的参与者人数相同,实验步骤相同,只是刺激改变了。这两个实验结果表明存在显着的卡方(实验1:X 2(18)= 45; p <.0005;实验2:X 2(18)= 79; p <.0001)。 现在,我要做的就是测试这两个结果之间是否存在差异。我认为解决方案可能是使用置信区间,但是我不知道如何仅根据这些结果来计算这些置信区间。或者也许是一个比较效果大小的测试(科恩的w)? 有人有解决办法吗? 非常感谢! FD

1
梯度树增强中的树大小
弗里德曼(Friedman)提出的梯度树增强使用具有J终端节点(= leaves)的决策树作为基础学习者。可以通过多种方式来生长具有确切J节点的树,例如,可以以深度优先或宽度优先的方式生长树... 有没有建立好的方法来生长带有完全J末端节点的树以进行梯度树增强? 我检查了R gbm包的树生长过程,似乎它以深度优先的方式扩展树,并使用基于错误改进的启发式方法选择扩展左还是右子节点-是正确的吗?
10 r  cart  boosting 


4
R的summary.lm对象的LaTeX输出-在表外显示信息时[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 在我看来,这是基本知识,但似乎无法在线找到解决方案,因此我想知道自己可能会缺少什么。 我希望将lm摘要对象的输出包括在Sweave(.Rnw)文档中。我可以按原样输出summary.lm,也可以使用xtable / Hmisc包(通过xtable或latex命令)。是否有类似xtable的东西,它也提供了表外部可用的摘要信息?(,F统计等...?)R2R2R^2
10 r  regression 

1
使用R中的fda包预测新曲线的响应
基本上,我要做的就是使用一些曲线来预测标量响应。我已经做完了回归(使用fda包中的fRegress进行回归),但不知道如何将结果应用于一组新曲线(用于预测)。 我有N = 536曲线和536标量响应。到目前为止,这是我所做的: 我为曲线创建了基础。 我创建了一个fdPar对象来引入罚款 我已经使用smooth.basis创建了fd对象,以在指定的基础上以选定的代价对曲线进行平滑处理。 我使用fRegress()进行了回归,对标量响应上的曲线进行回归。 现在,我要做的就是使用该回归为我拥有的一组新数据生成预测。我似乎找不到简单的方法来做到这一点。 干杯

2
如何使用Cox模型在R中进行ROC分析
我创建了一些Cox回归模型,我想看看这些模型的性能如何,我认为类似于本文使用的ROC曲线或c统计量可能有用: JN Armitage och JH van der Meulen,“使用行政数据和皇家外科医学院的查尔森评分来鉴定手术患者的合并症”,《英国外科杂志》,第1卷。97,数字 5,ss。772-781,2010年下半年。 阿米蒂奇采用Logistic回归,但我不知道是否有可能使用来自生存包模式,survivalROC给这个是可能的暗示,但我无法弄清楚如何得到这工作与常规Cox回归。 如果有人向我展示如何在此示例中进行ROC分析,我将不胜感激: library(survival) data(veteran) attach(veteran) surv <- Surv(time, status) fit <- coxph(surv ~ trt + age + prior, data=veteran) summary(fit) 如果可能的话,我将感谢原始的c静态输出和一个漂亮的图表 谢谢! 更新资料 非常感谢您的回答。@Dwin:我只是想确保在选择答案之前我已经理解了。 据我理解,根据DWin的建议进行的计算: library(survival) library(rms) data(veteran) fit.cph <- cph(surv ~ trt + age + prior, data=veteran, x=TRUE, y=TRUE, surv=TRUE) …
10 r  survival  roc 

4
改善糖尿病的SVM分类
我正在使用SVM来预测糖尿病。我为此使用BRFSS数据集。数据集的维度为并且存在偏斜。s在目标变量中的百分比为而s构成其余的。11 %89 %432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% 我只使用了数据集中15的136独立变量。减少数据集的原因之一是当NA省略包含s的行时具有更多的训练样本。 15在运行统计方法(例如随机树,逻辑回归)并从结果模型中找出哪些变量很重要之后,才选择这些变量。例如,在运行逻辑回归之后,我们通常p-value对最重要的变量进行排序。 我进行变量选择的方法正确吗?任何建议都非常欢迎。 以下是我的R实现。 library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y <- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator <- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", "X_RFCHOL", "RACE2", "X_SMOKER3", "X_AGE_G", "X_BMI4CAT", "X_INCOMG", "X_RFDRHV3", "X_RFDRHV3", "X_STATE"); target …

6
比较来自两个不同随机森林模型的R平方
我正在R中使用randomForest包来开发随机森林模型,以试图解释“宽”数据集中的连续结果,其预测因子比样本多。 具体来说,我正在拟合一个RF模型,允许该过程从大约75个我认为重要的预测变量中进行选择。 我正在使用先前在此处发布的方法,测试该模型对保留测试集的实际结果的预测效果如何,即 ...或在R中: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) 但是现在我可以添加大约25个预测变量。当使用〜100个预测变量集时,R²较高。我要统计测试,换句话说,使用set〜100预测的时候,做了模型试验显著更好比使用〜75个预测模型拟合测试数据。即,测试射频模型在整个数据集上的拟合度所产生的R²明显高于测试射频模型在缩减后的数据集上进行拟合所产生的R²。 这对我来说很重要,因为这是试验数据,要获得额外的25个预测指标非常昂贵,而且我需要知道是否应该在较大的后续研究中为这些预测指标进行测量。 我正在尝试考虑某种重采样/置换方法,但是什么也没想到。

3
通过平均数据点组合两个时间序列
我想通过最小化均方预测误差,将一个时间序列数据集的预测值和预测值(即过去的预测值)组合为一个时间序列。 假设我有一个2001-2010年的时间序列,与2007年之间有一个间隔。我已经能够使用2001-2007年数据(红线-称为YfYfY_f)来预测2007年,并能够使用2008-2009年数据进行反向预测(光蓝线-称为YbYbY_b)。 我想将YfYfY_f和的数据点合并为每个月的估算数据点Y_i。理想情况下,我希望获得权重,以使其最小化的均方预测误差(MSPE)。如果这不可能,那么我如何才能找到两个时间序列数据点之间的平均值? w ^ ÿ 我YbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 作为一个简单的例子: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 3 4 5 6 7 …

5
可视化2个字母的组合
关于SO的此问题的答案返回了一组大约125个一到两个字母的名称:https : //stackoverflow.com/questions/6979630/what-1-2-letter-object-names-conflict-with-existing -r-对象 [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" [40] "el" "ES" "F" …

1
是否可以在混合模型中将时间作为预测变量?
我一直认为时间不应该用作回归(包括gam的预测)的预测因子,因为这样一来,人们就可以简单地“描述”趋势本身。如果一项研究的目的是找到诸如温度等环境参数来解释动物活动的变化,那么我想知道时间如何发挥作用?作为未测参数的代理? 在这里可以看到港口海豚活动数据的一些时间趋势:-> 在进行GAMM时如何处理时间序列中的缺口? 我的问题是:当我在模型中加入时间(以朱利安天数为单位)时,所有其他参数的90%就变得微不足道了(来自mgcv的ts收缩平滑器将其排除在外)。如果我没有时间,那么其中一些很重要... 问题是:时间是否可以用作预测变量(甚至可能需要?),或者这弄乱了我的分析? 提前谢谢了


6
与云中运行的R会话进行交互的最佳方法
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我有R于亚马逊EC2上运行,使用的修改版本Bioconductor的AMI。当前,我正在使用腻子将ssh放入服务器,从命令行启动R,然后将脚本从notepad ++复制并粘贴到我的腻子会话中。 事情是,我讨厌剪切和粘贴。感觉很困难,有时我会遇到奇怪的缓冲问题,这些问题使我的代码搞砸了。我不能使用RStudio,因为它不支持我严重依赖的多核。 有什么更优雅的方式做到这一点? /编辑:感谢所有的伟大建议。现在,我已经切换到将doeach与doRedis后端一起使用foreach,它在Mac,PC以及通过RStudio的Amazon上都可以很好地工作。一旦我学会了如何使用“ foreach” 编写一个模拟“ lapply”的函数,此切换就非常容易。(此外,doRedis很棒!)
10 r 

2
R中的Markowitz投资组合均值方差优化
我有5个新兴市场外汇总收益系列,我正为它们预测单期未来收益(1年)。我想使用历史方差和协方差(1)和我自己的预测预期收益来构建5个系列的Markowitz平均均值优化组合。R是否有(简便)方法/库来做到这一点?另外,我将如何计算(1)是否有内置函数? 为了利息,我的货币为USDTRY,USDZAR,USDRUB,USDHUF和USDPLN。
10 r 

2
使用R对二分数据进行因子分析的推荐程序
我必须对由二分变量(0 =是,1 =否)组成的数据集进行因子分析,我不知道自己是否走对了。 使用tetrachoric()我创建一个相关矩阵,并在其上运行fa(data,factors=1)。结果与使用MixFactor时收到的结果非常接近,但事实并非如此。 可以吗?还是您建议其他程序? 为什么会fa()工作并factanal()产生错误?(Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.