Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
在随机森林中通过投票创建“确定性分数”?
我正在寻找一种分类器,该分类器将通过大约10,000个对象的相当大的训练集来区分Type A和Type B对象,其中大约一半是Type A,一半是Type B。数据集由100个连续要素组成,详细描述了单元的物理属性(大小,平均半径等)。以成对的散点图和密度图可视化数据可知,在许多特征中,癌细胞和正常细胞的分布存在明显的重叠。 我目前正在探索随机森林作为此数据集的分类方法,并且已经看到了一些不错的结果。使用R,随机森林能够正确分类约90%的对象。 我们想要尝试做的一件事是创建一种“确定性分数”,该分数将量化我们对物体分类的信心。我们知道,我们的分类将永远是100%准确,即使在预测精度高的实现,我们将要培训的技术人员,以确定哪些对象是真正的Type A和Type B。因此,而不是提供的不妥协的预言Type A或者Type B,我们只是给出一个分数为每个对象,将描述如何A或B对象是。例如,如果我们设计一个分数,范围从0到10,则分数0可能表示一个对象与该对象非常相似Type A,而分数10则表明该对象非常类似于Type B。 我当时想我可以使用随机森林中的选票来设计这样的分数。由于随机森林的分类是通过在生成的树木的森林中进行多数表决来完成的,因此我假设由100%的树木Type A投票的对象将与由51%的树木投票的对象不同。是Type A。 目前,我尝试为对象必须分类为Type A或的投票比例设置一个任意阈值Type B,如果未通过该阈值,它将被分类为Uncertain。例如,如果我强制要求80%或更多的树必须同意通过分类的决定,那么我发现99%的类预测是正确的,但是大约40%的对象被归为Uncertain。 那么,利用投票信息对预测的确定性进行评分是否有意义?还是我的想法朝错误的方向前进?

4
如何在R中拟合约束回归,以使系数total = 1?
我在这里看到类似的约束回归: 通过指定点的约束线性回归 但我的要求略有不同。我需要将这些系数相加为1。具体而言,我正在将1个外汇系列的收益与其他3个外汇系列的收益进行回归,以便投资者可以用对其他3个外汇系列的组合代替他们对该系列的风险敞口,但是现金支出一定不能改变,而且最好(但这不是强制性的),系数应该为正。 我试图在R和Google中搜索约束回归,但是运气不佳。
36 r  regression 

5
R中的计时功能
我想测量重复执行功能所花费的时间。是否replicate()使用for循环等价?例如: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); 首选方法。 在的输出中system.time(),是sys+user运行该程序的实际CPU时间吗?是否elapsed可以很好地衡量程序的时间性能?
36 r 

2
如何解释glmnet?
我正在尝试使用约60个预测变量和30个观察值来拟合多元线性回归模型,所以我使用glmnet软件包进行正则回归,因为p> n。 我一直在研究文档和其他问题,但仍然无法解释结果,这是示例代码(为简化起见,有20个预测变量和10个观察值): 我创建了一个矩阵x,其中num行=观察值,cols =预测变量,向量y表示响应变量 > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) 我适合一个glmnet模型,将alpha保留为默认值(套索罚分= 1) > fit1=glmnet(x,y) > print(fit1) 我了解随着lambda值的降低(即罚款),我得到了不同的预测 Call: glmnet(x = x, y = y) Df %Dev Lambda [1,] 0 0.00000 0.890700 [2,] 1 0.06159 0.850200 [3,] 1 0.11770 0.811500 [4,] 1 0.16880 0.774600 . . . [96,] 10 0.99740 0.010730 [97,] …

1
为什么Mantel的考试比Moran的I更受青睐?
Mantel的测试广泛用于生物学研究中,以检查动物的空间分布(在空间中)与它们的遗传相关性,侵略率或其他属性之间的相关性。许多优秀的期刊正在使用它( PNAS,动物行为,分子生态学...)。 我捏造了一些自然界中可能出现的模式,但是Mantel的测试似乎无法检测到它们。另一方面,Moran's I的结果更好(请参见各图下的p值)。 为什么科学家们不使用莫兰的我呢?有一些我看不到的隐藏原因吗?如果有某种原因,我如何知道(必须以不同的方式构造假设)以适当地使用我测试的Mantel或Moran的?一个真实的例子会有所帮助。 想象这种情况:每棵树上都有一个乌鸦的果园(17 x 17棵树)。每个乌鸦的“噪音”级别都可用,您想知道乌鸦的空间分布是否由它们发出的噪音决定。 至少有5种可能性: “羽毛鸟聚集在一起。” 相似的乌鸦越多,它们之间的地理距离(单个簇)越小。 “羽毛鸟聚集在一起。” 同样,乌鸦越相似,它们之间的地理距离就越小(多簇),但是一簇嘈杂的乌鸦不知道第二簇的存在(否则它们会融合成一个大簇)。 “单调趋势。” “异性相吸。” 类似的乌鸦不能站在一起。 “随机模式。” 噪声水平对空间分布没有重大影响。 对于每种情况,我都创建了一个点图并使用Mantel检验来计算相关性(不足为奇的是,其结果不显着,我永远也不会尝试在这些点模式之间找到线性关联)。 示例数据:( 尽可能压缩) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal …

6
如何准匹配两个字符串向量(在R中)?
我不确定该如何称呼,所以如果您知道一个更好的术语,请更正我。 我有两个清单。55个项目之一(例如:字符串向量),另一个为92。项目名称相似但不相同。 我希望能够找到的最佳人选小号在92名单于55列表中的项目(然后我会去通过它,并选择正确的装修)。 怎么做到呢? 我有以下想法: 查看所有匹配项(使用某项列表?match) 尝试在字符串向量之间使用距离矩阵,但是我不确定如何最好地定义它(相同字母的数量,字符串的顺序如何?) 那么,什么软件包/功能/研究领域可以处理此类任务呢? 更新:这是我要匹配的向量的示例 vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 

1
分位数回归:哪些标准误差?
summary.rq来自quantreg插图的功能为分位数回归系数的标准误差估计提供了多种选择。在哪些特殊情况下,每种情况都变得最佳/理想? 如在Koenker(1994)中所述,“等级”通过反转等级检验产生估计参数的置信区间。默认选项假定错误是iid,而选项iid = FALSE则实施了Koenker Machado(1999)的建议。有关其他参数,请参见rq.fit.br的文档。 假定误差为iid的“ iid”,如KB(1978)所示,计算渐近协方差矩阵的估计。 假定条件分位数函数的局部(以τ为单位)线性(以x为单位)并使用稀疏性的局部估计来计算Huber三明治估计的“ nid”。 “ ker”使用Powell(1990)提出的三明治的核估计。 “ boot”实现了几种可能的用于估计标准错误的自举选项之一。 我已经阅读了至少20篇经验论文,无论是在时间序列还是在横截面尺寸上都应用了该论文,还没有提到标准误差的选择。

2
R中lm中的调整后R平方公式是什么,应如何解释?
调整后的R平方在R中使用的确切公式是什么lm() ?我该怎么解释? 调整后的r平方公式 似乎存在一些公式来计算调整后的R平方。 Wherry的公式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} 麦克尼马尔公式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 洛德公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 斯坦因公式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科书说明 根据菲尔德的教科书《使用R发现统计信息》(2012年,第273页),R使用了Wherry方程,“告诉我们如果该模型是从采样样本中得出的,则Y可以解释多少差异”。他没有给出Wherry的配方。他建议(手动)使用Stein的公式来检查模型的交叉验证程度。 Kleiber / Zeileis,《应用计量经济学与R》(2008年,第59页)声称它是“ Theil的R平方调整后的值”,并且没有确切说明其解释与多个R平方的差异。 Dalgaard在Introductory Statistics with R(2008,p。113)中写道:“如果[调整后的R平方]乘以100%,则可以解释为'%方差减少'”。他没有说这对应哪个公式。 我以前曾想并广泛地读到R平方会给模型增加其他变量而受到惩罚。现在,使用这些不同的公式似乎需要不同的解释。我还研究了有关堆栈溢出的一个相关问题(在单变量最小二乘回归中,多个R平方和调整R平方之间有什么区别?),以及UPenn的Wharton学校统计词典。 问题 哪个公式用于通过R调整的r平方 lm()? 我该怎么解释?

3
如何解释随机森林的OOB和混淆矩阵?
我从某人那里获得了R脚本来运行随机森林模型。我修改并运行了一些员工数据。我们正在尝试预测自愿离职。 以下是一些其他信息:这是一个分类模型,其中0 =员工留下,1 =员工终止,我们目前仅查看十二个预测变量,数据“不平衡”,因为术语记录约占7占总记录集的百分比。 我使用各种mtry和ntree选择来运行模型,但是选择了以下内容。OOB是6.8%,我认为这很好,但是混淆矩阵似乎在讲另一个预测术语的方法,因为错误率非常高,达到92.79%。我认为我不能依靠和使用此模型是正确的,因为预测术语的高错误率?还是可以做一些事情来使用RF并获得较小的错误率来预测术语? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

5
R中'comment'函数的良好用法是什么?
我刚刚comment在R中发现了该函数。示例: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) 这是我第一次使用此功能,并且想知道它的常见/有用用法。由于在Google中搜索“ R评论”并找到相关结果非常困难,因此我希望这里的人可以与他分享经验。
35 r 

1
逻辑回归:方差卡方检验与系数的显着性(R中的anova()vs summary())
我有一个8个变量的逻辑GLM模型。我在R中进行了卡方检验,anova(glm.model,test='Chisq')当在测试的顶部进行排序时,其中两个变量可预测,而在底部的排序中则没有那么多。在summary(glm.model)表明它们的系数不显着(高p值)。在这种情况下,变量似乎并不重要。 我想问问哪个是变量显着性更好的检验-模型摘要中的系数显着性或来自的卡方检验anova()。还有-什么时候一个比另一个更好? 我想这是一个广泛的问题,但是任何有关考虑因素的建议将不胜感激。


2
带嵌套的混合效果模型
我从以下组织的实验中收集了数据: 两个站点,每个站点有30棵树。每个部位治疗15例,对照15例。从每棵树中,我们采样了三根茎和三根根,因此每棵树有6个1级样品,由两个因子水平(根,茎)之一表示。然后,从这些茎/根样本中,我们通过解剖样本中的不同组织来获取两个样本,这由组织类型(组织类型A,组织类型B)的两个因子水平之一表示。这些样本作为连续变量进行测量。观测总数为720;2个地点* 30棵树*(三个茎样本+三个根样本)*(一个组织A样本+一个组织B样本)。数据看起来像这样... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 Phloem 103 …

3
R-对残留术语感到困惑
根均方误差 残差平方和 残留标准误差 均方误差 测试错误 我以为我曾经理解这些术语,但是我做统计问题的次数越多,我就越会感到困惑。我想要一些保证和具体的例子 我可以很容易地在网上找到这些方程式,但是我很难得到这些术语的“像我5岁时那样的解释”,因此我可以在脑海中清楚地看到它们之间的差异以及如何导致另一差异。 如果有人可以在下面使用此代码并指出如何计算这些术语中的每一个,我将不胜感激。R代码会很棒。 使用下面的示例: summary(lm(mpg~hp, data=mtcars)) 在R代码中向我展示如何查找: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ 像我5岁时解释这些区别/相似之处的加分点。例: rmse = squareroot(mss)

3
如何解释随机森林模型中准确度的均值下降和GINI的均值下降
我在理解如何解释“随机森林”软件包的可变重要性输出时遇到了一些困难。准确度的平均下降通常被描述为“由于置换每个特征中的值而导致的模型准确度的下降”。 这是关于整个功能还是关于功能中的特定值的声明?在这两种情况下,通过从模型中删除有问题的特征(或特征中的值)而将未正确分类的观测值的数量或比例平均准确率降低了吗? 假设我们有以下模型: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.