Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
用于组合因子级别以进行数据挖掘的R包?
想知道是否有人在R中的某个包/函数上运行过,它将组合某个因子的水平,而该水平在一个因子中的所有水平的比例小于某个阈值?具体来说,我进行数据准备的第一步之一就是将稀疏的因子水平合在一起(称为“其他”因子),这些因子至少不构成总数的2%。这是在无监督的情况下完成的,并且当目标是为营销中的某些活动建模时(而不是欺诈检测,因为那些很小的事件可能非常重要),可以执行此操作。我正在寻找一个可以折叠水平直到达到某个阈值比例的函数。 更新: 由于这些出色的建议,我很容易地编写了一个函数。我确实意识到,虽然有可能使比例<最小值的水平崩溃,而仍然使重新编码的水平<最小值,但需要添加比例>最小值的最低水平。可能会更有效,但它似乎可以工作。下一个增强功能是弄清楚如何捕获将折叠逻辑应用于新数据(验证集或将来的数据)的“规则”。 collapseFactors<- function(tableName,minPercent=5,fillIn ="RECODED" ) { for (i in 1:ncol(tableName)) { if(is.factor(tableName[,i]) == TRUE) #process just factors { sortedTable<-sort(prop.table(table(tableName[,i]))) numberToCollapse<-length(sortedTable[sortedTable<(minPercent/100)]) if (sum(sortedTable[1:numberToCollapse])<(minPercent/100)) { numberToCollapse=numberToCollapse+1 #add next level if < minPercent } if(numberToCollapse>1) #if not >1 then nothing to collapse { lf <- names(sortedTable[1:numberToCollapse]) levels(tableName[,i])[levels(tableName[,i]) %in% lf] <- fillIn …

1
在R中,“ glmnet”是否适合截距?
我正在使用R在R中拟合线性模型glmnet。原始(非正规化)模型使用来拟合,lm并且没有常数项(即,形式为lm(y~0+x1+x2,data))。 glmnet采用预测变量矩阵和响应向量。我一直在阅读glmnet文档,找不到常量术语。 那么,有没有办法要求glmnet通过原点强制线性拟合呢?
10 r  regression  lasso 

1
将R转换为C ++(最终使用Rcpp)[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我想学习使用Rcpp。我浏览了该软件包的CRAN网站上的文档,但是我觉得编写一个实际示例(考虑到convolve3是第二个实际示例)会更有帮助。 我从robustbase软件包中提出了以下代码,因为它既不会太长也不会太短,它使用R类型和R函数的组合,并且具有那些在R中速度太慢的小型算术迭代之一。 -ing吗? scaleTau2<-function (x, c1 = 4.5, c2 = 3, consistency = TRUE, mu.too = FALSE){ n <- length(x) medx <- median(x) x. <- abs(x - medx) sigma0 <- median(x.) mu <- if (c1 > 0) { x. <- x./(sigma0 * c1) w <- 1 …
10 r  c++ 


4
如何在图中寻找谷底?
我正在研究一些基因组覆盖率数据,这些数据基本上是一长串整数(几百万个值),每个整数都表示覆盖基因组中此位置的程度(或“深度”)。 我想在此数据中寻找“山谷”,即比周围环境明显“低”的区域。 请注意,我要寻找的山谷的大小可能在50个碱基到数千个碱基之间。 您会建议使用哪种范例来找到那些山谷? 更新 数据的一些图形示例: 更新2 定义什么是山谷当然是我一直在努力的问题之一。这些对我来说是显而易见的: 但是还有一些更复杂的情况。通常,我考虑3个标准:1.相对于全局平均值,窗口中的(平均?最大?)覆盖率。2.窗口中相对于其周围的覆盖范围。3.窗口有多大:如果我看到很短的覆盖范围很有趣,如果我看到很长的覆盖范围很有趣,如果我看到很短的覆盖很短的范围也不是很有趣。 ,但如果我看到很长一段时间的覆盖率偏低-是的,所以这是sapn长度和覆盖率的结合。时间越长,我就越会覆盖,但仍然认为它是一个山谷。 谢谢, 戴夫

2
是否可以直接读取CSV列作为分类数据?
我需要使用R分析来自CSV格式的医学调查(带有100多个编码列)的数据。我将使用拨浪鼓进行一些初步分析,但在后台它仍然是R。 如果我读取.csv()文件,则将带有数字代码的列视为数字数据。我知道我可以使用factor()从它们创建分类列,但是要对100多个列执行此操作很麻烦。 我希望有一种更好的方法告诉R直接将列作为因素导入。或至少在以后将它们转换到位。 谢谢!

2
具有连续变量和二进制变量的K最近邻
我有一个带有列a b c(3个属性)的数据集。a是数值型和连续型的,b并且c分别具有两个级别。我使用的是K-近邻方法进行分类a和b上c。因此,为了能够测量距离,我通过删除b和添加b.level1和来变换数据集b.level2。如果观察i在b类别中处于第一级,则b.level1[i]=1和b.level2[i]=0。 现在,我可以在新数据集中测量距离了: a b.level1 b.level2 从理论/数学角度来看:可以同时对二进制数据和连续数据执行K最近邻(KNN)吗? 我FNN在R和功能中使用包knn()

1
您为什么要从混合效应模型中进行预测,而又不包括随机效应呢?
这更多是一个概念性问题,但是在我使用时,R我将参考中的软件包R。如果目的是为了进行预测而拟合线性模型,然后在可能无法获得随机效应的情况下进行预测,那么使用混合效应模型有什么好处,还是应该使用固定效应模型? 例如,如果我有重量与高度数据以及其他一些信息,并且使用构建以下模型lme4,其中受试者是具有因子水平(Ñ = Ñ Ö 。小号一米p 升Ë 小号ññnn = n o 。š 一米p 升Ë 小号ñ=ñØ。s一个米p升Ësn=no.samples): mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 然后,我希望能够使用新的身高和年龄数据从模型中预测体重。显然,原始数据的个体差异是在模型中捕获的,但是可以在预测中使用此信息吗?假设我有一些新的身高和年龄数据,并且想要预测体重,我可以这样做: predict(mod1,newdata=newdf) # newdf columns for height, age, subject 这将使用predict.merMod,并且我可以在newdf或set中为(新)主题添加一列re.form =~0。在第一种情况下,尚不清楚模型如何处理“新”主观因素,在第二种情况下,是否会简单地忽略(平均)模型中捕获的个体差异以进行预测? 无论哪种情况,在我看来固定效果线性模型都可能更合适。确实,如果我的理解是正确的,那么如果预测中未使用随机效应,则固定效应模型应预测与混合模型相同的值。应该是这样吗?在R它不是,例如: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, …

1
是lm模型中的学生化残差v / s标准化残差
回归模型中的“学生残差”和“标准化残差”是否相同?我在R中建立了线性回归模型,并想绘制学生化残差v / s拟合值的图表,但没有找到在R中执行此操作的自动方法。 假设我有一个模型 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图,但会提供标准化残差与拟合值的关系图。 我用过了plot(lm.fit$fitted.values,studres(lm.fit),它将绘制出想要的图形,所以只想确认我走的路正确,并且学生化和标准化残差不是一回事。如果它们不同,则请提供一些指南以计算它们及其定义。我在网上搜索,发现它有点混乱。

2
如何从行为序列证明合作
情况:两只鸟(雄性和雌性)在巢中保护它们的卵以防入侵者入侵。每只鸟都可以使用攻击或威胁来进行保护,并且可以在场或不在场。数据显示出一种行为可能是互补的模式-男性攻击而女性使用威胁显示,反之亦然。 我的问题是:如何从统计角度证明这种合作? 还是有人知道一些进行类似分析的行为研究?我发现绝大多数的顺序分析都集中在DNA上。 在这里,我提供了一些虚拟数据,但是我的原始数据集是由数十对组成的,它们在捍卫巢穴的同时准确记录了10分钟。因此,每只鸟的行为序列长600个状态(每秒钟都有状态)。这些较短的数据应包含与整个数据集相似的模式。 male_seq <- rep(c("absent","present","attack","threat","present","attack", "threat","present","attack","absent"), times = c(3,4,8,2,6,3,2,6,2,1)) female_seq <- rep(c("absent","present","threat","present","threat","present", "threat","attack","present","threat","attack","present", "attack","threat","absent"), times = c(2,6,2,1,2,1,1,3,5,3,1,3,3,2,2))

1
如何在一幅图中绘制拟合的伽玛分布图和实际图?
加载所需的包。 library(ggplot2) library(MASS) 生成10,000个适合伽玛分布的数字。 x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] 假设我们不知道x符合哪个分布,则绘制概率密度函数。 t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y = y)) + theme_classic() 从图中可以看出,x的分布与伽马分布非常相似,因此fitdistr()在包中使用它MASS可以获取形状和伽马分布速率的参数。 fitdistr(x,"gamma") ## output ## shape rate ## 2.0108224880 0.2011198260 ## (0.0083543575) …

2
R的coxph()究竟如何处理重复的测量?
语境 我试图了解R的coxph()如何接受和处理主题(或患者/客户,如果您愿意的话)的重复条目。有些人称这种长格式,有些人称其为“重复措施”。 例如,请参见以下答案部分中包含ID列的数据集: 协变量随时间变化的最佳Cox模型 还要假设协变量始终随时间变化,并且恰好有一个检查变量(即事件),它是二进制的。 问题 1)在上述链接的答案中,如果在调用coxph()时未提供ID作为参数,结果是否应与将cluster(ID)作为coxph()的参数包含在内? 我试图搜索文档,但以下内容似乎并未明确说明(1):https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)如果对(1)的回答为“否”,那么(数学上)为什么?似乎coxph()中的cluster()根据pg上的“ cluster”小节在主题之间寻求关联。20点 https://cran.r-project.org/web/packages/survival/survival.pdf 3)含糊的问题:重复测量的coxph()与R的脆弱包装回归方法相比如何? 附加物 以下是有关使用cluster(ID)的提示: 是否存在可重复测量的logrank测试版本? 和: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEE方法:将“ + cluster(subject)”添加到coxph的模型语句中混合模型方法:将“ +(1 | subject)”添加到coxme的模型语句中。 提前致谢!

1
这种对稀疏性的解释准确吗?
根据软件包removeSparseTerms功能的文档,tm稀疏性是这样的: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. 那么,是否正确解释是说如果sparse等于.99,那么我们要删除仅出现在最多1%数据中的术语?

1
R中的交叉验证套索回归
R函数cv.glm(库:引导)为广义线性模型计算估计的K折交叉验证预测误差,并返回增量。使用此函数进行套索回归(库:glmnet)是否有意义?如果是,如何进行?glmnet库使用交叉验证来获得最佳的车削参数,但是我没有找到任何交叉验证最终glmnet方程的示例。

1
对于广义线性模型(例如,泊松混合模型(与glmer拟合)),lsmeans报告什么?
我正在分析设计实验中的眼动数据。我的数据的简化版本如下所示(您可以在此处获取dput()数据), head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 其中参与者是每个主题的唯一标识符,fixationImage是他们固定在哪个图片类别上,而fixationCount是他们固定在该图片类别上的次数。 我使用lme4包中的 glmer()将泊松模型拟合到数据中。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) 我使用lsmeans 包中的 lsmeans()来检查因子水平之间的差异, cld(lsmeans(model,"fixationImage")) 提供以下输出: fixationImage lsmean …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.