统计和大数据 r

3

想知道是否有人在R中的某个包/函数上运行过，它将组合某个因子的水平，而该水平在一个因子中的所有水平的比例小于某个阈值？具体来说，我进行数据准备的第一步之一就是将稀疏的因子水平合在一起（称为“其他”因子），这些因子至少不构成总数的2％。这是在无监督的情况下完成的，并且当目标是为营销中的某些活动建模时（而不是欺诈检测，因为那些很小的事件可能非常重要），可以执行此操作。我正在寻找一个可以折叠水平直到达到某个阈值比例的函数。更新：由于这些出色的建议，我很容易地编写了一个函数。我确实意识到，虽然有可能使比例<最小值的水平崩溃，而仍然使重新编码的水平<最小值，但需要添加比例>最小值的最低水平。可能会更有效，但它似乎可以工作。下一个增强功能是弄清楚如何捕获将折叠逻辑应用于新数据（验证集或将来的数据）的“规则”。 collapseFactors<- function(tableName,minPercent=5,fillIn ="RECODED" ) { for (i in 1:ncol(tableName)) { if(is.factor(tableName[,i]) == TRUE) #process just factors { sortedTable<-sort(prop.table(table(tableName[,i]))) numberToCollapse<-length(sortedTable[sortedTable<(minPercent/100)]) if (sum(sortedTable[1:numberToCollapse])<(minPercent/100)) { numberToCollapse=numberToCollapse+1 #add next level if < minPercent } if(numberToCollapse>1) #if not >1 then nothing to collapse { lf <- names(sortedTable[1:numberToCollapse]) levels(tableName[,i])[levels(tableName[,i]) %in% lf] <- fillIn …

10 r many-categories

1

在R中，“ glmnet”是否适合截距？

我正在使用R在R中拟合线性模型glmnet。原始（非正规化）模型使用来拟合，lm并且没有常数项（即，形式为lm(y~0+x1+x2,data)）。 glmnet采用预测变量矩阵和响应向量。我一直在阅读glmnet文档，找不到常量术语。那么，有没有办法要求glmnet通过原点强制线性拟合呢？

10 r regression lasso

1

将R转换为C ++（最终使用Rcpp）[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。我想学习使用Rcpp。我浏览了该软件包的CRAN网站上的文档，但是我觉得编写一个实际示例（考虑到convolve3是第二个实际示例）会更有帮助。我从robustbase软件包中提出了以下代码，因为它既不会太长也不会太短，它使用R类型和R函数的组合，并且具有那些在R中速度太慢的小型算术迭代之一。 -ing吗？ scaleTau2<-function (x, c1 = 4.5, c2 = 3, consistency = TRUE, mu.too = FALSE){ n <- length(x) medx <- median(x) x. <- abs(x - medx) sigma0 <- median(x.) mu <- if (c1 > 0) { x. <- x./(sigma0 * c1) w <- 1 …

10 r c++

2

何时使用同构假设的（非）参数检验？

如果要假设均方差性，则可以使用参数（方差同质性的Bartlett检验bartlett.test）和非参数（方差同质性的Figner-Killeen检验fligner.test）检验。如何分辨使用哪种？这应该取决于例如数据的正常性吗？

10 r variance heteroscedasticity misspecification

4

如何在图中寻找谷底？

我正在研究一些基因组覆盖率数据，这些数据基本上是一长串整数（几百万个值），每个整数都表示覆盖基因组中此位置的程度（或“深度”）。我想在此数据中寻找“山谷”，即比周围环境明显“低”的区域。请注意，我要寻找的山谷的大小可能在50个碱基到数千个碱基之间。您会建议使用哪种范例来找到那些山谷？更新数据的一些图形示例：更新2 定义什么是山谷当然是我一直在努力的问题之一。这些对我来说是显而易见的：但是还有一些更复杂的情况。通常，我考虑3个标准：1.相对于全局平均值，窗口中的（平均？最大？）覆盖率。2.窗口中相对于其周围的覆盖范围。3.窗口有多大：如果我看到很短的覆盖范围很有趣，如果我看到很长的覆盖范围很有趣，如果我看到很短的覆盖很短的范围也不是很有趣。，但如果我看到很长一段时间的覆盖率偏低-是的，所以这是sapn长度和覆盖率的结合。时间越长，我就越会覆盖，但仍然认为它是一个山谷。谢谢，戴夫

10 r distributions statistical-significance data-visualization

2

是否可以直接读取CSV列作为分类数据？

我需要使用R分析来自CSV格式的医学调查（带有100多个编码列）的数据。我将使用拨浪鼓进行一些初步分析，但在后台它仍然是R。如果我读取.csv（）文件，则将带有数字代码的列视为数字数据。我知道我可以使用factor（）从它们创建分类列，但是要对100多个列执行此操作很麻烦。我希望有一种更好的方法告诉R直接将列作为因素导入。或至少在以后将它们转换到位。谢谢！

10 r categorical-data data-transformation

2

具有连续变量和二进制变量的K最近邻

我有一个带有列a b c（3个属性）的数据集。a是数值型和连续型的，b并且c分别具有两个级别。我使用的是K-近邻方法进行分类a和b上c。因此，为了能够测量距离，我通过删除b和添加b.level1和来变换数据集b.level2。如果观察i在b类别中处于第一级，则b.level1[i]=1和b.level2[i]=0。现在，我可以在新数据集中测量距离了： a b.level1 b.level2 从理论/数学角度来看：可以同时对二进制数据和连续数据执行K最近邻（KNN）吗？我FNN在R和功能中使用包knn()

10 r classification k-nearest-neighbour

1

您为什么要从混合效应模型中进行预测，而又不包括随机效应呢？

这更多是一个概念性问题，但是在我使用时，R我将参考中的软件包R。如果目的是为了进行预测而拟合线性模型，然后在可能无法获得随机效应的情况下进行预测，那么使用混合效应模型有什么好处，还是应该使用固定效应模型？例如，如果我有重量与高度数据以及其他一些信息，并且使用构建以下模型lme4，其中受试者是具有因子水平（Ñ = Ñ Ö 。小号一米p 升Ë 小号ññnn = n o 。š 一米p 升Ë 小号ñ=ñØ。s一个米p升Ësn=no.samples）： mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 然后，我希望能够使用新的身高和年龄数据从模型中预测体重。显然，原始数据的个体差异是在模型中捕获的，但是可以在预测中使用此信息吗？假设我有一些新的身高和年龄数据，并且想要预测体重，我可以这样做： predict(mod1,newdata=newdf) # newdf columns for height, age, subject 这将使用predict.merMod，并且我可以在newdf或set中为（新）主题添加一列re.form =~0。在第一种情况下，尚不清楚模型如何处理“新”主观因素，在第二种情况下，是否会简单地忽略（平均）模型中捕获的个体差异以进行预测？无论哪种情况，在我看来固定效果线性模型都可能更合适。确实，如果我的理解是正确的，那么如果预测中未使用随机效应，则固定效应模型应预测与混合模型相同的值。应该是这样吗？在R它不是，例如： mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, …

10 r multiple-regression mixed-model lme4-nlme

1

是lm模型中的学生化残差v / s标准化残差

回归模型中的“学生残差”和“标准化残差”是否相同？我在R中建立了线性回归模型，并想绘制学生化残差v / s拟合值的图表，但没有找到在R中执行此操作的自动方法。假设我有一个模型 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图，但会提供标准化残差与拟合值的关系图。我用过了plot(lm.fit$fitted.values,studres(lm.fit)，它将绘制出想要的图形，所以只想确认我走的路正确，并且学生化和标准化残差不是一回事。如果它们不同，则请提供一些指南以计算它们及其定义。我在网上搜索，发现它有点混乱。

10 r regression residuals terminology

2

如何从行为序列证明合作

情况：两只鸟（雄性和雌性）在巢中保护它们的卵以防入侵者入侵。每只鸟都可以使用攻击或威胁来进行保护，并且可以在场或不在场。数据显示出一种行为可能是互补的模式-男性攻击而女性使用威胁显示，反之亦然。我的问题是：如何从统计角度证明这种合作？还是有人知道一些进行类似分析的行为研究？我发现绝大多数的顺序分析都集中在DNA上。在这里，我提供了一些虚拟数据，但是我的原始数据集是由数十对组成的，它们在捍卫巢穴的同时准确记录了10分钟。因此，每只鸟的行为序列长600个状态（每秒钟都有状态）。这些较短的数据应包含与整个数据集相似的模式。 male_seq <- rep(c("absent","present","attack","threat","present","attack", "threat","present","attack","absent"), times = c(3,4,8,2,6,3,2,6,2,1)) female_seq <- rep(c("absent","present","threat","present","threat","present", "threat","attack","present","threat","attack","present", "attack","threat","absent"), times = c(2,6,2,1,2,1,1,3,5,3,1,3,3,2,2))

10 r sequence-analysis

1

如何在一幅图中绘制拟合的伽玛分布图和实际图？

加载所需的包。 library(ggplot2) library(MASS) 生成10,000个适合伽玛分布的数字。 x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] 假设我们不知道x符合哪个分布，则绘制概率密度函数。 t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y = y)) + theme_classic() 从图中可以看出，x的分布与伽马分布非常相似，因此fitdistr()在包中使用它MASS可以获取形状和伽马分布速率的参数。 fitdistr(x,"gamma") ## output ## shape rate ## 2.0108224880 0.2011198260 ## (0.0083543575) …

10 r mathematical-statistics goodness-of-fit gamma-distribution ggplot2

2

R的coxph（）究竟如何处理重复的测量？

语境我试图了解R的coxph（）如何接受和处理主题（或患者/客户，如果您愿意的话）的重复条目。有些人称这种长格式，有些人称其为“重复措施”。例如，请参见以下答案部分中包含ID列的数据集：协变量随时间变化的最佳Cox模型还要假设协变量始终随时间变化，并且恰好有一个检查变量（即事件），它是二进制的。问题 1）在上述链接的答案中，如果在调用coxph（）时未提供ID作为参数，结果是否应与将cluster（ID）作为coxph（）的参数包含在内？我试图搜索文档，但以下内容似乎并未明确说明（1）：https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2）如果对（1）的回答为“否”，那么（数学上）为什么？似乎coxph（）中的cluster（）根据pg上的“ cluster”小节在主题之间寻求关联。20点 https://cran.r-project.org/web/packages/survival/survival.pdf 3）含糊的问题：重复测量的coxph（）与R的脆弱包装回归方法相比如何？附加物以下是有关使用cluster（ID）的提示：是否存在可重复测量的logrank测试版本？和： https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEE方法：将“ + cluster（subject）”添加到coxph的模型语句中混合模型方法：将“ +（1 | subject）”添加到coxme的模型语句中。提前致谢！

10 r repeated-measures survival cox-model frailty

1

这种对稀疏性的解释准确吗？

根据软件包removeSparseTerms功能的文档，tm稀疏性是这样的： A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. 那么，是否正确解释是说如果sparse等于.99，那么我们要删除仅出现在最多1％数据中的术语？

10 r text-mining natural-language

1

R中的交叉验证套索回归

R函数cv.glm（库：引导）为广义线性模型计算估计的K折交叉验证预测误差，并返回增量。使用此函数进行套索回归（库：glmnet）是否有意义？如果是，如何进行？glmnet库使用交叉验证来获得最佳的车削参数，但是我没有找到任何交叉验证最终glmnet方程的示例。

10 r regression cross-validation lasso glmnet

1

对于广义线性模型（例如，泊松混合模型（与glmer拟合）），lsmeans报告什么？

我正在分析设计实验中的眼动数据。我的数据的简化版本如下所示（您可以在此处获取dput（）数据）， head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 其中参与者是每个主题的唯一标识符，fixationImage是他们固定在哪个图片类别上，而fixationCount是他们固定在该图片类别上的次数。我使用lme4包中的 glmer（）将泊松模型拟合到数据中。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) 我使用lsmeans 包中的 lsmeans（）来检查因子水平之间的差异， cld(lsmeans(model,"fixationImage")) 提供以下输出： fixationImage lsmean …

10 r mixed-model poisson-regression lsmeans lme4-nlme

Questions tagged «r»