Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
在R中动画化更改内核宽度的效果
我在R中有一些数据,存储在列表中。认为 d <- c(1,2,3,4) 尽管这不是我的数据。如果我输入命令 plot(density(d, kernel="gaussian", width=1)) 然后我得到核概率密度估计,其中核是标准法线。如果我将1替换为其他数字,则图片当然会改变。 我想做的是创建一个视频或动画,其中每个帧都是这样的图,但是内核的带宽随帧的不同而变化,从而显示出改变带宽的效果。我怎样才能做到这一点? (如果不能在此问关于R的问题,我深表歉意。)

3
如何显示缺少条目的相关矩阵?
我想在到目前为止收集的文章中获得相关性的图形表示,以方便地探索变量之间的关系。我曾经画过一个(混乱的)图,但是现在数据太多了。 基本上,我有一张桌子,上面有: [0]:变量1的名称 [1]:变量2的名称 [2]:相关值 “总体”矩阵不完整(例如,我具有V1 * V2,V2 * V3,但没有V1 * V3的相关性)。 有没有办法以图形方式表示这一点?

2
使用doSMP并行化插入符号包
更新:插入符现在在foreach内部使用,因此此问题不再真正相关。如果您可以为其注册一个工作的并行后端foreach,则插入符号将使用它。 我有用于R 的插入符号包,使用该train函数交叉验证我的模型很有趣。但是,我想加快处理速度,看来插入符号为并行处理提供了支持。在Windows计算机上访问此功能的最佳方法是什么?我有doSMP软件包,但是我不知道如何将foreach函数转换为lapply函数,因此可以将其传递给train函数。 这是train文档中我想要执行的示例:这正是我想要执行的操作,但使用的是doSMP包而不是doMPI包。 ## A function to emulate lapply in parallel mpiCalcs <- function(X, FUN, ...) } theDots <- list(...) parLapply(theDots$cl, X, FUN) { library(snow) cl <- makeCluster(5, "MPI") ## 50 bootstrap models distributed across 5 workers mpiControl <- trainControl(workers = 5, number = 50, computeFunction = mpiCalcs, computeArgs …

2
将混合模型(作为随机效应)与简单的线性模型(作为固定效应)进行比较
我正在完成对大量数据的一些分析。我想采用在工作的第一部分中使用的线性模型,并使用线性混合模型(LME)重新拟合它。除了将模型中使用的变量之一用作随机效应外,LME非常相似。该数据来自一小群受试者(约10个)中的许多观察值(> 1000),我知道,将受试者的效果建模为随机效果更好(这是我要转移的变量)。R代码如下所示: my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') 一切运行正常,结果极为相似。如果我可以使用RLRsim或AIC / BIC之类的东西来比较这两种模型并确定最合适的模型,那就太好了。我的同事们不想举报LME,因为尽管我认为LME是更合适的模型,但是没有一种容易获得的选择“更好”的方法。有什么建议么?

1
在R中的lm()中选择因子级别作为虚拟基准
可以说我正在X1和X2上回归Y,其中X1是一个数字变量,X2是一个具有四个级别(A:D)的因数。有什么方法可以编写线性回归函数,lm(Y ~ X1 + as.factor(X2))以便我可以选择特定级别的X2(例如B)作为基线?
10 r 

1
使用metafor包在R中进行荟萃分析
在下面的小型荟萃分析的真实示例中,如何rma从metafor包中对函数进行语法化处理才能获得结果?(随机效应,摘要统计SMD) study, mean1, sd1, n1, mean2, sd2, n2 Foo2000, 0.78, 0.05, 20, 0.82, 0.07, 25 Sun2003, 0.74, 0.08, 30, 0.72, 0.05, 19 Pric2005, 0.75, 0.12, 20, 0.74, 0.09, 29 Rota2008, 0.62, 0.05, 24, 0.66, 0.03, 24 Pete2008, 0.68, 0.03, 10, 0.68, 0.02, 10
10 r  meta-analysis 

2
非参数回归的最佳特征选择方法
这里有一个新手问题。我目前正在使用R中的np包执行非参数回归。我有7个功能,并使用蛮力方法确定了最好的3个。但是,很快我将拥有7个以上的功能! 我的问题是,当前用于非参数回归的特征选择的最佳方法是什么?以及哪些程序包实现了这些方法。谢谢。

2
R中的复数回归图
我需要绘制复杂的图形以进行可视数据分析。我有2个变量和大量案例(> 1000)。例如(如果使分散度减少为“正常”,则为100): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1)我需要以点大小绘制原始数据,对应于巧合的相对频率,因此plot(x,y)这不是一种选择-我需要点大小。要做到这一点应该怎么做? 2)在同一图上,我需要绘制95%的置信区间椭圆和代表相关性变化的线(不知道如何正确命名)-像这样: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) 但两个图都在一个图上。 3)最后,我需要在此基础上绘制一个生成的linar回归模型: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) 但错误范围...类似于QQ绘图: 但是如果可能的话,会出现拟合错误。 所以问题是: 如何在一张图表上实现所有这些?

2
RNG,R,mclapply和计算机集群
我在R和计算机集群上运行模拟,并且遇到以下问题。在每台X台计算机上运行: fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) 有32台计算机,每台计算机具有16个核心。但是,大约2%的随机数是相同的。您将采取什么策略来避免这种情况? 通过设置等待时间(即,将每个作业发送到X台计算机的时间延迟了几秒钟),我已经能够避免fxT2出现此问题。但是,对于fxt2来说似乎是非常特殊的。 问题在于,实际上fxT2是一项涉及伪随机数的漫长任务。在过程的最后,我希望得到同一统计实验的X * nessay复制,而不是 nessay复制。如何确保确实如此,是否有办法检查?

1
在R中使用stats包进行kmeans聚类
我很难理解集群程序包的一两个方面。我正在密切关注Quick-R中的示例,但不了解分析的一两个方面。我已经包含了用于此特定示例的代码。 ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, 3245.540062, 1711.817955, 2127.285272, …
10 r  clustering 

1
成功的实际应用中的计量经济学方法的书面/可复制示例?
这个问题听起来可能很广泛,但这就是我想要的。我知道有许多关于计量经济学方法的优秀书籍,以及关于计量经济学技术的许多出色的说明性文章。如此CrossValidated 问题中所述,甚至还有极好的可重复的计量经济学示例。实际上,此问题中的示例与我要寻找的非常接近;这些示例中唯一缺少的是它们仅是研究报告,而没有提及研究结果在实际应用中的表现。 我正在寻找的是计量经济学理论在现实世界中应用的已记录/可复制的示例,这些示例理想地具有以下特征: 它们应该是可重复的,即,包含的详细描述(并指针)的数据,计量技术,和代码。理想情况下,代码将使用R语言。 根据详细量化的成功指标,应该有详细的文档显示该技术在现实世界中取得了成功(例如“该技术有助于增加收入,因为它可以改善需求预测,这是其中涉及的数字”) 我在这里广泛使用“ 计量经济学 ”一词-我的意思是任何种类的数据挖掘,统计数据分析,预测,预测或机器学习技术。查找此类示例的一个直接问题是:计量经济学的许多成功应用都是在营利性环境中完成的,因此是专有的,因此,如果一项技术行之有效,则可能不会公开(特别是在专有交易的情况下)策略),但我仍然希望有一些已发布的示例至少具有上述属性(2),如果不是同时具有(1)和(2)。

4
构建与Ross Quinlan C5.0的MATLAB和R接口
我正在考虑为Ross Quinlan的C5.0构建MATLAB和R接口(对于不熟悉它的人,C5.0是决策树算法和软件包;是C4.5的扩展),而我试图了解我需要编写的组件。 我在这里找到的有关C5.0的唯一文档在这里,这是See5(C5.0的Windows界面)的教程。该焦油文件带有一个Makefile,但没有自述文件或任何其他文件。 根据我在上面的教程中所读的内容,C5.0使用基于ASCII的表示形式来处理输入和输出,并且我还在考虑构建一个接口,该接口直接在MATLAB或R和C5.0之间传递二进制数据。其他任何机器学习/分类软件都使用C5.0的数据表示吗? 之前有人尝试过建立针对ID3,C4.5或C5.0的MATLAB或R接口吗? 谢谢

2
R和SAS中的岭回归实现之间的区别
我已经阅读了《应用线性统计模型》第5版第11章中对岭回归的描述。岭回归是根据此处可用的身体脂肪数据完成的。 教科书与SAS中的输出匹配,在拟合模型中反变换系数为: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 从SAS显示为: proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y Intercept X1 X2 …

1
绘制分段回归线
除了lines用于单独绘制每个段或使用之外,是否有办法绘制像这样的分段模型的回归线geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients 谢谢。

4
如何估算R中零膨胀参数的密度?
我有一个很多零的数据集,看起来像这样: set.seed(1) x <- c(rlnorm(100),rep(0,50)) hist(x,probability=TRUE,breaks = 25) 我想为其密度画一条线,但是该density()函数使用一个移动窗口来计算x的负值。 lines(density(x), col = 'grey') 有一个density(... from, to)参数,但是这些参数似乎只会截断计算,而不会更改窗口,因此0处的密度与数据一致,如以下图所示: lines(density(x, from = 0), col = 'black') (如果插值被更改,我希望黑线在0处的密度比灰线高) 此功能是否有替代方法可以更好地计算零密度?
10 r  probability  kde 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.