Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
通过泊松回归生成数据样本
我想知道如何从R中的泊松回归方程生成数据?我对如何解决这个问题感到困惑。 因此,如果我假设我们有两个分布为预测变量和。截距为0,两个系数都等于1。那么我的估计很简单:X1个X1X_1X2X2X_2ñ(0 ,1 )N(0,1)N(0,1) 日志(是)= 0 + 1 ⋅ X1个+ 1 ⋅ X2log⁡(Y)=0+1⋅X1+1⋅X2\log(Y) = 0+ 1\cdot X_1 + 1\cdot X_2 但是,一旦计算出log(Y),如何基于该值生成泊松计数?泊松分布的速率参数是多少? 如果有人可以编写一个简短的R脚本来生成泊松回归样本,那将太棒了!

2
什么是组块测试?
在回答存在多重共线性的模型选择问题时,Frank Harrell 建议: 将所有变量放入模型中,但不测试针对竞争变量的影响而调整的一个变量的影响...竞争变量的块测试功能强大,因为共线性变量在整体多自由度关联测试中共同作用,而不是当您分别测试变量时,彼此竞争。 什么是块测试?你能举一个例子说明他们的应用r吗?

3
Ruby作为统计工作台
这也是一个与Python作为统计工作台和excel作为统计工作台非常相关的问题。我知道关于Ruby与Python的讨论很多,但这不是这个问题的重点。我认为Ruby比Python快并且语法非常自然,这可以使我理解统计数据,并且可以很好地替代R(这也是我感兴趣的,在我对R的其他问题中也提到过)。例如,在我见过的一次Google Tech讲座中(引用了这里的链接问题,讲师抱怨R在创建for循环时速度很慢)。有了Ruby,也有了Rails,因此也许也有可能将两者结合在一起(Python确实有Django,但我不再赘述)。 因此,对于我来说,问题与Ruby相同: 如果我想使用Ruby作为“统计工作台”来代替R,SPSS,Python,Excel等,您能推荐什么? 根据您的经验,我会有什么得失? 请注意,我正在基于先前的Python和Excel问题来考虑此问题。如果您认为使用Ruby和Python(或Excel)会产生相同的影响,请这么说并指向任何先前问题的论点,该问题的目的是不要为相同的答案复制先前的问题。但是,我确实相信存在差异(例如语言和语法的速度),但是我也特别想知道针对Ruby的建议,或者是否有比它说的少得多的可用建议。 Python或Excel。因此,对于其他非常相似的问题,但对于其他语言/程序,请考虑先前的答案。 编辑:只是要突出显示,因为答案似乎是相反的,所以我一直在寻找答案,例如我链接到的Python问题中选择的答案。它不是与Ruby一起学习统计信息。我确实指出了用R学习统计的问题。如果可能的话,但是我不希望同时使用Ruby学习统计信息。您可以假设此问题的统计背景。
13 r  python  software  ruby 

3
是否有公式或规则来确定randomForest的正确sampSize?
我正在与randomForest一起玩,并且发现通常增加sampSize会导致更好的性能。是否有一条规则/公式/等建议最佳sampSize应该是什么,或者是反复试验的事情?我想这是另一种措辞方式。sampSize太小或太大(过度拟合)有什么风险? 这个问题是指randomForest软件包中随机森林的R实现。该函数randomForest具有一个参数sampSize,该参数在文档中描述为 要抽取的样本大小。对于分类,如果sampsize是长度为层数的向量,则将采样按层进行分层,并且sampsize的元素指示要从层中提取的数字。
13 r  random-forest 

2
分析比例
我有一个包含多个总计为1的比例的数据集。我对这些比例沿梯度的变化感兴趣(请参见下面的示例数据)。 gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, y = value, …
13 r  multinomial 

2
普通英语使用R解释和验证Cox比例风险回归模型
有人可以用简单的英语向我解释我的Cox模型吗? 我使用该函数将以下Cox回归模型拟合到我的所有数据中cph。我的数据保存在名为的对象中Data。变量w,x和y是连续的;z是两个层次的因子。时间以月为单位。我的一些患者缺少变量数据z(注意:下面我已经适当地指出了Harrell博士的建议,即我估算这些值,以避免对我的模型造成偏见,以后会这样做)。 > fit <- cph(formula = Surv(time, event) ~ w + x + y + z, data = Data, x = T, y = T, surv = T, time.inc = 12) Cox Proportional Hazards Model Frequencies of Missing Values Due to Each Variable Surv(time, event) w x y z …

1
生物标志物研究的功效计算/样本量
我们有一个潜在的生物标志物,可以预测患者是否患有癌症。生物标志物测试结果为二进制为阳性或阴性。我们希望对需要测试的患者数量有所了解,以确定该生物标记物是否是良好的预测指标。 通过在互联网上阅读,似乎要走的路是看灵敏度(对于病例数)和特异性(对于对照数)。建议您将这种情况视为单样本比例测试,但仍不清楚如何估算灵敏度以及准备除的范围。如果说我认为灵敏度高于0.8的任何生物标记物都为“良好”,您将如何设置这两个变量?我希望我的零假设是生物标记,并不比随机分配好,即灵敏度为0.5。任何人都可以举例说明执行此操作的最佳方法(尤其是在R中)。
13 r  power 

2
评估逻辑回归模型
这个问题源于我对如何确定逻辑模型是否足够好的实际困惑。我有一些模型在成对变量两年后使用成对的个体项目状态。结果成功(1)或不成功(0)。我有在形成双时测量的自变量。我的目的是测试我假设会影响配对成功的变量是否对成功产生影响,并控制其他潜在影响。在模型中,关注变量很重要。 使用中的glm()函数估算模型R。为了评估模型的质量,我做了几件事:默认情况下glm()为您提供residual deviance,AIC和BIC。此外,我已经计算了模型的错误率并绘制了合并残差。 完整模型的残差,AIC和BIC小于我估计的其他模型(嵌套在完整模型中),这使我认为该模型比其他模型“更好”。 该模型的错误率相当低,恕我直言(如Gelman and Hill,2007,pp.99): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)约为20%。 到目前为止,一切都很好。但是,当我绘制合并的残差(再次遵循Gelman和Hill的建议)时,大部分合并箱位于95%CI之外: 该图使我认为该模型存在某些错误。那应该导致我放弃模型吗?我是否应该承认该模型是不完美的,但可以保留并解释感兴趣变量的影响?我开玩笑地依次排除了变量,并且进行了一些变换,但并没有真正改善合并残差图。 编辑: 目前,该模型具有十几个预测变量和5种交互作用。 这些对是相对“彼此”独立的,因为它们都是在短时间内形成的(但严格来说不是同时发生的),并且有很多项目(13k)和很多个人(19k) ),因此相当多的项目只能由一个人(大约2万对)加入。

2
如何将频率表转换为值向量?
使用R或Excel,将频率表转换为值向量的最简单方法是什么? 例如,您如何转换以下频率表 Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 进入以下向量? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5
13 r  dataset  excel 

4
在R中的一张图上绘制多个图?
使用以下代码,我尝试在中的图形上绘制四个图R。我对图不满意,因为图之间有很多空间,因此图的宽度不足以分析图。 有人可以帮我制作一个有四个图的漂亮图吗? 如何保持X轴标签的范围从1到10,而不是默认的5个标签? 数据: a1:11.013 13.814 13.831 13.714 13.787 13.734 13.778 13.771 13.823 13.659 a2:5.181 7.747 8.314 8.061 7.920 8.153 8.540 8.845 7.881 8.301 我已经将a1数据用于b1,c1和d1;仅用于此处的b2,c2和d2的a2数据。 数字: 码: op=par(mfrow=c(4,1), mar=c(5.5,5.1,4.1,2.1)) plot(a1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="A") lines(a2,type="b",pch=3,lty=3,col="darkblue",lwd=2.5,cex=1.2) par(xpd=T) legend(1,26.5,c("X","Y"),bty="n",horiz=T,cex=1.5,col=c("red1","darkblue"),text.col=c("red1","darkblue"),pch=c(1,3),lty=c(2,3),x.intersp=0.4,adj=0.2) plot(b1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="B") …

5
BUGS的R替代品[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 我正在学习使用BUGS和R进行的贝叶斯统计课程。 我已经读到R中有许多新的贝叶斯软件包。是否有列表或参考说明了哪些贝叶斯统计软件包以及这些软件包的作用?并且,是否有R包替代品可以提高BUGS的灵活性?
13 r  bayesian  bugs 

2
关于R中使用ggplot2的两个因素的箱线图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我对R和R中的任何软件包都是新手。我查看了ggplot2文档,但找不到此文件。我想要boxthis关于两个因子f1和的变量的箱形图f2。那是假设f1和f2都是因子变量,并且每个变量都有两个值,并且boxthis是连续变量。我想要得到的曲线图4个箱图,每个对应于一个组合从所述可能的组合f1和f2可以采取。我认为使用R中的基本功能,可以通过 > boxplot(boxthis ~ f1 * f2 , data = datasetname) 在此先感谢您的帮助。
13 r  boxplot  ggplot2 

4
R / Stata软件包用于零截断的负二项式GEE?
这是我的第一篇文章。我非常感谢这个社区。 我正在尝试分析被零截断的纵向计数数据(响应变量= 0的概率为0)和均值=方差,因此在泊松上选择了负二项式分布。 我排除的功能/命令: [R R中的gee()函数不考虑零截断或负二项式分布(即使加载了MASS包也不) R中的glm.nb()不允许使用不同的相关结构 VGAM软件包中的vglm()可以利用正负二项式族,但它与Stata的ztnb命令(请参见下文)存在相同的问题,因为我无法使用非独立的相关结构来重新拟合模型。 斯塔塔 如果数据不是纵向的,那么我可以使用Stata包ztnb来运行分析,但是该命令假定我的观察是独立的。 由于各种方法论/哲学上的原因,我也排除了GLMM。 现在,我已经开始考虑Stata的xtgee命令(是的,我知道xtnbreg也会做同样的事情),该命令既考虑了非独立相关结构又考虑了负二项式族,但没有考虑零截断。使用xtgee的另一个好处是,我还可以计算qic值(使用qic命令)来确定响应变量的最佳拟合相关结构。 如果R或Stata中有一个程序包/命令可以考虑1)宾果式族,2)GEE和3)零截断,我想知道。 我非常感谢您可能有任何想法。谢谢。 -凯西

2
了解聚类结果的比较
我正在尝试将数据分类。我对这个主题还很陌生,并试图了解一些分析的结果。 使用Quick-R中的示例,R建议使用几个软件包。我尝试使用其中两个包(fpc使用kmeans函数和mclust)。我不了解这种分析的一个方面是结果的比较。 # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) 我已经通读了fpc 手册的相关部分,但仍不清楚我的目标是什么。例如,这是比较两种不同聚类方法的输出: $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 2.763217 2.463826 $separation [1] 0.2797048 0.3754188 0.2797048 0.3557264 $average.toother …
13 r  clustering 

3
使用GLMNET还是LARS计算LASSO解决方案?
我想获得LASSO问题的系数 | | ÿ- Xβ| | +λ | | β| |1个。||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 问题是glmnet和lars函数给出不同的答案。对于glmnet函数,我要求的系数。| Y | | 而不只是,但我仍然得到不同的答案。λ / | | ÿ| |λ/||Y||\lambda/||Y||λλ\lambda 这是预期的吗?lars和glmnet之间是什么关系?我知道glmnet解决LASSO问题的速度更快,但是我想知道哪种方法更强大?λλλ\lambdaλλ\lambda deps_stats恐怕我的数据集太大,以至于LARS无法处理它,而另一方面glmnet可以处理我的大型数据集。 mpiktas我想找到(Y-Xb)^ 2 + L \ sum | b_j |的解决方案 但是,当我从两种算法(拉尔斯和glmnet)询问它们对于特定L的计算系数时,我得到了不同的答案……我想知道这是正确的/预期的吗?或者我只是为两个函数使用了错误的lambda。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.