Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
泊松回归假设以及如何在R中对其进行检验
我想测试哪种回归最适合我的数据。我的因变量是一个计数,并且有很多零。 而且,我需要一些帮助来确定使用哪种模型和家庭(泊松或准泊松,或零膨胀泊松回归),以及如何检验这些假设。 泊松回归:据我了解,一个强有力的假设是因变量均值=方差。您如何测试呢?他们必须有多近?是否为此使用了无条件或有条件的均值和方差?如果这个假设不成立怎么办? 我读到,如果方差大于均值,则说明我们存在过度分散,解决这一问题的潜在方法是包括更多自变量,或称family = quasipoisson。此分布是否还有其他要求或假设?我该使用哪种测试来查看(1)或(2)是否更合适-简单anova(m1,m2)? 我还读到,当出现过度分散时,可以使用负二项分布。如何在R中执行此操作?与拟泊松有什么区别? 零膨胀泊松回归:我读到使用vuong检验可以检查哪种模型更合适。 > vuong (model.poisson, model.zero.poisson) 那是对的吗?零膨胀回归有什么假设? 加州大学洛杉矶分校的学术技术服务,统计咨询集团拥有部分约zeroinflated泊松回归,并测试与标准泊松模型(二)zeroinflated模型(一): > m.a <- zeroinfl(count ~ child + camper | persons, data = zinb) > m.b <- glm(count ~ child + camper, family = poisson, data = zinb) > vuong(m.a, m.b) 我不了解| persons第一个模型的功能,以及为什么可以比较这些模型。我曾期望回归是相同的,只是使用不同的家庭。

3
使用计算机模拟以更好地理解研究生级别的统计概念
您好,我正在修读统计学的研究生课程,并且我们涵盖了测试统计和其他概念。 但是,我通常能够运用公式并就事物的工作原理形成某种直觉,但我常常感到,如果我通过模拟实验来支持研究,那么我将对眼前的问题有更好的直觉。 因此,我一直在考虑编写简单的模拟,以更好地理解我们在课堂上讨论的一些概念。现在我可以用说Java来: 产生具有正常均值和标准差的随机总体。 然后取一个小样本,尝试尝试凭经验计算Type-I和Type-II错误。 现在我的问题是: 这是发展直觉的合法方法吗? 是否有执行此操作的软件(SAS?,R?) 统计学是一门处理此类编程的学科吗:实验统计?,计算统计?模拟?

1
使用ggplot或ellipse软件包绘制95%CI椭圆时获得不同的结果
我想protoclust{protoclust}通过为用于对我的数据进行分类的每对变量创建散点图,按类着色以及为每个类的95%置信区间重叠椭圆来可视化聚类的结果(用生成),以对每个类进行重叠(以检查椭圆类在每对变量下重叠)。 我已经以两种不同的方式实现了椭圆的绘制,并且生成的椭圆也不同!(第一个实现使用更大的椭圆!)先验的只是它们的大小不同(有些不同的缩放比例?),因为轴的中心和角度在两者上似乎是相似的。我想我一定是通过使用其中之一(不要同时使用两者!)或参数来做错事。 谁能告诉我我在做什么错? 这里是两个实现的代码;两者均基于“ 如何将数据椭圆叠加到ggplot2散点图上”的答案? ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal <- brewer.pal(10, "Paired") x <- data$x y <- data$y group <- data$group df <- data.frame(x=x, y=y, group=factor(group)) df_ell <- data.frame() for(g in levels(df$group)){df_ell <- rbind(df_ell, cbind(as.data.frame(with(df[df$group==g,], ellipse(cor(x, y),scale=c(sd(x),sd(y)),centre=c(mean(x),mean(y))))),group=g))} p1 <- ggplot(data=df, aes(x=x, y=y,colour=group)) + geom_point() …

2
建立一个时间序列,其中包含每个日期的多个观测值
我正在尝试将时间序列应用于10年期间的季度采样数据(动物生物质),每季度3次。因此有40个日期,但总共有120个观测值。 我已经阅读过Shumway和Stoffer的时间序列分析及其应用中的SARIMA'a以及略过的Woodward等。等人的《应用时间序列分析》,我的理解是,每个模型都基于时间序列中每个点的一次观察。 问题:如何在模型的每个观测值中包括变化?我可以在均值的基础上建立一个序列,但我会放宽每次观察的差异,我认为这对于我了解正在发生的事情至关重要。
11 r  time-series 

1
可以将这些数据汇总成二项式glm的比例吗?
我们要求60个人列出尽可能多的亚特兰大饭店特许经营权。总体列表中包括70多家餐厅,但我们淘汰了不到10%的人提到的餐厅,剩下45家。对于这45家餐厅,我们计算了列出特许经营权的线人的比例,并且我们对根据特许经营权(对数转换)的广告预算和自成为特许经营权以来的年限来建模此比例。 所以我写了这段代码: model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45) 正如预测的那样,这两个变量都显示出强大而显着的效果。 但是,即使我知道绝对不应该使用OLS回归对比例数据建模,但我随后编写了以下代码: model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45) 在这种情况下,“预算”仍然是重要的预测指标,但“年”相对较弱,并不重要。 这让我担心,对估计的信心会因汇总而被人为夸大。二项式glm实际上不是对数据进行矢量化处理,从而使模型基于45 * 55 = 2,475行吗?考虑到实际上只有45家餐厅和55名线人,这是否合适?这是否需要混合效果建模?

1
在R中没有比例赔率假设的情况下,如何在序数逻辑回归中固定系数?
我想在R中进行序数逻辑回归,而没有比例赔率假设。我知道可以通过设置vglm()功能直接完成此操作。Rparallel=FALSE 但是我的问题是如何在此回归设置中固定一组特定的系数?例如,假设因变量是离散的和有序和可以取的值,,或3。如果回归变量为X_ {1}和X_ {2},则回归方程为ÿÿYÿ= 1ÿ=1个Y = 1222333X1个X1个X_{1}X2X2X_{2} 升ø 克我吨( P(是≤ 1 ))升ø 克我吨( P(是≤ 2 ))= α1个+ β11X1个+ β12X2= α2+ β21X1个+ β22X2升ØG一世Ť(P(ÿ≤1个))=α1个+β11X1个+β12X2升ØG一世Ť(P(ÿ≤2))=α2+β21X1个+β22X2 \begin{aligned} {\rm logit} \big( P(Y \leq 1) \big) &= \alpha_{1} + \beta_{11}X_{1} + \beta_{12}X_{2} \\ {\rm logit}\big(P(Y \leq 2) \big) &= \alpha_{2} + \beta_{21}X_{1} + \beta_{22}X_{2} \end{aligned} 我想将和为。请让我知道如何实现这一目标。另外,如果不能执行此操作,是否还可以让我知道是否可以在任何其他统计软件中实现?β11β11\beta_{11}β22β22\beta_{22}1个1个1R
11 r  regression  logistic 

2
GLM输出中的色散参数
我已经在R中看到了一点,在summary()输出的底部附近,它指出 (Dispersion parameter for gaussian family taken to be 28.35031) 我在Google上进行了一些摸索,并了解到散度参数用于适应标准误差。我希望有人可以提供更多有关分散参数是什么以及应如何解释的详细信息?

1
在R中安装Poisson GLM-费率与计数有关的问题
我目前正在从事一个涉及GLM(最终是GAM)的项目,这些项目随着时间的推移会越来越多。通常,我会在SAS中执行此操作,但是我试图移至R,并遇到了一些问题。 当我适合使用以下方法对GLM进行计数时: cdi_model <- glm(counts ~ exposure + covariate + month, data=test, family = poisson) 我得到: Deviance Residuals: Min 1Q Median 3Q Max -1.9825 -0.7903 -0.1187 0.5717 1.7649 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.97563 0.20117 9.821 < 2e-16 *** exposure 0.94528 0.30808 3.068 0.00215 ** covariate -0.01317 …

2
如何从Cox PH模型计算预测的危险率?
我有以下Cox PH模型: (时间,事件)〜X + Y + Z 我想获得预测的危险率(我说的是风险率不危险比)给出的具体值X,Y,Z。我知道muhaz R软件包可以计算观察到的危险率,但是我对预测模型感兴趣。 有没有办法在R中做到这一点?
11 r  survival  hazard  cox-model 


1
将2类模型扩展到多类问题
关于Adaboost的这篇论文提出了一些建议和代码(第17页),以将2类模型扩展到K类问题。我想对此代码进行概括,以便我可以轻松地插入不同的2类模型并比较结果。由于大多数分类模型都具有公式界面和predict方法,因此其中某些应该相对容易。不幸的是,我还没有找到从2类模型中提取类概率的标准方法,因此每个模型都需要一些自定义代码。 这是我编写的用于将K类问题分解为2类问题并返回K模型的函数: oneVsAll <- function(X,Y,FUN,...) { models <- lapply(unique(Y), function(x) { name <- as.character(x) .Target <- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat <- data.frame(.Target, X) model <- FUN(.Target~., data=dat, ...) return(model) }) names(models) <- unique(Y) info <- list(X=X, Y=Y, classes=unique(Y)) out <- list(models=models, info=info) class(out) <- 'oneVsAll' return(out) } 这是我编写的一种预测方法,用于遍历每个模型并进行预测: predict.oneVsAll <- …

1
使用规则为新数据找到合适的规则
我正在使用R(和arules软件包)来挖掘交易的关联规则。我要做的是构造规则,然后将其应用于新数据。 例如,假设我有很多规则,其中之一就是规范{Beer=YES} -> {Diapers=YES}。 然后,我有了新的交易数据,其中一条记录购买了啤酒,但没有购买尿布。如何确定符合LHS但尚未符合RHS的规则? R示例: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成的规则是: > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

1
在R中的时间线上绘制事件
是否有R的图库,可以将开始和停止时间的数据帧转换为时间轴图,如下所示: Y轴的唯一含义是它与并发一起堆叠,但并不总是表示并发(请参见中间的间隙)。每个灰色框都是一个事件-数据框的一行。数据框将具有两列,开始时间和停止时间。

2
lm的默认诊断图的可能扩展(在R中和一般而言)?
我开始深入研究plot.lm函数,该函数给出了lm的六个图,它们是: 残差与拟合值的关系图 sqrt(|残差|)对拟合值的比例位置图 普通QQ图,库克距离与行标签的图 残差与杠杆的关系图 库克距离与杠杆/(1-杠杆)的关系图 我想知道线性图还存在电流图的其他常见/有用扩展,以及它们如何在R中完成?(也欢迎链接到包装的文章) 因此,boxcox函数(来自{MASS})是另一个有用的诊断图的示例(这样的答案会很好),但是,我对R中lm的现有默认诊断图的变化/扩展感到好奇(尽管一般始终欢迎您对此主题发表其他评论)。 这是我的意思的一些简单示例: #Some example code for all of us to refer to set.seed(2542) x1 <- rnorm(100) x2 <- runif(100, -2,2) eps <- rnorm(100,0,2) y <- 1 + 2*x1 + 3*x2 + eps y[1:4] <- 14 # adding some contaminated points fit <- lm(y~x1+x2) …

2
分类变量之间的共线性
关于连续预测变量的共线性有很多,但我在分类预测变量上找不到太多。我的数据如下所示。 第一个因素是遗传变量(等位基因计数),第二个因素是疾病类别。显然,基因在疾病之前,并且是显示导致诊断的症状的因素。但是,像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单(因为它与订单有关)时,我进行平方和分析的类型就会选择它。此外,疾病过程中可能存在与基因无关的额外成分,这些成分与II型或III型不能很好地鉴定,请参阅下面的anova (lm1) vs lm2或Anova。 示例数据: set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.