Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
在同一个数据集上运行两个线性模型是否可以接受?
对于具有多个组(先验定义的自然组)的线性回归,是否可以在同一数据集上运行两个不同的模型来回答以下两个问题? 每个组是否具有非零的斜率和非零的截距,并且组回归中每个参数的参数是什么? 无论组成员身份如何,是否存在非零趋势和非零截距,并且跨组回归的参数有哪些? 在R中,第一个模型为lm(y ~ group + x:group - 1),因此估计的系数可以直接解释为每个组的截距和斜率lm(y ~ x + 1)。 备选方案将是lm(y ~ x + group + x:group + 1),这将导致复杂的系数汇总表,并且必须根据组中的斜率和截距来计算系数和截距,而斜率和截距必须来自某个参考。另外,您还必须重新排序组并再次运行模型,以获取最后一个组差异的p值(有时)。 这是否使用两个单独的模型以任何方式或这种标准惯例对推理产生了负面影响? 为了说明这一点,将x表示为药物剂量,将各组视为不同的种族。了解特定种族的医生的剂量反应关系可能很有趣,或者根本不知道药物对哪个种族起作用,但是有时了解整个(人类)人群的剂量反应关系也可能很有趣。不管竞选公共卫生官员。这只是一个例子,说明人们可能对组内和组间回归分别感兴趣。剂量反应关系是否应为线性并不重要。

4
在R中的逻辑回归模型上缺乏拟合度时,如何计算Pearson的检验统计量?
对于R中的逻辑回归模型(使用函数进行拟合),获得似然比(aka偏差)统计和不拟合(或拟合优)检验非常简单。容易使某些单元格计数低到足以使测试不可靠的程度。验证似然比检验是否缺乏拟合的可靠性的一种方法是将其检验统计量和P值与Pearson的卡方检验(或)缺乏拟合的检验进行比较。G2G2G^2glm(..., family = binomial)χ2χ2\chi^2 该glm对象及其summary()方法均未报告缺少拟合的Pearson卡方检验的检验统计量。在搜索中,我唯一想到的就是chisq.test()功能(在stats包装中):其文档说“ chisq.test执行卡方列联表测试和拟合优度测试”。但是,该文档缺乏有关如何执行此类测试的信息: 如果x是具有一行或一列的矩阵,或者如果x是向量y且未给出,则执行拟合优度检验(x被视为一维列联表)。的条目x必须是非负整数。在这种情况下,检验的假设是总体概率是否等于中的概率p,如果p未给出,则全部等于。 我猜想您可以y将glm对象的组件用作的x参数chisq.test。但是,您不能fitted.values将glm对象的组件用作的p参数chisq.test,因为会出现错误:“ probabilities must sum to 1.” 如何(在R中)至少可以计算出缺乏拟合的Pearson测试统计量,而不必手动执行这些步骤?χ2χ2\chi^2

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
物流增长数据的误差分布是什么?
在生态学中,我们经常使用逻辑增长方程: ñŤ=ķñ0Ë[R Ťķ+ñ0Ër t − 1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} 要么 ñŤ=ķñ0ñ0+ (K-ñ0)Ë- - [R ŤNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} 其中是承载能力(达到最大密度),是初始密度,是增长率,是从初始开始的时间。ķKKñ0N0N_0[RrrŤtt 的值具有一个的上限和一个下限,下限为。ñŤNtN_t(K)(K)(K)(ñ0)(N0)(N_0)000 此外,在我的特定上下文中,使用光密度或荧光进行测量,这两者均具有理论最大值,因此具有很强的上限。ñŤNtN_t 因此,围绕的误差最好用有界分布来描述。ñŤNtN_t 在值,该分布可能具有很强的正偏度,而在值接近K时,该分布可能具有很强的负偏度。因此,该分布可能具有可以链接到的形状参数。ñŤNtN_tñŤNtN_tñŤNtN_t 方差也可以随着增加。ñŤNtN_t 这是一个图形示例 与 K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 可以用 library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 考虑到模型和提供的经验信息,围绕的理论误差分布是?ñŤNtN_t 此分布的参数与或时间值关系(如果使用参数,则该模式不能与直接关联,例如logis正态)?ñŤNtN_tñŤNtN_t 这个分布是否具有在实现的密度函数?[RRR 到目前为止探索的方向: …
10 r  distributions  pdf  ecology 

2
如何在R中模拟多元结果?
在大多数情况下,我们只处理一个结果/响应变量,例如 y=a+bx+ϵy=a+bx+ϵy = a + bx +\epsilon。但是,在某些情况下,尤其是在临床数据中,结果变量可能是高维/多元变量。如Y=βx+ϵY=βx+ϵ\mathsf{Y} = \beta{x} + \mathsf{\epsilon},在哪里 YY\mathsf{Y} 包含 Y1Y1Y_1, Y2Y2Y_2 和 Y3Y3Y_3变量与这些结果都相关。如果xxx 代表正在接受治疗(是/否),如何在R中模拟此类数据? 一个真实的例子,每个患者接受两种类型的搭桥手术中的一种,研究人员在搭桥手术后对每个患者进行疼痛,肿胀,疲劳等测量(每个症状的发生率从0到10)。我“假设”结局(症状严重程度)是多元正常的。希望这个真实的例子可以澄清我的问题。提前谢谢了。

3
如何使用R检验相关性等于给定值的假设?
是否有一个函数可以检验两个向量的相关性等于给定数字(例如0.75)的假设?使用cor.test可以测试cor = 0,可以看到0.75是否在置信区间内。但是是否有一个函数可以计算cor = 0.75的p值? x <- rnorm(10) y <- x+rnorm(10) cor.test(x, y)
10 r  correlation 

3
R中具有因子的线性回归
我试图了解因素在R中的确切作用。假设我想使用R中的一些样本数据进行回归: > data(CO2) > colnames(CO2) [1] "Plant" "Type" "Treatment" "conc" "uptake" > levels(CO2$Type) [1] "Quebec" "Mississippi" > levels(CO2$Treatment) [1] "nonchilled" "chilled" > lm(uptake ~ Type + Treatment, data = CO2) Call: lm(formula = uptake ~ Type + Treatment, data = CO2) Coefficients: (Intercept) TypeMississippi Treatmentchilled 36.97 -12.66 -6.86 我了解这一点,TypeMississippi并将Treatmentchilled其视为布尔值:对于每一行,初始摄取为36.97,12.66如果它是密西西比州的类型并且6.86是冷藏的,我们就减去它。我在理解以下内容时遇到了麻烦: > …

2
在预测冰球运动员的职业生涯总目标时是否在Poisson回归中使用偏移
我有一个关于不愿使用补偿的问题。假设一个非常简单的模型,您要在其中描述曲棍球的(全部)目标数。因此,您有目标,打的游戏次数和虚拟变量“ strike”(如果玩家是前锋,则等于1,否则等于0)。那么正确指定了以下哪个模型? 目标=游戏+前锋,或 目标=偏移量(游戏)+前锋 同样,目标是整体目标,游戏数量是单个玩家的整体游戏。例如,可能有一个玩家在100场比赛中有50个进球,而另一个在50场比赛中有20个进球的玩家,依此类推。 我想估算目标数时应该怎么做?是否真的需要在此处使用偏移量? 参考文献: 参见前面的问题,讨论一般在Poisson回归中何时使用偏移量。

2
如何在线性模型中说明空间协方差?
背景 我有一项实地研究的数据,在该研究中,两个模块中的每个模块有四个处理级别和六个重复项。(4x6x2 = 48个观察值) 街区相距约1英里,街区内有42个2m x 4m地块的网格和1m宽的人行道。我的研究在每个区块中仅使用了24个地块。 我想评估评估空间协方差。 这是一个使用单个块中的数据进行分析的示例,其中不考虑空间协方差。在数据集中,plot图的id是图的ID,图1的中心位于0,0的每个图x的x位置和yy位置。level是处理级别,并且response是响应变量。 layout <- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, 28L, 30L, 31L, 32L, 35L, 36L, 37L, 39L, 40L, 42L), level = c(0L, 10L, 1L, 4L, 10L, 0L, 4L, 10L, 0L, 4L, 0L, …

4
如何获取mgcv中plot.gam中使用的值?
我想找出在mgcv软件包(x, y)中绘图所使用的值。有谁知道我如何提取或计算这些值?plot(b, seWithMean=TRUE) 这是一个例子: library(mgcv) set.seed(0) dat <- gamSim(1, n=400, dist="normal", scale=2) b <- gam(y~s(x0), data=dat) plot(b, seWithMean=TRUE)

4
给定10D MCMC链,如何确定R中的后验模式?
问题:假设有10维MCMC链,我准备将抽奖矩阵交给您:10个参数(列)的100,000次迭代(行),我如何才能最好地识别后验模式?我特别关注多种模式。 背景:我认为自己是一位精通计算的统计学家,但是当一位同事问我这个问题时,我为自己无法给出一个合理的答案而感到ham愧。主要关注的是可能会出现多种模式,但前提是必须考虑十个维度中的至少八个左右。我的第一个想法是使用核密度估计,但是对R的搜索没有发现对大于3维问题的希望。同事已经提出了十个维度的临时分箱策略并寻求最大值,但我担心的是带宽可能会导致严重的稀疏性问题或缺乏分辨多种模式的分辨率。就是说,我很乐意接受有关自动带宽建议的建议,与10个内核密度估算器的链接或您所知道的其他任何信息。 顾虑: 我们认为该分布可能会偏斜;因此,我们希望确定后验模式,而不是后验方法。 我们担心可能存在几种后验模式。 如果可能的话,我们希望使用基于R的建议。但是,只要不难以实现,任何算法都可以。我想我不希望通过从头开始自动带宽选择来实现Nd内核密度估计器。

5
Ω平方表示R中的作用?
我正在阅读的统计书建议使用Ω平方来衡量实验的效果。我已经使用分割图设计(对象内部和对象间设计的混合)证明了我的对象内部因子具有统计学显着性,p <0.001,F = 17。 现在,我希望看到两者之间的区别有多大...针对R(或python?)的某个地方是否实现了omega平方的实现?痛苦*,我不知道如何用C寻找东西。 谢谢!

1
R中逻辑模型的输出
我正在尝试解释以下类型的物流模型: mdl <- glm(c(suc,fail) ~ fac1 + fac2, data=df, family=binomial) predict(mdl)每个数据点的预期成功几率是否输出?是否有一种简单的方法可以为模型的每个因子级别(而不是所有数据点)列表几率?


3
如何在R中条形图并排的情况下创建条形图
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我想为R中的这些数据创建一个图表(从CVS文件读取): Experiment_Name MetricA MetricB Just_X 2 10 Just_X_and_Y 3 20 具有下图: 我是初学者,我也不知道该如何开始。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.