Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
R中的离散时间危害模型(博客)
该survival软件包R似乎专注于连续时间生存模型。我对估计比例风险模型(互补对数-对数模型)的离散时间版本感兴趣。我有一个非常简单的生存模型,并带有简单的权限检查。 我知道,估算此模型的一种方法是创建一个数据集,该数据集在不是“死角”的每个时期的每个观察值中都有单独的一行。然后,可以使用glm带有cloglog链接的模型。 这种方法似乎对内存效率很低。实际上,它可能会产生一个数据集,该数据集对于我的计算机上的内存而言太大。 第二种方法是自己编写MLE。那将足够简单,但是我希望有一个可以固定这种生存模型的软件包。协作更容易,并且避免使用程序包时出现编码错误。 有人知道这样的包裹吗?
10 r  survival 

2
寻找已知数量的圆心,以最大化固定距离内的点数
我有一组二维数据,我想在其中找到指定数量的圆心()的中心,这些圆使指定距离()内的点总数达到最大。NNNRRR 例如,我有10,000个数据点,我想找到圆的中心,它们在的半径内捕获了尽可能多的点。预先给出了5个中心和10个半径,而不是从数据中得出的。(Xi,Yi)(Xi,Yi)(X_i, Y_i)N=5N=5N=5R=10R=10R=10 圆内数据点的存在是二进制“或”或“命题”。如果,则相距11个单位与100个单位之外的点的值没有差异,因为它们都>10。类似地,在圆内,靠近中心与靠近边缘也没有任何附加值。 。数据点在圆圈之一中或不在圆圈中。R=10R=10R=10 是否有一个好的算法可以用来解决这个问题?这些似乎与聚类技术有关,但不是最小化平均距离,如果该点在个点中的任意一个点的内,则“距离”函数为0 ,否则为1。RRRNNN 我更喜欢在R中找到一种方法来执行此操作,但是任何方法都是可以理解的。
10 r  clustering  distance 



1
条件密度图的解释
我想知道如何正确解释条件密度图。我在下面用R创建的下面插入了两个cdplot。 例如,当变量1为150时大约80%的结果等于1 的概率吗? 暗灰色区域是Result等于1 的条件概率,对吧? 从cdplot文档中: 在给定y的水平(由y的边际分布加权)的情况下,cdplot计算x的条件密度。密度是在y级别上累积得出的。 这种积累如何影响这些图的解释?


2
对数转换线性回归,对数回归与对数混合模型之间有什么区别?
假设我有10个学生,每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确(在longdata中),每个学生的表现都可以通过准确性度量(在subjdata中)进行总结。下面的模型1、2和4看起来会产生不同的结果,但是我知道它们在做相同的事情。他们为什么产生不同的结果?(我提供了模型3作为参考。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

3
为通过网站的旅程构建路径概率树
我目前正在网站上进行分析,这要求我创建一个决策树图,以显示人们到达网站时可能采取的路线。我正在处理一个data.frame从首页开始显示所有客户到站点的路径的。例如,客户可以采用以下路径: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 因此该客户将进行3页的旅程。我想在R中尝试做的是结合所有客户路径,从而按照站点上的某个路径为客户分配概率。例如,如果我检查所有路径,我会发现34%的到达首页的人进入了“厨房用品页面”。R有这个设施吗? 我已经通过rpart和partykit软件包查找了不同的方法,但是它们似乎没有任何帮助。 任何朝着正确方向前进的方向都非常感谢!

2
“ Stata”或“ R”中回归不连续设计中的图形
Lee和Lemieux(p。31,2009)建议研究人员在进行回归不连续性设计分析(RDD)时呈现图表。他们建议执行以下步骤: “ ...对于某个带宽,以及分别对于截止值左侧和右侧的一定数量的仓和 ,想法是构造仓(, ],其中 +,其中 “ķ 0 ķ 1 b ķ b ķ + 1 ķ = 1 ,。。。,ķ = ķ 0 ķ 1 b ķ = Ç - (ķ 0 - ķ + 1 )⋅ ħ 。Hhhķ0K0K_0ķ1个K1K_1bķbkb_kbk + 1bk+1b_{k+1}ķ = 1 ,。。。,K= K0k=1,...,K=K0k = 1, . . . …

3
选择要保留的主要成分数量
向我建议的一种方法是查看碎石图并检查“弯头”以确定要使用的正确PC数。但是,如果情节不清楚,R是否可以通过计算来确定数字? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
R和EViews AR(1)估算值的差异
主要问题是:我无法使用EViews和R获得类似的参数估计。 由于我自己不了解的原因,我需要使用EViews估算某些数据的参数。这是通过选择NLS(非线性最小二乘)选项并使用以下公式来完成的:indep_var c dep_var ar(1) 的EViews 权利要求:它们估计线性AR(1)处理,诸如 其中错误被定义为: 通过使用等效等式(带有一些代数替换): 此外,该线程在EViews论坛上,建议他们的NLS估计值是由Marquardt算法生成的。ÿŤ= α + βXŤ+ 你ŤÿŤ=α+βXŤ+üŤ Y_t = \alpha + \beta X_t + u_t üŤüŤu_tüŤ= ρ ·&ùt − 1+εut=ρ⋅ut−1+ε u_t = \rho \cdot u_{t-1} + \varepsilon Yt= (1 -ρ)α+ρYt−1+βXt−ρβXt−1+εŤYt=(1-ρ)α+ρÿŤ-1个+βXŤ-ρβXŤ-1个+εŤ Y_t = (1 - \rho) \alpha + \rho Y_{t - 1} + \beta …

1
如何在lme4中解释多元混合模型的系数而无需整体拦截?
我正在尝试在中拟合多变量(即多响应)混合模型R。除了ASReml-r和SabreR软件包(需要外部软件)之外,似乎只有在中才有可能MCMCglmm。Jarrod Hadfield 在包装随附的论文MCMCglmm(pp.6)中描述了拟合模型的过程,例如将多个响应变量重塑为一个长格式变量,然后抑制总体截距。我的理解是,抑制截距会使响应变量每个级别的系数解释变为该级别的平均值。鉴于以上所述,因此是否可以使用来拟合多元混合模型lme4?例如: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
randomForest和变量重要性错误?
我不明白的之间的差异rfobject$importance,并importance(rfobject)在MeanDecreaseAccuracy列。 例: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.