统计和大数据 r

1

该survival软件包R似乎专注于连续时间生存模型。我对估计比例风险模型（互补对数-对数模型）的离散时间版本感兴趣。我有一个非常简单的生存模型，并带有简单的权限检查。我知道，估算此模型的一种方法是创建一个数据集，该数据集在不是“死角”的每个时期的每个观察值中都有单独的一行。然后，可以使用glm带有cloglog链接的模型。这种方法似乎对内存效率很低。实际上，它可能会产生一个数据集，该数据集对于我的计算机上的内存而言太大。第二种方法是自己编写MLE。那将足够简单，但是我希望有一个可以固定这种生存模型的软件包。协作更容易，并且避免使用程序包时出现编码错误。有人知道这样的包裹吗？

10 r survival

2

寻找已知数量的圆心，以最大化固定距离内的点数

我有一组二维数据，我想在其中找到指定数量的圆心（）的中心，这些圆使指定距离（）内的点总数达到最大。NNNRRR 例如，我有10,000个数据点，我想找到圆的中心，它们在的半径内捕获了尽可能多的点。预先给出了5个中心和10个半径，而不是从数据中得出的。(Xi,Yi)(Xi,Yi)(X_i, Y_i)N=5N=5N=5R=10R=10R=10 圆内数据点的存在是二进制“或”或“命题”。如果，则相距11个单位与100个单位之外的点的值没有差异，因为它们都>10。类似地，在圆内，靠近中心与靠近边缘也没有任何附加值。。数据点在圆圈之一中或不在圆圈中。R=10R=10R=10 是否有一个好的算法可以用来解决这个问题？这些似乎与聚类技术有关，但不是最小化平均距离，如果该点在个点中的任意一个点的内，则“距离”函数为0 ，否则为1。RRRNNN 我更喜欢在R中找到一种方法来执行此操作，但是任何方法都是可以理解的。

10 r clustering distance

1

如何提取/计算线性混合效应模型的杠杆和库克距离

有谁知道如何计算（或提取）mer类对象（通过lme4包获得）的杠杆作用和库克距离？我想将它们绘制出来以进行残差分析。

10 r mixed-model linear-model residuals leverage

4

如何检查我的回归模型是否良好

使用“ glm”查找逻辑回归模型的准确性的一种方法是查找AUC图。如何为连续响应变量（family ='gaussian'）找到的回归模型进行相同的检查？哪些方法用于检查回归模型对数据的拟合程度？

10 r regression generalized-linear-model

1

条件密度图的解释

我想知道如何正确解释条件密度图。我在下面用R创建的下面插入了两个cdplot。例如，当变量1为150时大约80％的结果等于1 的概率吗？暗灰色区域是Result等于1 的条件概率，对吧？从cdplot文档中：在给定y的水平（由y的边际分布加权）的情况下，cdplot计算x的条件密度。密度是在y级别上累积得出的。这种积累如何影响这些图的解释？

10 r data-visualization interpretation conditional-probability pdf

3

从R了解ACF中的蓝色虚线

在理解以下自相关函数图片中的蓝色虚线时，我有些麻烦：有人可以给我一个简单的解释，他们在告诉我什么？

10 r time-series autocorrelation

2

对数转换线性回归，对数回归与对数混合模型之间有什么区别？

假设我有10个学生，每个学生都尝试解决20个数学问题。对问题的评分为正确或不正确（在longdata中），每个学生的表现都可以通过准确性度量（在subjdata中）进行总结。下面的模型1、2和4看起来会产生不同的结果，但是我知道它们在做相同的事情。他们为什么产生不同的结果？（我提供了模型3作为参考。） library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

10 r regression logistic generalized-linear-model binomial

3

为通过网站的旅程构建路径概率树

我目前正在网站上进行分析，这要求我创建一个决策树图，以显示人们到达网站时可能采取的路线。我正在处理一个data.frame从首页开始显示所有客户到站点的路径的。例如，客户可以采用以下路径： Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 因此该客户将进行3页的旅程。我想在R中尝试做的是结合所有客户路径，从而按照站点上的某个路径为客户分配概率。例如，如果我检查所有路径，我会发现34％的到达首页的人进入了“厨房用品页面”。R有这个设施吗？我已经通过rpart和partykit软件包查找了不同的方法，但是它们似乎没有任何帮助。任何朝着正确方向前进的方向都非常感谢！

10 r probability data-visualization markov-process

2

“ Stata”或“ R”中回归不连续设计中的图形

Lee和Lemieux（p。31，2009）建议研究人员在进行回归不连续性设计分析（RDD）时呈现图表。他们建议执行以下步骤： “ ...对于某个带宽，以及分别对于截止值左侧和右侧的一定数量的仓和，想法是构造仓（， ]，其中 +，其中 “ķ 0 ķ 1 b ķ b ķ + 1 ķ = 1 ，。。。，ķ = ķ 0 ķ 1 b ķ = Ç - （ķ 0 - ķ + 1 ）⋅ ħ 。Hhhķ0K0K_0ķ1个K1K_1bķbkb_kbk + 1bk+1b_{k+1}ķ = 1 ，。。。，K= K0k=1,...,K=K0k = 1, . . . …

10 r regression data-visualization stata regression-discontinuity

3

选择要保留的主要成分数量

向我建议的一种方法是查看碎石图并检查“弯头”以确定要使用的正确PC数。但是，如果情节不清楚，R是否可以通过计算来确定数字？ fit <- princomp(mydata, cor=TRUE)

10 r pca

1

R和EViews AR（1）估算值的差异

主要问题是：我无法使用EViews和R获得类似的参数估计。由于我自己不了解的原因，我需要使用EViews估算某些数据的参数。这是通过选择NLS（非线性最小二乘）选项并使用以下公式来完成的：indep_var c dep_var ar(1) 的EViews 权利要求：它们估计线性AR（1）处理，诸如其中错误被定义为：通过使用等效等式（带有一些代数替换）：此外，该线程在EViews论坛上，建议他们的NLS估计值是由Marquardt算法生成的。ÿŤ= α + βXŤ+ 你ŤÿŤ=α+βXŤ+üŤ Y_t = \alpha + \beta X_t + u_t üŤüŤu_tüŤ= ρ ＆CenterDot;＆ùt − 1+εut=ρ⋅ut−1+ε u_t = \rho \cdot u_{t-1} + \varepsilon Yt= （1 -ρ)α+ρYt−1+βXt−ρβXt−1+εŤYt=(1-ρ）α+ρÿŤ-1个+βXŤ-ρβXŤ-1个+εŤ Y_t = (1 - \rho) \alpha + \rho Y_{t - 1} + \beta …

10 r autoregressive software

1

如何在lme4中解释多元混合模型的系数而无需整体拦截？

我正在尝试在中拟合多变量（即多响应）混合模型R。除了ASReml-r和SabreR软件包（需要外部软件）之外，似乎只有在中才有可能MCMCglmm。Jarrod Hadfield 在包装随附的论文MCMCglmm（pp.6）中描述了拟合模型的过程，例如将多个响应变量重塑为一个长格式变量，然后抑制总体截距。我的理解是，抑制截距会使响应变量每个级别的系数解释变为该级别的平均值。鉴于以上所述，因此是否可以使用来拟合多元混合模型lme4？例如： data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | …

10 r mixed-model multivariate-analysis lme4-nlme multivariate-regression

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

randomForest和变量重要性错误？

我不明白的之间的差异rfobject$importance，并importance(rfobject)在MeanDecreaseAccuracy列。例： > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …

10 r random-forest importance

1

关于在R中指定线性混合模型以使用附加嵌套结构重复测量数据的问题

数据结构 > str(data) 'data.frame': 6138 obs. of 10 variables: $ RT : int 484 391 422 516 563 531 406 500 516 578 ... $ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ... $ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 …

10 r mixed-model repeated-measures model-selection lme4-nlme

Questions tagged «r»