Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
在R中查找四分位数
我在学习R的同时正在阅读统计教科书,并且在以下示例中遇到了绊脚石: 看完之后,?quantile我尝试使用以下方法在R中重新创建它: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 鉴于文本和R具有不同的结果,我收集到R在第一和第四四分位数的计算中利用了中位数。 题: 在计算第一和第三四分位数时是否应包括中位数? 更具体地说,教科书或R是否具有此正确性?如果教科书中有此正确说明,是否有办法在R中正确实现? 提前致谢。
33 r  quantiles 

1
如何在R中训练和验证神经网络模型?
我是神经网络建模的新手,但是我设法建立了一个神经网络,其中的所有可用数据点都非常适合观察到的数据。神经网络是在R中使用nnet软件包完成的: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict <- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 我正在分析的数据如下所示,其中DOC是必须建模的变量(大约有17,000个观测值): Q GW_level Temp t_sum DOC 1 0.045 0.070 12.50 0.2 11.17 2 0.046 …

4
R中的标准错误聚类(手动或plm)
我试图理解标准错误“聚类”以及如何在R中执行(在Stata中是微不足道的)。在RI中使用plm或编写我自己的函数均未成功。我将使用包装中的diamonds数据ggplot2。 我可以使用任一虚拟变量进行固定效果 > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …


5
AIC选型指南
我通常使用BIC,因为我的理解是与AIC相比,它更重视简约。但是,我现在决定使用一种更全面的方法,并且也希望使用AIC。我知道Raftery(1995)为BIC差异提出了很好的指导原则:0-2弱,2-4是一个模型更好的积极证据,依此类推。 我在教科书上看过,它们在AIC上似乎很奇怪(看起来差异较大,AIC差异较小意味着一个模型更好)。这违背了我所学的知识。我的理解是您希望降低AIC。 有谁知道Raftery的指南是否也适用于AIC,或者我会在哪里引用某个模型相对于另一个模型的“证据强度”指南? 是的,临界值并不是很好(我觉得它们很恼人),但是在比较不同种类的证据时它们很有用。

1
在R中使用anova()函数比较两个模型
从文档中anova(): 给定一系列对象后,“ anova”将按照指定的顺序对模型进行测试... 相互测试这些模型意味着什么?为什么顺序很重要? 这是GenABEL教程中的示例: > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 2371 2320 1 0.0489 0.82 …
32 r  anova 

1
为什么R返回NA作为lm()系数?
我正在lm()为包含财务季度指标(第一季度,第二季度,第三季度,使第四季度成为默认指标)的数据集拟合模型。使用lm(Y~., data = data),我得到a NA作为Q3的系数,并警告说一个变量由于奇异而被排除。 我是否需要添加Q4列?
32 r  regression 


6
用于估计大致正态分布规模的鲁棒贝叶斯模型将是什么?
存在许多健壮的规模估计器。一个明显的例子是与标准偏差相关的中位数绝对偏差,即。在贝叶斯框架中,存在多种方法来可靠地估计大致正态分布的位置(例如,被异常值污染的正态),例如,可以假设数据的分布与分布或拉普拉斯分布相同。现在我的问题是:σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 以鲁棒方式测量大致正态分布规模的贝叶斯模型在与MAD或类似鲁棒估计量相同的意义上是鲁棒的吗? 与MAD的情况一样,如果数据的分布实际上是正态分布的,那么贝叶斯模型可以逼近正态分布的SD,那将是很巧妙的。 编辑1: 一个模型的一个典型的例子假设数据时即防止污染/离群健壮是大致正常的使用是在状分布:yiyiy_i yi∼t(m,s,ν)yi∼t(m,s,ν)y_i \sim \mathrm{t}(m, s,\nu) 其中是平均值,是小数,是自由度。如果在和上具有适当的先验,则将是均值的估计值,它将对异常值具有鲁棒性。但是,由于s取决于\ nu,因此并不是y_i SD的一致估计。例如,如果\ nu将固定为4.0,并且上面的模型将适合\ mathrm {Norm}(\ mu = 0,\ sigma = 1)分布中的大量样本,则s小号ν 米,小号ν 米ÿ 我小号ÿ 我小号ν ν Ñ ø ř 米(μ = 0 ,σ = 1 )小号mmmsssνν\num,sm,sm, sνν\nummmyiyiy_isssyiyiy_isssνν\nuνν\nuNorm(μ=0,σ=1)Norm(μ=0,σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss大约是0.82 我要寻找的是一个健壮的模型,就像t模型一样,但是要使用SD代替平均值(或除平均值外)。 编辑2: 以下是R和JAGS中的一个编码示例,上面提到的t模型相对于均值如何更健壮。 # generating some contaminated data y <- c( …

3
R如何处理lm中的缺失值?
我想针对矩阵A中的每一列对向量B进行回归。如果没有缺失数据,这是微不足道的,但是如果矩阵A包含缺失值,那么我对A的回归就被约束为仅包含所有存在值(默认的na.omit行为)。对于没有缺失数据的列,这会产生不正确的结果。我可以将列矩阵B相对于矩阵A的各个列进行回归,但是我要完成数千次回归,这是缓慢而乏味的。该na.exclude功能似乎是专为这种情况下,但我不能让它工作。我在这里做错了什么?如果重要,请在OSX上使用R 2.13。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

4
我如何适合用于过度分散泊松结果的多级模型?
我想使用R来拟合具有Poisson分布(过度分散)的多级GLMM。此刻,我正在使用lme4,但是我注意到最近该quasipoisson家族被删除了。 我在其他地方看到过,您可以通过为每个观测值添加一个随机截距来为二项式分布建模加法过度弥散。这也适用于泊松分布吗? 有更好的方法吗?您还有其他推荐的软件包吗?


5
线图的颜色和线宽建议
通常,已经有很多关于地图,多边形和阴影区域的色盲友好颜色选择的文章(例如,参见http://colorbrewer2.org)。我无法找到有关线颜色和线图变化线宽的建议。目标是: 容易区分线,即使它们缠绕在一起 带有色盲最常见形式的个人容易区分线条 (不太重要)行是易于打印的(请参见上面的Color Brewer) 在黑色和灰度线的背景下,我发现具有细的黑色线和较粗的灰度线非常有效。我会特别推荐一些建议,包括各种颜色,灰度等级和线条粗细。我不喜欢各种线型(实线/虚线/虚线),但可以不接受这种观点。 最好在一张图表上建议多达10条曲线。更好的做法是像Color Brewer一样:允许m行的建议不成为n行m的n行建议的子集,并且将m从1更改为10。 请注意:我也希望仅针对问题的线条着色部分的指南。 一些从业者在每几厘米的线上添加符号,以更好地区分不同的类别。我不太赞成需要多个功能(例如,颜色+符号类型)来区分类别,并且有时希望保留符号来表示不同的信息。 在没有其他指导的情况下,我建议对colorbrewer2.org中的线使用推荐用于多边形的相同颜色,对于使用较浅/较暗的颜色绘制的线,将线宽乘以2.5。我正在创建一个R函数来进行设置。除了颜色酿造商的颜色,我认为我将使前两种颜色分别是纯黑色(稀薄)和灰度(浓密),尽管有人可能会争辩说它们应该是稀疏的纯黑色和稀薄的蓝色。 R函数可以在http://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofile中找到。定义功能后,colBrew您可以通过键入以下内容查看设置的工作方式 showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale 函数latticeSet还给出了设置lattice图形参数到新的设置。欢迎对算法进行改进。 探索:R dichromat包:http://cran.r-project.org/web/packages/dichromat/

1
GBM参数有哪些有用的准则?
使用GBM来测试参数(例如,交互深度,最小子集,采样率等)的一些有用准则是什么? 假设我有70-100个要素,一个200,000人口,并且我打算测试3和4的交互深度。显然,我需要进行一些测试,以查看哪些参数组合可以保持最佳的样本外。关于如何进行此测试设计的任何建议?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.