统计和大数据 r

2

我想使用选择模型regsubsets()。我有一个名为olympiadaten的数据框（上传的数据：http : //www.sendspace.com/file/8e27d0）。我首先附加此数据框，然后开始分析，我的代码是： attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) 情节的屏幕截图：现在的问题是，我想再次“手动”拟合最佳模型并进行查看，但是调整后的R平方的值与regsubsets输出中的值不同吗？其他模型也是如此，例如，当我在图形中执行最简单的模型时： summary(lm(Gesamt~ExpHealth)) 该图表示，它的调整后R平方应约为0.14，但是当我查看输出时，得到的值为0.06435。这是输出summary(lm(Gesamt~ExpHealth))： Call: lm(formula = Gesamt ~ ExpHealth) Residuals: Min 1Q Median 3Q Max …

9 r multiple-regression model-selection

3

如何使用R gbm和distribution =“ adaboost”？

文档指出具有分布=“ adaboost”的R gbm可以用于0-1分类问题。考虑以下代码片段： gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000) 可以在predict.gbm文档中找到返回预测向量。默认情况下，预测的尺度为f（x）。但是，对于分配=“ adaboost”的情况，具体比例尚不清楚。任何人都可以帮助解释predict.gbm返回值并提供转换为0-1输出的想法吗？

9 r gbm

1

如何比较观察到的事件与预期的事件？

假设我有一个频率为4个可能的事件的样本： Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和（18），我可以计算事件的预期频率，对吗？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

如何从mcmc.list生成类似于plot.bugs和plot.jags生成的图？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。 R似乎能够从R2WinBUGS :: bugs和R2jags：jags函数生成的bugs和jags对象中输出漂亮的摘要图。但是，我正在使用该rjags软件包。当我尝试rjags::coda.samples使用R2WinBUGS::plot.mcmc.list结果绘制函数结果时，是每个参数的诊断图（参数密度，链时间序列，自相关）。下面是我想制作的绘图类型，来自安德鲁· 盖尔曼（ Andrew Gelman）的教程“ R中运行WinBuugs和OpenBugs”。这些是使用制作的plot.pugs。问题是plot.bugs将一个bugs对象作为参数，而plot.mcmc.list将的输出作为参数coda.samples。这是一个示例（来自coda.samples）： library(rjags) data(LINE) LINE$recompile() LINE.out <- coda.samples(LINE, c("alpha","beta","sigma"), n.iter=1000) plot(LINE.out) 我需要的是一种生成相似的，信息丰富的一页摘要图的方法，类似于 plot.bugs 将转换LINE.out为bug对象的函数，或者

9 r data-visualization jags bugs

1

涉及高级案例交互时的Cox比例风险模型和系数解释

这是我使用的Coxph模型的摘要输出（我使用R，输出基于最佳最终模型，即包括所有重要的解释变量及其相互作用）： coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 Inf 1.522e+03 3.296 0.000979 *** LT:Food …

9 r interaction regression-coefficients cox-model

4

如何为包含离群值的时间序列拟合模型

我已经使用auto.arima()R中的函数拟合了ARIMA（5,1,2）模型，通过查找顺序可以说这不是预测的最佳模型。如果数据序列中存在异常值，那么将模型拟合到此类数据的方法是什么？

9 r time-series forecasting outliers arima

1

对重复实验进行仿真研究的问题解释了95％的置信区间-我在哪里做错了？

我正在尝试编写R脚本来模拟95％置信区间的重复实验解释。我发现它高估了样本的95％CI中包含某个比例的真实总体值的时间比例。差异不大-大约是96％和95％，但这仍然令我感兴趣。我的函数samp_n从伯努利分布中随机抽取了一个样本pop_p，然后prop.test()使用连续性校正或更精确地使用来计算95％的置信区间binom.test()。如果真实人口比例pop_p包含在95％CI中，则返回1 。我编写了两个函数，一个使用prop.test()，一个使用binom.test()并具有相似的结果： in_conf_int_normal <- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp <- rbinom(samp_n, 1, pop_p) pt_result <- prop.test(length(which(samp == 1)), samp_n) lb <- pt_result$conf.int[1] …

9 r confidence-interval binomial theory

1

为什么引入随机斜率效应会增大斜率的SE？

我正在尝试分析Year对特定个体组（我有3个组）的变量logInd的影响。最简单的模型： > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

9 r mixed-model lme4-nlme random-effects-model

3

如何测试/证明数据为零膨胀？

我有一个问题，我认为应该很简单，但无法完全解决。我正在查看种子授粉，我有成簇开花的植物（n = 36），我从每棵植物中采样了3个花簇，并从每个簇中采样了6个种子荚（每个植物总计18个种子荚）。一个豆荚可以授粉0到4个种子。因此，数据是有上限的计数。我发现平均约有10％的种子被授粉，但在给定植物上的授粉量介于1％至30％之间，因此在分散的数据上，当然，在3棵植物上有4个缺失的簇重复，因此不完全对称。我要问的问题是，这些数据是否支持这种植物需要传粉媒介进行结实的想法。我发现一个豆荚中种子数量的分布看起来比有更多的0个授粉种子豆荚（16个中有6-9个豆荚）以及更多的3个和4个授粉种子豆荚（每个有2-4个）如果种群中的种子只是随机授粉，这是可以预期的。基本上，我认为这是零膨胀数据的经典示例，首先，昆虫完全不访问花朵（一个零生成器），如果这样做，则在另一个分布中对0-4的种子进行授粉。另一个假设是植物是部分自交的，然后可以预期每个种子都具有相同的授粉概率（此数据表明大约有0.1的机会，这意味着同一荚中的两粒种子有0.01的机会，依此类推）。但是我只是想证明数据最适合一种或另一种分布，而不是实际上对数据进行ZIP或ZINB处理。我认为我使用的任何方法都应考虑到授粉种子的实际数量和每棵植物上采样的豆荚的数量。我想到的最好的事情是做某种引导带事情，我只是将给定植物的授粉种子数量随机分配到我采样的种子荚数量中，进行10,000次，看看有多大可能性给定植物的实验数据来自该随机分布。我只是觉得有些事情比蛮力自举要容易得多，但是经过几天的思考和搜索，我放弃了。我不能仅将其与Poisson分布进行比较，因为它是上限，它不是二项式的，因为我需要以某种方式生成期望的分布。有什么想法吗？而且我正在使用R，所以这里的建议（尤其是如何最优雅地将10,000个n球的随机分布生成到16个可以最多包含4个球的盒子中）。 ADDED 9/07/2012首先，感谢大家的关注和帮助。阅读答案，使我想重新表达我的问题。我要说的是，我有一个假设（种子现在我认为是无效的），即种子在豆荚之间随机授粉，而我的另一种假设是，至少有1个授粉种子的种子荚更可能种子的授粉种子数量多于随机过程所预期的数量。我提供了来自三个工厂的真实数据作为示例，以说明我在说什么。第一列是豆荚中已授粉种子的数量，第二列是具有该种子数的豆荚的频率。植物1（总共3粒种子：4％授粉）种子数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2（总共19粒种子：26％授粉） num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3（总共16粒种子：22％授粉） num.seeds :: …

9 r distributions bootstrap zero-inflation

2

如何通过对R中使用optim最大化对数似然函数所估计的参数进行分析，从而估计出95％的置信区间？

如何通过对R中使用optim最大化对数似然函数所估计的参数进行分析，从而估计出95％的置信区间？我知道我可以通过反转hessian渐近估计协方差矩阵，但我担心我的数据不符合该方法有效所需的假设。我希望使用其他方法来估计置信区间。如Stryhn和Christensen以及Venables和Ripley的MASS书第8.4节，第220-221页中所述，轮廓似然方法是否合适？如果是这样，是否有任何软件包可以帮助我在R中做到这一点？如果没有，这种方法的伪代码将是什么样？

9 r confidence-interval maximum-likelihood optimization profile-likelihood

1

如何从R零膨胀计数数据回归中获得标准误差？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。以下代码 PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 产生3列data.frame--PredictNew，拟合值，标准误差和残差标度项。完美...但是使用的模型配备zeroinfl {pscl}： PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 要么 PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

9 r generalized-linear-model count-data zero-inflation

3

随机森林回归中依赖于响应分布的偏差

我正在使用R（2.1.3版，4.6-2版的ForestForest）中的randomForest软件包进行回归，并注意到我的结果存在明显偏差：预测误差取决于响应变量的值。高值被低估，而低值被高估。起初，我怀疑这是我的数据的结果，但是以下简单示例表明这是随机森林算法所固有的： n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) 我怀疑偏差取决于响应的分布，例如，如果x1是均匀分布的，则没有偏差；如果x1是指数分布，则偏差是单边的。本质上，正态分布尾部的响应值是异常值。模型很难预测离群值也就不足为奇了。在randomForest的情况下，来自分布尾部的极高幅度的响应值不太可能最终出现在末端叶片中，并且其效果将在集合平均中被淘汰。请注意，我尝试在前面的示例“ R线性回归尾部mtry中的RandomForest”中捕获此效果。这是一个不好的例子。如果以上示例中的偏差确实是该算法固有的，则可以得出这样的偏差校正值：给定一个正试图预测的响应分布，从而可以进行更准确的预测。基于树的方法（例如随机森林）是否受到响应分布偏差的影响？如果是这样，这是统计界先前所知的，通常如何进行校正（例如，使用偏倚模型的残差作为输入的第二个模型）？校正依赖于响应的偏差很困难，因为从本质上来说，响应是未知的。不幸的是，估计/预测响应通常与偏见没有相同的关系。

9 r regression random-forest

2

混合模型的参数，半参数和非参数引导

接下来的嫁接摘自本文。我是新手，要引导并尝试为带有R boot包的线性混合模型实现参数，半参数和非参数自举。 R代码这是我的R代码： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

1

逻辑回归：分组变量和非分组变量（使用R）

我正在阅读A. Agresti（2007），《分类数据分析简介》，第二版。版本，并且不确定我是否正确理解本段（第106页，4.2.1）（尽管应该很容易）：在上一章有关打ing和心脏病的表3.1中，每天有254名受试者报告打呼night，其中30名患有心脏病。如果数据文件具有分组的二进制数据，则数据文件中的一行报告的样本量为254，其中30种是心脏病病例。如果数据文件具有未分组的二进制数据，则数据文件中的每一行都引用一个单独的主题，因此30行包含1的心脏病，而224行包含0的心脏病。这两种数据文件的ML估计值和SE值都相同。转换一组未分组的数据（1个相关数据，1个独立数据）将花费更多的时间来包含所有信息！在以下示例中，创建了一个（不切实际的！）简单数据集，并构建了逻辑回归模型。分组数据的实际外观如何（变量标签？）？如何使用分组数据构建相同的模型？ > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > mod1=glm(y~x, data=dat, family=binomial())

9 r generalized-linear-model logistic

3

auto.arima警告在标准错误下产生的NaN

我的数据是从业人口L的时间序列，以及时间跨度的年份。 n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 1.225907e-03 9.234378e-04 -6.836173e-05 …

9 r regression arima

Questions tagged «r»