统计和大数据 ranks

4

我不在统计领域。在阅读有关秩相关系数时，我已经看到“绑定数据”一词。什么是捆绑数据？绑定数据的示例是什么？

16 correlation nonparametric ranks

4

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

当中位数相等时，为什么Mann–Whitney U检验显着？

我收到了我不理解的曼惠特尼等级测试结果。这两个总体的中位数相同（6.9）。每个群体的较高和较低分位数为： 6.64和7.2 6.60和7.1 比较这些总体的测试得出的p值为0.007。这些人群有何显着不同？是由于中位数的价差引起的吗？比较2的箱线图显示，第二个异常值远大于第一个异常值。感谢您的任何建议。

15 nonparametric median ranks wilcoxon-mann-whitney

1

插入符glmnet与cv.glmnet

在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。提出了许多问题，例如：分类模型train.glmnet与cv.glmnet？在插入符号中使用glmnet的正确方法是什么？使用`caret`交叉验证`glmnet` 但是没有给出答案，这可能是由于问题的可重复性。在第一个问题之后，我给出了一个非常相似的示例，但确实存在相同的问题：为什么估计的lambda如此不同？ library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

显示有序数据-均值，中位数和均值等级

我有一些顺序数据不是正态分布的，所以我决定使用Mann-Whitney U检验进行非参数检验。我正在寻找七个分数的组间差异-每个主题的分数分别为0、1、2或3。我很难弄清楚如何显示我的数据！如果我使用中位数（和中位数的IQR）显示数据，那么根本就不清楚差异在哪里，因为在大多数情况下，中位数落在0或1上。因此，尽管Mann-Whitney U检验显示出显着差异，桌子看起来没意思。我也可以使用手段呈现数据。那里有一些科学论文说，您可以使用具有序数数据的均值，但是不能对分数之间的差异做出相同类型的假设（例如0和1之间的差异与1和1之间的差异不相同） 2）。尽管表中的数字很好地说明了我使用它们时的故事，但使用方法会引起一些争议。第三种选择是使用SPSS在曼恩·惠特尼（Mann-Whitney）输出中给我的平均排名。平均等级是各组之间正在比较的，所以也许我应该使用那些？我唯一遇到的问题是，平均排名对实际数据没有任何意义（例如，使用平均等级，我看不到对象更接近3，而控件更接近1。）最后的选择是在将得分分为两组（低分为0和1，高分为2和3）后，比较受试者和对照者进行卡方分析。但是，当我这样做时，差异并不明显（可能是由于多种原因）。

11 spss mean wilcoxon-mann-whitney ranks presentation

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

尽管具有正态性假设，为什么等级的皮尔逊相关性仍然有效？

我目前正在阅读有关Pearson相关性的假设。随后的t检验的一个重要假设似乎是两个变量都来自正态分布。如果他们不这样做，则提倡使用替代措施，例如Spearman rho。Spearman相关性的计算就像Pearson相关性一样，仅使用X和Y的等级而不是X和Y本身，对吗？我的问题是：如果需要将输入到Pearson相关中的变量进行正态分布，那么即使输入变量是等级，为什么Spearman相关性的计算仍然有效？我的排名肯定不是来自正态分布... 到目前为止，我唯一得出的解释是，对rho的重要性的检验可能与Pearson相关t检验的检验有所不同（以不需要正态性的方式），但是到目前为止，我还没有找到公式。但是，当我运行一些示例时，除最后几位数字外，等级的Phoson相关性的rho和t检验的p值始终匹配。对我来说，这看起来不像是一个突破性的过程。您可能会有任何解释和想法！

9 correlation normality-assumption spearman-rho ranks

Questions tagged «ranks»