统计和大数据 multivariate-analysis

1

我一直在使用进行模型调整caret，但随后使用该gbm软件包重新运行模型。据我了解，caret程序包使用gbm的输出应相同。然而，data(iris)使用RMSE和R ^ 2作为评估指标，使用进行的快速测试显示模型中的差异约为5％。我想使用来找到最佳模型性能，caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。我的问题是： 1）为什么即使这两个软件包应该相同，我仍会看到这两个软件包之间的差异（我知道它们是随机的，但5％的差异还是很大的，尤其是当我没有使用iris建模时使用的很好的数据集时）。 2）同时使用这两个软件包有什么优点或缺点？ 3）不相关：使用iris数据集时，最佳interaction.depth值为5，但高于我所阅读的最大值，使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活？ library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

如何测试是否从相同的基础人群中采样了两个多元分布？

假设您获得了两个多元数据集，分别是一个旧数据集和一个新数据集，并且它们应该是由同一过程（您没有模型）生成的，但可能是在收集/创建过程中的某个地方数据，出了点问题。您不想将新数据用作旧数据的验证集或将其添加到旧数据中。您可以进行一维一维统计（每个变量），例如Wilcoxon排名总和，然后尝试进行多次测试校正，但是我不确定这是最佳的（要捕获多变量数据的复杂性，更不用说多次测试问题了）。一种方法是使用分类器，看看是否可以区分两个数据集（给定最佳分类器）。这似乎确实有效，但是仍然a）perhpas有更好的方法b）并不是真的要告诉您它为何与众不同（如果没有别的，它将使用最好的预测变量，并且可能会错过由更好的预测变量所包含的其他好的预测变量）

13 multivariate-analysis

3

如何测试协方差矩阵在两个时间点上是否发生了变化？

我的任务是测试6个变量的协方差矩阵是否有变化。从同一受试者两次测量6个变量的值（两次测量之间为3年）。我怎样才能做到这一点？我一直在使用SAS完成大部分工作。

13 hypothesis-testing repeated-measures multivariate-analysis covariance-matrix

2

当数据具有高斯分布时，将表征多少个样本？

在一维中分布的高斯数据需要两个参数来表征（均值，方差），并且有传言说，大约30个随机选择的样本通常足以以合理的高置信度估计这些参数。但是随着尺寸数量的增加会发生什么？在二维（例如身高，体重）中，需要5个参数来指定“最佳拟合”椭圆。在三个维度上，这增加了9个参数来描述一个椭球，而在4-D中则增加了14个参数。我想知道估计这些参数所需的样本数量是否也以可比的速度，以较慢的速度或（请！）以较高的速度增加。更好的是，如果有一条被广泛接受的经验法则，建议在给定数量的维度上需要多少个样本来表征高斯分布，那将是一个很好的认识。更精确地说，假设我们要定义一个以“平均点”为中心的对称“最佳拟合”边界，我们可以确信其中有95％的样本将掉落。我想知道以适当的高置信度（> 95％）查找参数以近似此边界（一维的间隔，二维的椭圆等）可能需要多少个样本，以及该数量如何随置信度的变化而变化。尺寸数量增加。

12 normal-distribution multivariate-analysis

3

具有可参数化协方差矩阵的正k维象限的分布是什么？

继zzk关于其负模拟问题的问题之后，我想知道正k维象限上的参数化分布族是什么，可以为其设置协方差矩阵。 ΣRk+R+k\mathbb{R}_+^kΣΣ\Sigma 如zzk所讨论的那样，从的分布开始并应用线性变换不起作用。 X⟶＆Sigma; 1 / 2（X-μ）+μRk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

12 distributions multivariate-analysis covariance

2

剖分方差分析：R中的模型比较测试

如何使用R中的X和M参数使用合适的模型比较来测试分割图方差分析中的效果anova.mlm()？我熟悉?anova.mlmDalgaard（2007）[1]。不幸的是，它只能刷分割图设计。在具有两个受试者内部因素的完全随机设计中进行此操作： N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout of data matrix library(car) # for Anova() fitA …

12 r anova multivariate-analysis repeated-measures split-plot

1

样本协方差矩阵不可逆时该怎么办？

我正在研究一些聚类技术，其中对于给定的d维向量簇，我假设一个多元正态分布并计算样本d维平均向量和样本协方差矩阵。然后，当尝试确定一个新的，看不见的d维向量是否属于该簇时，我正在通过以下度量来检查其距离： (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) 这需要我计算协方差矩阵的逆。但是给定一些样本，我不能保证协方差矩阵是可逆的，如果不是，我该怎么办？σ^Xσ^X\hat{\sigma}_X 谢谢

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

1

多元时间序列的块引导程序的替代方法

我目前使用以下过程来引导R中的多元时间序列：确定块大小-运行包中的函数b.star，该函数np将为每个系列生成块大小选择最大块大小 tsboot使用选定的块大小在任何系列上运行使用引导输出中的索引来重构多元时间序列有人建议使用meboot软件包作为块引导程序的替代方法，但是由于我没有使用整个数据集来选择块大小，因此，我不确定如果要使用通过在运行meboot时创建的索引来保持序列之间的相关性。一个系列。如果有人在多变量环境下使用过meboot，我将不胜感激有关此过程的建议。

12 r time-series multivariate-analysis bootstrap

1

多元线性回归与几个单变量回归模型

在单变量回归设置中，我们尝试建模 y=Xβ+noisey=Xβ+noisey = X\beta +noise 其中的向量Ñ观察和X ∈ [R Ñ × 中号与设计矩阵米预测因子。该解决方案是β 0 = （X Ť X ）- 1 X ý。y∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy 在多元回归设置中，我们尝试建模 Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise 其中是矩阵Ñ观察和p不同潜在变量。该解决方案是β 0 = （X Ť X ）- 1 X ý。y∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY 我的问题是，与执行不同的单变量线性回归有何不同？我在这里读到，在后一种情况下，我们考虑了因变量之间的相关性，但我从数学上看不到它。ppp

11 regression multivariate-analysis multivariate-regression

1

采样分布的半径为2D正态分布

均值和协方差矩阵的二元正态分布可以用半径和角度极坐标重写。我的问题是：给定样本协方差矩阵，的采样分布是什么，即从点到估计中心的距离是多少？＆Sigma; [R θ - [R X ˉ X小号μμ\muΣΣ\Sigmarrrθθ\thetar^r^\hat{r}xxxx¯x¯\bar{x}SSS 背景：从点到均值的真实距离遵循Hoyt分布。与特征值的，和，它的形状参数是，其缩放参数为。已知累积分布函数是两个Marcum Q函数之间的对称差。rrrμ λ 1，λ 2＆Sigma; λ 1 > λ 2 q = 1xxxμμ\muλ1,λ2λ1,λ2\lambda_{1}, \lambda_{2}ΣΣ\Sigmaλ1>λ2λ1>λ2\lambda_{1} > \lambda_{2} ω=λ1+λ2q=1(λ1+λ2)/λ2)−1√q=1(λ1+λ2)/λ2)−1q=\frac{1}{\sqrt{(\lambda_{1}+\lambda_{2})/\lambda_{2})-1}}ω=λ1+λ2ω=λ1+λ2\omega = \lambda_{1} + \lambda_{2} 仿真表明，估计堵和的和到真正的CDF适用于大样本，但不适用于小样本。下图显示了200次的结果小号μ＆Sigma;x¯x¯\bar{x}SSSμμ\muΣΣ\Sigma 为给定（轴），（行）和分位数（列）的每种组合模拟20个2D法线向量X ωqqqxxxωω\omega 对于每个样本，计算观察到的半径至的给定分位数 ˉ Xr^r^\hat{r}x¯x¯\bar{x} 对于每个样本，在插入样本估计和之后，根据理论Hoyt（二维法线）cdf和理论Rayleigh cdf计算分位数。小号x¯x¯\bar{x}SSS 当接近1（分布变为圆形）时，估计的Hoyt分位数接近不受影响的估计的Rayleigh分位数。随着增长，经验分位数与估计分位数之间的差异会增加，特别是在分布的尾部。q ωqqqqqqωω\omega

11 probability normal-distribution multivariate-analysis rayleigh

4

MANOVA与因变量之间的相关性：太强有多强？

MANOVA中的因变量不应“过强地相关”。但是相关性有多强呢？得到人们对此问题的看法将是很有趣的。例如，在以下情况下，您会继续使用MANOVA吗？ Y1和Y2与和p < 0.005r = 0.3r=0.3r=0.3p < 0.005p<0.005p<0.005 Y1和Y2与和p = 0.049r = 0.7r=0.7r=0.7p = 0.049p=0.049p=0.049 更新资料回应@onestop的一些代表性报价： “ MANOVA在DV之间存在适度相关性的情况下效果很好”（来自旧金山州立大学的课程注释） “相关变量适用于Manova”（美国EPA Stats Primer） “因变量应该在概念上相关，并且应该在低到中等水平上相互关联。” （北亚利桑那大学的课程笔记） “相关的DV从大约0.3到大约0.7是合格的”（Maxwell，2001年，消费者心理学杂志） nb我不是指这样的假设，即Y1和Y2之间的互相关在所有自变量级别上都应该相同，只是关于互相关的实际大小的这个明显的灰色区域。

11 correlation anova multivariate-analysis rule-of-thumb manova

3

多维时间序列的干预分析

我想进行一次干预分析，以量化关于一段时间内酒精销售的政策决定的结果。但是，我对时间序列分析还很陌生，所以我有一些初学者的问题。对文献的检查表明，其他研究人员已使用ARIMA来模拟酒精的时间序列销售，并使用虚拟变量作为回归因子来模拟干预效果。尽管这似乎是一种合理的方法，但是我的数据集比文献中介绍的数据集要稍微丰富一些。首先，我的数据集按饮料类型（即啤酒，葡萄酒，烈酒）分类，然后再按地理区域分类。虽然我可以为每个分类的组分别创建ARIMA分析，然后比较结果，但我怀疑这里有更好的方法。谁能更熟悉多维时间序列数据，有人可以提出建议或建议吗？

11 time-series multivariate-analysis arima intervention-analysis

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

软阈值与套索惩罚

我正在尝试总结到目前为止在使用高维数据集进行的惩罚性多元分析中所了解的内容，但我仍然在努力获得正确的软阈值与Lasso（或）惩罚的定义方面遇到困难。L1L1L_1 更准确地说，我使用稀疏PLS回归分析包括基因组数据的2块数据结构（单核苷酸多态性，其中我们将次等位基因的频率在{0,1,2}范围内，视为数值变量）和连续表型（量化人格特征或脑不对称性的得分，也视为连续变量）。这个想法是要找出最有影响力的预测因子（这里是DNA序列的遗传变异）来解释个体之间的表型变异。我最初使用mixOmics R包（以前integrOmics），该包具有受罚的PLS回归和正则化的CCA。查看R代码，我们发现预测变量中的“稀疏性”只是通过选择第个分量（算法为）上具有最高负载（绝对值）的前变量来诱发的是迭代的并且计算组件上的变量负载，在每次迭代时缩小预测变量块，有关概述，请参见稀疏PLS：集成Omics数据时的变量选择）。相反，S。Keleş与他人合着了spls软件包（请参见i i = 1 ，... ，k k L 1kkkiiii=1,…,ki=1,…,ki=1,\dots, kkkk稀疏偏最小二乘回归的同时降维和变量选择，对于这些作者所采取的方式）实现一个更加正式的描述 -penalization变量处罚。L1L1L_1 在我看来，在基于软阈值的迭代特征选择和正则化之间是否存在严格的“双射”并不明显。所以我的问题是：两者之间是否存在数学联系？L1L1L_1 参考文献 Chun，H.和Kelȩs，S.（2010），稀疏偏最小二乘用于同时减少维数和变量选择。皇家统计学会：B系列，72，3-25。 Le Cao，K.-A.，Rossoou，D.，Robert-Granie，C.和Besse，P.（2008年），《整合Omics数据时用于变量选择的稀疏PLS》。在遗传学和分子生物学统计应用程序，7，第35条。

11 multivariate-analysis lasso feature-selection genetics

3

可以使用线性判别分析（LDA）中的标定值在线性判别式上绘制解释变量吗？

使用通过主成分分析获得的值的双图，可以探索构成每个主成分的解释变量。使用线性判别分析是否也有可能？提供的示例使用。数据为“埃德加·安德森的虹膜数据”（http://en.wikipedia.org/wiki/Iris_flower_data_set）。这是虹膜数据： id SLength SWidth PLength PWidth species 1 5.1 3.5 1.4 .2 setosa 2 4.9 3.0 1.4 .2 setosa 3 4.7 3.2 1.3 .2 setosa 4 4.6 3.1 1.5 .2 setosa 5 5.0 3.6 1.4 .2 setosa 6 5.4 3.9 1.7 .4 setosa 7 4.6 3.4 1.4 .3 …

11 r pca multivariate-analysis discriminant-analysis biplot

Questions tagged «multivariate-analysis»