Questions tagged «multivariate-analysis»

分析一次同时分析多个变量的地方,这些变量要么是因变量(响应),要么是分析中唯一的变量。这可以与“多个”或“多变量”分析形成对比,后者暗示了多个预测变量(独立变量)。

3
我可以使用什么测试来比较两个或多个回归模型的斜率?
我想测试两个变量对一个预测变量的响应差异。这是一个最小的可复制示例。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

6
二进制分类的变量选择过程
当变量/特征比学习集中的观察数多时,您更喜欢二进制分类的变量/特征选择是什么?这里的目的是讨论什么是可以最大程度减少分类错误的特征选择过程。 我们可以修复符号为:一致性,让从组是学习组观察的。因此是学习集的大小。我们将设置为要素数量(即要素空间的维)。令表示个坐标。{ X 我1,... ,X 我Ñ 我 } 我Ñ 0 + ñ 1 = Ñ p X [ 我] 我X ∈ [R pi∈{0,1}i∈{0,1}i \in \{0, 1\}{ x一世1个,… ,x一世ñ一世}{x1i,…,xnii}\{x_1^i,\dots, x_{n_i}^i\}一世iiñ0+ n1个= nn0+n1=nn_0 + n_1 = npppx [ i ]x[i]x[i]一世iiX ∈ řpx∈Rpx \in \mathbb{R}^p 如果您无法提供详细信息,请提供完整的参考。 编辑(不断更新):以下答案中提出的程序 贪婪的前向选择 二元分类的变量选择过程 向后消除 二进制分类的变量选择过程 Metropolis扫描/ MCMC …

5
测量两个多元分布之间的“距离”
我正在寻找一些好的术语来描述我正在尝试做的事情,以使查找资源变得更加容易。 因此,假设我有两个点A和B的群集,每个群集与两个值X和Y相关联,并且我想测量A和B之间的“距离”,即从同一分布中对它们进行采样的可能性有多大(我可以假设分布是正态的)。例如,如果X和Y在A中相关,而在B中不相关,则分布是不同的。 凭直觉,我将得到A的协方差矩阵,然后看一下B中每个点适合在那里的可能性,反之亦然(可能使用马氏距离之类的方法)。 但这有点“临时”,可能有一种更为严格的描述方式(当然,在实践中,我有两个以上的数据集和两个以上的变量-我正在尝试确定我的哪个数据集是离群值)。 谢谢!

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


4
可变重要性排名有哪些用处?
在变量重要性排名方面(在各种多元模型的背景下),我在某种程度上变得虚妄。 通常在我的工作过程中,我被要求要么协助另一个团队产生可变的重要性等级,要么从我自己的工作产生可变的重要性等级。针对这些要求,我提出以下问题 您想要这个可变重要性排名的原因是什么?您希望从中学到什么?您想使用哪种决策? 我收到的答案几乎总是属于两类之一 我想知道模型中不同变量对预测响应的重要性。 我想通过删除低重要性变量将其用于特征选择。 第一个响应是重言式的(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为分别对变量“重要性”进行排名似乎隐式地拒绝了所讨论模型的多维性质。 第二种反应本质上简化为非正式版本的向后选择,CrossValidated的其他部分充分记录了其统计上的错误。 我也为重要性排名的定义性质感到困惑。对于排名应该衡量的基本概念似乎并没有达成共识,这给了他们非常特别的味道。分配重要性分数或等级的方法有很多,它们通常都有缺点和警告: 它们可能高度依赖算法,例如在随机森林和gbms中的重要性排名中。 它们可能具有极高的方差,会随着对基础数据的扰动而急剧变化。 他们可能会遭受输入预测变量中相关性的严重困扰。 因此,综上所述,我的问题是,变量重要性排名在统计学上有哪些有效用途,或者,对于这种愿望的徒劳性,什么是令人信服的论点(对统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,无论哪种方法更有效。

2
观测级马氏距离的分布
如果我有多元正态iid样本并定义(这是使用矩阵进行加权的从采样点到矢量的马氏距离[平方] ),的分布是什么(样本均值使用样本协方差矩阵)?d 2 我(b ,甲)= (X 我 - b )' 甲- 1(X 我 - b )一甲X1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)d2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA ˉ X小号d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 我正在看一篇声称它是,但这显然是错误的:使用(未知)总体均值向量可以得到的分布和协方差矩阵。当插入示例类似物时,应该获得Hotelling分布或缩放的分布,或类似的东西,而不是。我在Muirhead(2005)或Anderson(2003)或Mardia,Kent和Bibby(1979,2003 )中都找不到确切的结果。χ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。显然,这些人没有理会异常的诊断,因为多元正态分布是完美的,并且每次收集多元数据时都容易获得:-/。 事情可能比这更复杂。Hotelling分布结果是基于假设矢量部分和矩阵部分之间的独立性而得出的。这种独立性适用于和,但它不再适用于和。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS

2
随机森林进行多元回归
我有一个输入和输出的多输出回归问题。输出具有复杂的非线性相关结构。dxdxd_xdydyd_y 我想使用随机森林进行回归。据我所知,用于回归的随机森林仅适用于单个输出,因此我将必须训练随机森林-每个输出一个。这忽略了它们的相关性。dydyd_y 是否有将输出相关性考虑在内的随机森林扩展?也许类似高斯过程回归的多任务学习。

2
什么是“降秩回归”?
我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。 其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。 有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?

3
非正定协方差矩阵对我的数据有什么影响?
我有许多多变量观测值,并希望评估所有变量的概率密度。假定数据是正态分布的。在低数量的变量下,一切都会按我预期的那样工作,但移至更大的数量会导致协方差矩阵变为非正定。 我已将Matlab中的问题减少为: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. 如果err> 0,则Sigma不是正定的。 为了评估更高维度的实验数据,我可以做些什么?它可以告诉我有关数据的任何有用信息吗? 我在这方面是个初学者,所以如果我错过了一些明显的事情,我深表歉意。



3
如何执行等距对数比转换
我的运动行为(睡眠,久坐和进行体育锻炼所花费的时间)数据总计约为24(以每天的小时数表示)。我想创建一个变量,以捕获在每种行为中花费的相对时间-有人告诉我,等距对数比转换可以完成此任务。 看来我应该在R中使用ilr函数,但是找不到任何带有代码的实际示例。我从哪里开始? 我的变量是睡眠时间,平均久坐时间,平均平均轻度运动,平均中等强度的运动和平均剧烈运动。睡眠是自我报告的,而其他睡眠则是加速度计数据有效天的平均值。因此,对于这些变量,情况不等于24。 我的猜测:我正在SAS中工作,但是看起来R在这部分将更容易使用。因此,首先仅导入感兴趣变量的数据。然后使用acomp()函数。然后我无法弄清楚ilr()函数的语法。任何帮助将非常感激。

1
用Gamma分布构造Dirichlet分布
令是相互独立的随机变量,每个变量的伽玛分布参数为表示,与X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1}αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) 的联合PDF。然后找到关节(y_1,\ dots,Y_ {k + 1})的 pdf文件,我找不到jacobian即J(\ frac {x_1,\ dots,x_ {k + 1}} {y_1,\ dots,y_ {k + 1} })(Ý1,...,ÿķ+1)Ĵ(X1,...,X ķ + 1(X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})J(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.