Questions tagged «multivariate-analysis»

分析一次同时分析多个变量的地方,这些变量要么是因变量(响应),要么是分析中唯一的变量。这可以与“多个”或“多变量”分析形成对比,后者暗示了多个预测变量(独立变量)。

4
按时间顺序解释什么?
到目前为止,到目前为止主要处理横截面数据,最近才进行浏览,扫描了大量的时间序列入门文献,我不知道解释变量在时间序列分析中将扮演什么角色。 我想解释一个趋势而不是趋势。作为引言,我所读的大部分内容都假定该系列文章源于某种随机过程。我了解了AR(p)和MA流程以及ARIMA建模。除了自动回归过程之外,我还想处理更多信息,所以我找到了VAR / VECM并运行了一些示例,但我仍然想知道是否存在某些案例与横截面上的解释更接近。 其背后的动机是我的系列分解表明趋势是主要的贡献者,而余数和季节性影响几乎没有作用。我想解释一下这种趋势。 我可以/应该将我的系列回归多个不同的系列吗?凭直觉,由于串行相关性,我会使用gls(我不太确定cor结构)。我听说过虚假回归,并且知道这是一个陷阱,但是我正在寻找一种解释趋势的方法。 这是完全错误还是不常见?还是我到目前为止错过了正确的章节?

2
两个*相关*正态变量的总和不正常的示例
我知道一些相关的随机变量对的很好的例子,它们在边际上是正常的,但在联合上不是正常的。见这个答案由迪利普Sarwate,和这一个由红衣主教。 我也知道两个总和不正常的普通随机变量的例子。见这个答案的宏。但是在这个例子中,两个随机变量是不相关的。 是否存在两个具有非零协方差且总和不正常的普通随机变量的示例?还是有可能证明任何两个相关正态随机变量的和(即使它们不是二元正态)也必须是正态的? [上下文:我有一个作业问题,要求的分布,其中和是具有相关标准法线。我认为该问题旨在说明它们是双变量正态的。但是我想知道,如果没有非零的额外假设,是否可以X ÿ ρ ρaX+bYaX+bYaX+bYXXXYYYρρ\rhoρρ\rho 谢谢!

2
异常检测:使用什么算法?
背景信息:我正在开发一个分析临床数据的系统,以过滤掉可能是错别字的难以置信的数据。 到目前为止,我做了什么: 为了量化真实性,到目前为止,我的尝试是对数据进行归一化,然后根据点p与集合D中已知数据点的距离(=训练集合)计算点p的真实性值: plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) 通过这种量化,我可以选择一个阈值,将合理的数据与不可信的数据分开。我正在使用python / numpy。 我的问题: 该算法无法检测独立的维度。理想情况下,我可以将关于记录的所有信息放入算法中,让它自己发现维度X不会影响记录的合理性。 该算法不适用于布尔值或选择输入等离散值。它们可以映射到连续值上,但是与Select 3相比,Select 1与Select 2更接近Select 2是违反直觉的。 题: 我应该为该任务寻找哪种算法?似乎有很多选择,包括基于最近邻居,基于聚类和统计方法。另外,我很难找到有关这种复杂性异常检测的论文。 任何建议都受到高度赞赏。 [编辑]示例: 假设数据由一个人的身高,一个人的体重和时间戳组成-因此它是3D数据。体重和身高是相关的,但时间戳是完全独立的。如果仅考虑欧几里德距离,则必须选择一个小的阈值以适合我的大多数交叉验证数据。理想情况下,该算法将只忽略时间戳记维度,因为确定记录是否合理是无关紧要的,因为时间戳记与任何其他维度都不相关。任何时间戳都是合理的。 另一方面,可以组成一些示例,其中时间戳确实很重要。例如,特征X的值Y在某个日期之前而不是某个日期之后测量时可能是合理的。

1
可视化许多左偏分布
我要显示一系列左偏/重尾分布。有跨越三个因素42个分布(标示为A,B和C下文)。同样,差异也在整个因数间缩小B。 我的问题是,很难在结果的范围(比例或倍数变化)上区分分布: 记录数据似乎过分强调了左偏度,并将更多样本移到尾部(创建了多个离群点): 有人对其他可视化这些数据的技术有建议吗?

2
探索许多变量的散点图矩阵
我正在分析具有许多参数(例如50-200)的数据集,并且我对查看变量之间的关系感兴趣(例如,根据2变量散点图或2d直方图)。但是,对于这种数量的参数,绘制200x200的绘图阵列似乎是不可行的(除非我将其打印并挂在墙上)。 另一方面,仅执行相关矩阵并不能给出有关2变量关系的所有信息。 有没有一种方法(库或工作流)来探索许多变量的2变量关系? 我特别想向他人展示结果(也许经过一些数据预处理之后)。例如,在JavaScript中具有交互性的东西,可以看到相关矩阵中选定字段的散点图矩阵。 通过散点图矩阵,我的意思是这样的: (摘自pandasplotting博客;在Python / Pandas,R,D3.js等中可用)。

2
当变量表现出完美的同时依赖时,多元中心极限定理(CLT)是否成立?
标题总结了我的问题,但为清楚起见,请考虑以下简单示例。令,i = 1,...,n。定义: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} 和 \ begin {equation} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i ^ 2-1-1)\ end {equation} 我的问题:即使当n = 1时S_n和T_n完全相关,\ sqrt {n} S_n和\ …

1
如何在lme4中解释多元混合模型的系数而无需整体拦截?
我正在尝试在中拟合多变量(即多响应)混合模型R。除了ASReml-r和SabreR软件包(需要外部软件)之外,似乎只有在中才有可能MCMCglmm。Jarrod Hadfield 在包装随附的论文MCMCglmm(pp.6)中描述了拟合模型的过程,例如将多个响应变量重塑为一个长格式变量,然后抑制总体截距。我的理解是,抑制截距会使响应变量每个级别的系数解释变为该级别的平均值。鉴于以上所述,因此是否可以使用来拟合多元混合模型lme4?例如: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | …

1
逆协方差矩阵的假设检验
假设我观察到iid ,并希望测试 vech for a整合矩阵和向量。在这个问题上有已知的工作吗?xi∼N(μ,Σ)xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0:A H0:A H_0: A\ (Σ−1)=a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa (对我而言)显而易见的尝试是通过似然比测试,但是似乎要在受到约束的情况下最大化似然率将需要SDP求解器,并且可能非常麻烦。H0H0H_0

1
是否有Pillai迹线和Hotelling-Lawley迹线的推广?
在多元多元回归(向量回归和回归)的设置中,一般假设的四个主要检验(Wilk's Lambda,Pillai-Bartlett,Hotelling-Lawley和Roy's最大根)都取决于矩阵的特征值。,其中和是“解释”和“总计”变异矩阵。高EHË− 1HE−1H E^{-1}HHHËEE 我注意到Pillai和Hotelling-Lawley统计信息都可以表示为 分别表示。我正在寻找一个应用,其中情况下,对于和的总体类似物定义的该迹线的分布是有意义的。(我的工作中存在模错误。)我很好奇,如果通用的样本统计信息存在某种已知的统一性,或者捕获了四个经典测试中的两个或多个的其他通用性。我意识到不等于或κ = 1 ,0 ħ ë κ = 2 κ κ 0 1ψκ= Tr (高[ κ ħ+ E]− 1),ψκ=Tr(H[κH+E]−1),\psi_{\kappa} = \mbox{Tr}\left(H\left[\kappa H + E\right]^{-1}\right),κ = 1 , 0κ=1,0\kappa = 1, 0HHHËEEκ = 2κ=2\kappa = 2κκ\kappaκκ\kappa0001个11,分子在零下不再看起来像卡方,因此中心F逼近似乎值得怀疑,所以也许这是一个死胡同。 我希望对零下(即回归系数的真矩阵全为零)下和替代下的的分布进行一些研究。我对情况特别感兴趣,但是,如果在一般κ情况下有工作,我当然可以使用。ψκψκ\psi_{\kappa}κ = 2κ=2\kappa = 2κκ\kappa


1
在线性,二次方和费舍尔判别分析上,来源似乎存在分歧
我正在研究判别分析,但在调和几种不同的解释时遇到了困难。我相信我一定会错过一些东西,因为我以前从未遇到过这种(似乎)差异水平。话虽如此,有关该网站上判别分析的问题数量似乎证明了其复杂性。 LDA和QDA几类 我的主要教科书是强生公司的应用多元统计分析(AMSA)和基于此的老师的笔记。我将忽略两组设置,因为我相信此设置中的简化公式至少会引起一些混乱。根据此来源,LDA和QDA被定义为基于预期的误分类成本(ECM)的分类规则的参数(假设多元正态性)扩展。ECM对将新观察值x划分到任何组的条件期望成本求和(包括误分类成本和先验概率),我们选择将其最小化的分类区域。其中ECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM=∑i=1groupspi[∑k=1; i≠kgroupsP(k|i)c(k|i)]ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]P(k|i)=P(classifying item as group k | item is group i)=∫Rkfi(x)dxP(k|i)=P(classifying item as group k | item is group i)=∫Rkfi(x)dxP(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x},fi(x)fi(x) f_i(\boldsymbol{x})是人口密度,RkRkR_k是k组中的一组观测值,ccc是成本,pipip_i是先验概率。然后可以将新的观测值分配给内部项最小或等效的内部项p_k f_k(\ boldsymbol {x})剩余部分pkfk(x)pkfk(x)p_k …


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


1
在生态学中使用什么标准将变量分为解释变量和排序方法的响应?
我有在人群中相互作用的不同变量。基本上,我一直在盘点千足虫,并测量其他一些地形值,例如: 标本的种类和数量 动物所在的不同环境 pH值 有机物百分比 磷,钾,镁,钙,锰,铁,锌,铜的含量 Ca + Mg / K关系 基本上,我想使用PCA来确定哪些变量驱动样本的可变性并使森林(环境)有所不同。我应该为“变量”使用哪些变量,为“个人”使用哪些变量?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.