Questions tagged «multivariate-analysis»

分析一次同时分析多个变量的地方,这些变量要么是因变量(响应),要么是分析中唯一的变量。这可以与“多个”或“多变量”分析形成对比,后者暗示了多个预测变量(独立变量)。

3
拟合多元自然三次样条
注:用了一个月后,没有正确的答案,我要重新发布SO 背景 我有一个模型fff,其中Y=f(X)Y=f(X)Y=f(\textbf{X}) 是来自 m个参数的样本的 n × m矩阵, Y是模型输出的 n × 1向量。XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1 是计算密集型的,因此我想使用多变量三次样条曲线通过(X ,Y )点来近似 f,以便可以在更多点上评估 Y。ffffff(X,Y)(X,Y)(X,Y)YYY 题 是否有R函数可以计算X和Y之间的任意关系? 具体来说,我正在寻找该splinefun函数的多元版本,该版本针对单变量情况生成样条函数。 例如这是 splinefun单变量情况下的工作方式 x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 我尝试过的 我已经审查了mda软件包,并且似乎应该可以进行以下操作: library(mda) x <- …

1
预测短时间序列的最小愚蠢方法
我需要为第29个时间单位预测以下4个变量。我有大约2年的历史数据,其中1和14和27都是同一时期(或一年中的某个时间)。最后,我对w ^w ^W,w ^ dwdwd,w çwCwc和进行了Oaxaca-Blinder风格的分解ppp。 time W wd wc p 1 4.920725 4.684342 4.065288 .5962985 2 4.956172 4.73998 4.092179 .6151785 3 4.85532 4.725982 4.002519 .6028712 4 4.754887 4.674568 3.988028 .5943888 5 4.862039 4.758899 4.045568 .5925704 6 5.039032 4.791101 4.071131 .590314 7 4.612594 4.656253 4.136271 .529247 8 4.722339 4.631588 3.994956 …

3
判别分析与逻辑回归
我发现了判别分析的一些优点,对此我也有疑问。所以: 当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。 如果特征数量少并且每个类别中的预测变量的分布 近似正态,则线性判别模型比逻辑回归模型更加稳定。XXX 什么是稳定性,为什么重要?(如果逻辑回归能够很好地完成工作,那么为什么我要关心稳定性?) 当我们有两个以上的响应类时,LDA很流行,因为它还提供了数据的低维视图。 我只是不明白。LDA如何提供低维视图? 如果您可以命名更多利弊,那将是很好的。

2
具有秩相关的典范相关分析
典型相关分析(CCA)旨在最大化两个数据集的线性组合的通常Pearson乘积矩相关(即线性相关系数)。 现在,考虑该相关系数仅测量线性关联这一事实-这就是为什么我们也使用Spearman- 或Kendall- τ(秩)相关系数来测量之间的任意单调(不一定是线性)联系的原因。变量。ρρ\rhoττ\tau 因此,我想到了以下几点:CCA的一个局限性在于,由于其目标函数,它仅试图捕获所形成的线性组合之间的线性关联。通过最大化Spearman- 而不是Pearson- r在某种意义上扩展CCA是否可行?ρρ\rhorrr 这样的程序会导致任何统计学上可解释和有意义的事情吗?(例如,对等级执行CCA有意义吗??)我想知道当我们处理非常规数据时是否有帮助...

1
随着尺寸增加,正态分布的密度
我要问的问题是:正态分布均值的1个标准差内的样本比例如何随着变量数量的增加而变化? (几乎)所有人都知道,在一维正态分布中,可以在平均值的1个标准偏差内找到68%的样本。那么在2、3、4,...尺寸上呢?我知道它变少了……但是多少(精确地)呢?拥有一张显示1、2、3 ... 10尺寸以及1、2、3 ... 10 SD尺寸的数字的表格会很方便。谁能指出这样的桌子? 还有一点背景-我有一个传感器,可以提供多达128个通道的数据。每个通道都受到(独立)电噪声的影响。当我感觉到校准对象时,我可以对足够多的测量求平均值,并获得128个通道的平均值以及128个单独的标准偏差。 但是...就单个瞬时读数而言,数据的响应不像128个单个读数那样,而是像一个(最多)128维矢量量的单个读数一样。当然,这是处理我们获取的一些关键读数的最佳方法(通常是128个中的4-6个)。 我想了解一下此向量空间中的什么是“正常”变化以及什么是“离群值”。我确定我已经见过一张我所描述的表格,该表格适用于这种情况-有人可以指向一张吗?

1
GSVD是否实施所有线性多元技术?
我碰到了HervéAbdi关于广义SVD 的文章。作者提到: 广义SVD(GSVD)分解矩形矩阵,并考虑了施加在矩阵的行和列上的约束。GSVD通过较低的秩矩阵给出给定矩阵的加权广义最小二乘估计,因此,在适当选择约束的情况下,GSVD实施了所有线性多元技术(例如规范相关,线性判别分析,对应分析,PLS -回归)。 我想知道GSVD与所有线性多元技术(例如典范相关,线性判别分析,对应分析,PLS回归)如何相关。

2
如何从R中的特征值和特征向量绘制椭圆?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 有人可以拿出R代码从下面矩阵A = (2.2 0.4 0.4 2.8)的特征值和特征向量绘制椭圆 A =(2.20.40.42.8)一种=(2.20.40.42.8) \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

2
相关的伯努利试验,多元伯努利分布?
我正在简化我正在工作的研究问题。想象一下,我有5个硬币,让我们称之为成功。这些是非常有偏见的硬币,成功概率为p = 0.1。现在,如果硬币是独立的,那么获得至少1个头或更多的概率非常简单,即。在我的情况下,我的伯努利试验(掷硬币)不是独立的。我获得的唯一信息是成功的概率(每个概率为p = .1)和二进制变量之间的理论Pearson相关性。1−(1−1/10)51−(1−1/10)51-(1-1/10)^5 有什么方法可以仅凭此信息来计算一次成功或更多次成功的概率?我试图避免基于仿真的方法,因为这些理论结果将用于指导仿真研究的准确性。我一直在研究多元伯努利分布,但我认为仅凭相关性和成功的边际概率不能完全说明它。我的一个朋友建议构造一个具有bernoulli边际的高斯copula(使用R包copula),然后pMvdc()在一个大样本上使用该函数来获得我想要的概率,但是我不确定如何处理它。

5
产生相关非正态数据的方法
我对寻找一种生成相关的非正常数据的方法感兴趣。因此,理想情况下,某种类型的分布将协方差(或相关)矩阵作为参数,并生成近似该分布的数据。但是这里有个要点:我试图找到的方法应该具有灵活性,也可以控制其多元偏度和/或峰度。 我熟悉Fleishman的方法和正态变量的幂方法的使用,但是我相信大多数扩展只允许用户使用边际偏度和峰度的某些组合,而将多元偏度/峰度留在那儿。我想知道的是,是否有一种方法可以帮助指定多元偏度和/或峰度,以及一些相关性/协方差结构。 大约一年前,我参加了一次关于系蝇分布的研讨会,我记得这位教授随便提到了通过使用葡萄系蝇,一个人可以产生的数据在其一维边缘中的每一个都对称,但共同偏斜,反之亦然。 -反之亦然。或者,甚至更进一步,任何维数较低的边距在保持最大维数对称(或不对称)的同时,可能会有些偏斜或峰度。我一直对这种灵活性可能存在的想法感到惊讶,我一直试图找到某种描述上述方法的文章或会议论文,但我没有成功:(。不必通过使用copulas,我愿意接受任何可行的方法。 编辑:我添加了一些R代码,以尝试显示我的意思。到目前为止,我只熟悉Mardia对多元偏斜和峰度的定义。当我第一次解决问题时,我天真地想到如果我使用具有偏斜边线(在本例中为beta)的对称copula(在本例中为高斯),则对边沿的单变量检验会产生显着性,但Mardia对多变量偏斜/峰度的检验会很有意义。不重要。我尝试了一下,但并没有按我预期的那样出来: library(copula) library(psych) set.seed(101) cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("beta", "beta"),list(list(shape1=0.5, shape2=5), list(shape1=0.5, shape2=5)))} Q1 <- rmvdc(cop1, 1000) x1 <- Q1[,1] y1 <- Q1[,2] cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), c("norm", "norm"),list(list(mean=0, sd=1), list(mean = 0, sd=1)))} Q2 <- rmvdc(cop2, 1000) x2 <- Q2[,1] y2 <- Q2[,2] …

3
如何检测回归模型何时过拟合?
当您正在做某事时,意识到自己在做什么,就会对何时过度拟合模型产生一种感觉。一方面,您可以在模型的“调整后的R平方”中跟踪趋势或劣化。您还可以在主要变量的回归系数的p值中跟踪类似的恶化。 但是,当您阅读其他人的研究并且对他们自己的内部模型开发过程一无所知时,如何清楚地确定模型是否过拟合。

2
推导二元泊松分布
我最近遇到了双变量Poisson分布,但是对于如何导出它有点困惑。 分布由下式给出: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=X,ÿ=ÿ)=Ë-(θ1个+θ2+θ0)θ1个XX!θ2ÿÿ!∑一世=0米一世ñ(X,ÿ)(X一世)(ÿ一世)一世!(θ0θ1个θ2)一世P(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 据我所知,在θ0θ0\theta_{0}项之间的相关性的测量XXX和YÿY ; 因此,当XXX和YÿY是独立的,θ0=0θ0=0\theta_{0} = 0和分配简单地变成两个单变量泊松分布的产物。 考虑到这一点,我的困惑是基于求和项-我假设该项解释了XXX和之间的相关性YÿY。 在我看来,该加数构成某种其中“成功”的概率由下式给出二项式累积分布函数的产品(θ0θ1θ2)(θ0θ1个θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)和“失败”的概率由下式给出i!1min(x,y)−i一世!1个米一世ñ(X,ÿ)-一世i!^{\frac{1}{min(x,y)-i}},因为(i!1min(x,y)−i!)(min(x,y)−i)=i!(一世!1个米一世ñ(X,ÿ)-一世!)(米一世ñ(X,ÿ)-一世)=一世!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!,但我可能与此相去甚远。 有人可以提供一些有关如何导出这种分布的帮助吗?同样,如果可以将其包含在任何答案中,那么如何将模型扩展到多变量场景(例如三个或更多随机变量),那就太好了! (最后,我已经注意到,之前有一个类似的问题(了解二元泊松分布),但实际上并未对此推导进行探讨。)

3
多元模式的计算有效估计
简短版:估算从连续分布中采样的多维数据集模式的最有效的计算方法是什么? 长版:我有一个数据集,需要估计其模式。该模式与均值或中位数不一致。下面显示了一个示例,这是一个2D示例,但ND解决方案会更好: 目前,我的方法是 在等于模式所需分辨率的网格上计算内核密度估计 寻找最大的计算点 显然,这会在很多不合理的点上计算KDE,如果有很多高维度的数据点或者我希望模式具有良好的分辨率,则这尤其糟糕。 一种替代方法是使用模拟退火,遗传算法等在KDE中找到全局峰。 问题是是否有一种更聪明的方法来执行此计算?

4
在多元回归之前单变量回归的意义是什么?
我目前正在研究一个问题,我们的数据集很小,并且对治疗对结果的因果关系感兴趣。 我的顾问指示我对每个预测变量执行单变量回归,以结果作为响应,然后以治疗分配作为响应。即,要求我一次将一个变量与一个回归拟合,并制作结果表。我问“为什么要这么做?”,答案是“我们对哪些预测因素与治疗分配和结果相关感兴趣,因为这很可能表明混杂因素”。我的顾问是一位训练有素的统计学家,而不是其他领域的科学家,因此,我倾向于信任他们。 这是有道理的,但尚不清楚如何使用单变量分析的结果。这样做是否会导致模型选择的选择导致估计值的显着偏差和狭窄的置信区间?为什么有人要这样做?我很困惑,我的顾问在提出这个问题时还不太清楚。有人在这项技术上有资源吗? (注意:我的顾问曾说过,我们不会将p值用作临界值,而是我们要考虑“一切”。)

3
多元Bernoulli分布的概率公式
我需要的事件的在正变量贝努利分布的概率的公式X∈ { 0 ,1 }ñX∈{0,1个}ñX\in\{0,1\}^n与给定的P(X一世= 1 )= p一世P(X一世=1个)=p一世P(X_i=1)=p_i为单个元件和用于对元素的概率P(X一世= 1 ∧ XĴ= 1 )= p我ĴP(X一世=1个∧XĴ=1个)=p一世ĴP(X_i=1 \wedge X_j=1)=p_{ij}。等效地,我可以给出均值和协方差XXX。 我已经了解到,存在许多{ 0 ,1 }ñ{0,1个}ñ\{0,1\}^n分布具有性能就像有具有给定的均值和方差许多发行。我找了一个规范的一个{ 0 ,1 }ñ{0,1个}ñ\{0,1\}^n,就像高斯是一个正则分布[Rñ[RñR^n和给定的均值和方差。

5
不同长度时间序列的SVD维数缩减
我正在使用奇异值分解作为降维技术。 给定N维向量D,其思想是表示不相关维的变换空间中的特征,这将以重要性降序将大多数数据信息压缩到该空间的特征向量中。 现在,我正在尝试将此过程应用于时间序列数据。问题在于并非所有序列都具有相同的长度,因此我无法真正构建num-by-dim矩阵并应用SVD。我的第一个想法是通过构建num-by-maxDim矩阵并用零填充空白空间来用零填充矩阵,但是我不确定这是否正确。 我的问题是,如何将SVD降维方法应用于不同长度的时间序列?或者,是否还有其他通常用于时间序列的本征空间表示方法? 下面是一段MATLAB代码来说明这一想法: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % variances along eigenvectors KEEP = 2; % number of dimensions to keep newX = U(:,1:KEEP)*S(1:KEEP,1:KEEP); % …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.