Questions tagged «covariance-matrix»

甲的所有对之间的协方差矩阵随机变量。它也称为方差-协方差矩阵或简称为协方差矩阵。 k×kķ

3
线性回归中误差的方差-协方差矩阵
实际上,统计分析软件包如何计算var / cov误差矩阵? 从理论上我很清楚这个想法。但实际上没有。我的意思是,如果我有一个随机变量向量,我知道方差/协方差矩阵将得到均值偏差向量的外部乘积:。ΣX =( X1个,X2,… ,Xñ)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [(X - E(X))(X - E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] 但是当我有一个样本时,我观察到的误差不是随机变量。甚至更好,但只有在我从相同人群中抽取了多个相同样本的情况下才可以。否则,他们被给予。因此,我的问题再次是:一个统计软件包如何从研究人员提供的观察结果列表(即样本)开始生成var / cov矩阵?

1
样本协方差矩阵不可逆时该怎么办?
我正在研究一些聚类技术,其中对于给定的d维向量簇,我假设一个多元正态分布并计算样本d维平均向量和样本协方差矩阵。 然后,当尝试确定一个新的,看不见的d维向量是否属于该簇时,我正在通过以下度量来检查其距离: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) 这需要我计算协方差矩阵的逆。但是给定一些样本,我不能保证协方差矩阵是可逆的,如果不是,我该怎么办?σ^Xσ^X\hat{\sigma}_X 谢谢

1
如何测试交叉协方差矩阵是否为非零?
我的研究背景: 在吉布斯采样中,我们分别从P(X | Y)和P(Y | X)采样(感兴趣的变量)和,其中X和Y是k维随机向量。我们知道该过程通常分为两个阶段:XXXYYYP(X|Y)P(X|Y)P(X|Y)P(Y|X)P(Y|X)P(Y|X)XXXYYYkkk 老化期,我们丢弃所有样品。将样本表示为X1∼XtX1∼XtX_1\sim X_t和Y1∼YtY1∼YtY_1\sim Y_t。 “后烙印”时期,我们将样本\ bar {X} = \ frac {1} {k} \ sum_ {i = 1} ^ k X_ {t + i}平均X¯=1k∑ki=1Xt+iX¯=1k∑i=1kXt+i\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i}作为最终期望的结果。 但是,“预烧”序列Xt+1∼Xt+kXt+1∼Xt+kX_{t+1}\sim X_{t+k}中的样本并不是独立分布的。因此,如果我要检查最终结果的方差,它将变为 Var[X¯]=Var[∑i=1kXt+i]=1k2(∑i=1kVar[Xt+i]+∑i=1k−1∑j=i+1kCov[Xt+i,Xt+j])Var⁡[X¯]=Var⁡[∑i=1kXt+i]=1k2(∑i=1kVar⁡[Xt+i]+∑i=1k−1∑j=i+1kCov⁡[Xt+i,Xt+j])\operatorname{Var}[\bar{X}] = \operatorname{Var}\left[\sum_{i=1}^k X_{t+i}\right] = \frac{1}{k^2}\left(\sum_{i=1}^k\operatorname{Var}[X_{t+i}] + \sum_{i=1}^{k-1} \sum_{j=i+1}^k \operatorname{Cov}[X_{t+i},X_{t+j}]\right) 这里,术语Cov[Xt+i,Xt+j]Cov⁡[Xt+i,Xt+j]\operatorname{Cov}[X_{t+i},X_{t+j}]是一个k×kk×kk\times k的互协方差矩阵适用于任何(i,j)(i,j)(i,j)与i&lt;ji&lt;ji<j。 例如,我有 Xt + 1= (1 …

3
当协方差矩阵不是正定时,如何进行因子分析?
我有一个数据集,其中包含717个观测值(行),这些观测值由33个变量(列)描述。通过对所有变量进行z评分来标准化数据。没有两个变量是线性相关的()。我还删除了所有方差很小(小于)的变量。下图显示了相应的相关矩阵(以绝对值表示)。0.1r = 1r=1r=10.10.10.1 当我尝试factoran在Matlab中使用以下方法运行因子分析时: [Loadings1,specVar1,T,stats] = factoran(Z2,1); 我收到以下错误: The data X must have a covariance matrix that is positive definite. 你能告诉我问题出在哪里吗?是否由于使用的变量之间相互依存性较低?另外,我该怎么办? 我的相关矩阵:

3
测量非线性相关性
两个随机变量之间的协方差定义了一种衡量它们彼此线性相关程度的方法。但是如果联合分布是圆形的怎么办?当然分布中有结构。如何提取此结构?

3
每个相关矩阵都是正定的吗?
我在这里谈论的是Pearson相关矩阵。 我经常听到它说所有相关矩阵都必须是正半定数。我的理解是,正定矩阵必须具有特征值,而正半定矩阵必须具有特征值。这使我认为我的问题可以改写为“相关矩阵的特征值吗?”&gt;0&gt;0> 0≥0≥0\ge 0=0=0= 0 相关矩阵(根据经验数据生成,没有缺失数据)是否可能具有特征值或特征值?如果它是人口相关矩阵呢?=0=0= 0&lt;0&lt;0< 0 我在上面复读约协方差矩阵这个问题是 考虑三个变量,和。它们的协方差矩阵不是正定的,因为存在一个向量(),其中不是正数。XXXYÿYZ=X+Yž=X+ÿZ = X+YM中号Mzžz=(1,1,−1)′=(1个,1个,-1个)′= (1, 1, -1)'z′Mzž′中号žz'Mz 但是,如果我不是使用协方差矩阵对相关矩阵进行计算,则为正。因此,我认为对于相关和协方差矩阵来说情况可能有所不同。z′Mzž′中号žz'Mz 我问的原因是,我被问到了关于stackoverflow的问题。

1
为什么所有PLS组件一起只能解释原始数据的一部分差异?
我有一个由10个变量组成的数据集。我运行偏最小二乘(PLS)来预测这10个变量的单个响应变量,提取10个PLS分量,然后计算每个分量的方差。在原始数据上,我得出所有变量的方差之和为702。 然后,我将每个PLS分量的方差除以该总和,得到由PLS解释的方差的百分比,令人惊讶的是,所有分量一起解释了原始方差的44%。 对此有什么解释?不应该是100%吗?

1
对特征向量的视觉解释感到困惑:视觉上不同的数据集如何具有相同的特征向量?
许多统计教科书提供了一个直观的说明协方差矩阵的特征向量是: 向量u和z形成本征向量(本征轴)。这是有道理的。但是令我困惑的一件事是,我们从相关矩阵中提取特征向量,而不是原始数据。此外,完全不同的原始数据集可以具有相同的相关矩阵。例如,以下两个都具有以下相关矩阵: [ 10.970.971个][10.970.971]\left[\begin{array}{} 1 & 0.97 \\ 0.97 &1\end{array}\right] 因此,它们的特征向量指向相同的方向: [ .71.71− .71.71][.71−.71.71.71]\left[\begin{array}{} .71 & -.71 \\ .71 & .71\end{array}\right] 但是,如果对特征向量在原始数据中的哪个方向应用相同的视觉解释,则会得到指向不同方向的向量。 有人可以告诉我我哪里出问题了吗? 第二次编辑:如果我这么大胆,下面给出了出色的答案,我就能够弄清混乱并作了说明。 视觉解释与以下事实相吻合:从协方差矩阵提取的特征向量是不同的。 协方差和特征向量(红色): [ 11个1个1个] [ .7.72− .72.7][1111][.7−.72.72.7]\left[\begin{array}{} 1 & 1 \\ 1 & 1\end{array}\right] \left[\begin{array}{} .7 & -.72 \\ .72 & .7\end{array}\right] 协方差和特征向量(蓝色): [ .25.5.51个] [ …

2
找出最小协方差矩阵的适当方法
在我读的教科书中,他们使用正定性(半正定性)来比较两个协方差矩阵。这个想法是,如果是Pd然后小于。但是我很难理解这种关系吗?A − BA−BA-B乙BB一个AA 这里有一个类似的线程: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 使用确定性比较矩阵的直觉是什么? 尽管答案很好,但它们并不能真正解决直觉。 这是一个令人困惑的示例: [ 1612129] - [ 1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} 现在这里的差异的决定因素是-25,因此该关系不是pd甚至psd,因此第一个矩阵不大于第一个矩阵? 我只想比较两个3 * 3协方差矩阵,看看哪个最小?在我看来,使用欧几里得范数之类的东西进行比较会更直观吗?但是,这将意味着上面的第一个矩阵大于第二个矩阵。而且,我只见过用于比较协方差矩阵的pd / psd准则。 有人可以解释为什么pd / psd比使用其他方法(例如欧几里得范数)更好吗? 我也已经在数学论坛上发布了这个问题(不确定什么是最好的),希望这不违反任何规则。 /math/628135/comparing-two-covariance-matrices

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 



2
如何找到多边形的协方差矩阵?
假设您有一个由一组坐标(x1,y1)...(xn,yn)(x1,y1)...(xn,yn)(x_1,y_1)...(x_n,y_n)定义的多边形。。。(x n,y n)并且其质心在(0,0)(0,0)(0,0)。您可以将多边形视为具有多边形边界的均匀分布。 我正在寻找一种可以找到多边形的协方差矩阵的方法。 我怀疑多边形的协方差矩阵与面积的第二矩密切相关,但是我不确定它们是否相等。在我链接的Wikipedia文章中找到的公式似乎(这里是一个猜测,对我来说不是很清楚)指的是绕x,y和z轴而不是多边形的主轴的旋转惯量。 (顺便说一句,如果有人可以指出我如何计算多边形的主轴,那对我也很有用) 试图仅对坐标执行PCA是很诱人的,但是这样做会遇到这样的问题,即坐标不一定在多边形周围均匀分布,因此不能代表多边形的密度。一个极端的例子是北达科他州的轮廓,其多边形由紧随红河的大量点定义,再加上仅两个定义该州西部边缘的点。

3
如何处理等于1或-1的随机效应相关性?
当处理复杂的最大混合模型时(估计给定数据和模型的所有可能随机效应)是完美的(+1或-1)或在某些随机效应之间几乎完美的相关性,这种情况并不罕见。为了讨论的目的,让我们观察以下模型和模型摘要 Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.