统计和大数据 matrix

1

这是一个非常简单的问题，但我无法在互联网上或书中的任何地方找到推导。我想看到一个贝叶斯如何更新多元正态分布的推导。例如：想象一下 P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} 观察一组x1...xnx1...xn{\bf x_1 ... x_n}，我想计算P(μ|x1...xn)P(μ|x1...xn)\mathbb{P}({\bf \mu | x_1 ... x_n})。我知道答案是P(μ|x1...xn)=N(μn,Σn)P(μ|x1...xn)=N(μn,Σn)\mathbb{P}({\bf \mu | x_1 ... x_n}) = N({\bf \mu_n}, {\bf \Sigma_n})其中 μnΣn==Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σ0(Σ0+1nΣ)−11nΣμn=Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σn=Σ0(Σ0+1nΣ)−11nΣ \begin{array}{rcl} \bf \mu_n &=& \displaystyle\Sigma_0 \left(\Sigma_0 …

18 bayesian normal-distribution matrix posterior linear-algebra

3

为什么默认的矩阵范数是频谱范数而不是Frobenius范数？

对于向量范数，L2范数或“欧几里得距离”是广泛使用的直观定义。但是，为什么矩阵的“最常用”或“默认”规范定义是频谱规范，而不是Frobenius规范（类似于矢量的L2规范）？这是否与迭代算法/矩阵幂有关（如果频谱半径小于1，则算法将收敛）？对于诸如“最常用”，“默认”之类的词总是有争议的。上面提到的“默认”一词来自Matlabfunction中的默认返回类型norm。在R矩阵的默认标准是L1常态。两者的是“不自然”，我（对于一个矩阵，它看起来更“自然”做∑i,ja2i,j−−−−−−√∑i,jai,j2\sqrt{\sum_{i,j}a^{2}_{i,j}}喜欢在向量中）。（感谢@usεr11852和@whuber的评论，对于造成的混乱，我们深表歉意。）可能会扩展矩阵规范的用法，这将有助于我了解更多吗？

17 matrix linear-algebra

2

正定矩阵的平均值也正定吗？

多个正定矩阵的平均值是否必然是正定或半正定？平均值是逐元素平均值。

15 mathematical-statistics matrix covariance-matrix

2

如何从R中的特征值和特征向量绘制椭圆？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。有人可以拿出R代码从下面矩阵A = （2.2 0.4 0.4 2.8）的特征值和特征向量绘制椭圆 A =（2.20.40.42.8）一种=（2.20.40.42.8） \mathbf{A} = \left( \begin{array} {cc} 2.2 & 0.4\\ 0.4 & 2.8 \end{array} \right)

15 r multivariate-analysis matrix matrix-decomposition

1

GBM软件包与使用GBM的插入符

我一直在使用进行模型调整caret，但随后使用该gbm软件包重新运行模型。据我了解，caret程序包使用gbm的输出应相同。然而，data(iris)使用RMSE和R ^ 2作为评估指标，使用进行的快速测试显示模型中的差异约为5％。我想使用来找到最佳模型性能，caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。我的问题是： 1）为什么即使这两个软件包应该相同，我仍会看到这两个软件包之间的差异（我知道它们是随机的，但5％的差异还是很大的，尤其是当我没有使用iris建模时使用的很好的数据集时）。 2）同时使用这两个软件包有什么优点或缺点？ 3）不相关：使用iris数据集时，最佳interaction.depth值为5，但高于我所阅读的最大值，使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活？ library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

完美多重共线性的一个例子是什么？

关于设计矩阵的完美共线性的例子是什么？XXX 我想举一个例子，其中β^= （X′X）− 1X′ÿβ^=(X′X)−1X′Y\hat \beta = (X'X)^{-1}X'Y无法估计，因为（X′X）(X′X)(X'X)是不可逆的。

12 regression multicollinearity matrix matrix-inverse

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

每个半正定矩阵都对应一个协方差矩阵吗？

众所周知，协方差矩阵必须是半正定的，但是反过来是真的吗？也就是说，每个半正定矩阵是否对应于协方差矩阵？

12 covariance matrix

3

线性回归中w的闭合形式后面的直觉

线性回归中w的闭合形式可以写成 w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty 我们如何直观地解释在此等式中的作用？(XTX)−1(XTX)−1(X^TX)^{-1}

10 regression least-squares matrix intuition matrix-inverse

1

是什么证明了矩阵函数导数的这种计算是合理的？

在吴安德（Andrew Ng）的机器学习课程中，他使用以下公式： ∇一个吨- [R （甲乙甲ŤC）= C甲乙+ C ^Ť一乙Ť∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T 他做了一个快速证明，如下所示： ∇一个吨- [R （甲乙甲ŤC）= ∇一个吨- [R （˚F（A ）AŤC）= ∇∘吨- [R （˚F（∘ ）AŤC）+ ∇∘吨- [R （˚F（一）∘ŤC）= （AŤC）ŤF′（∘ ）+ （∇∘Ť吨- [R （˚F（一）∘ŤC）Ť= CŤ一乙Ť+ （∇∘Ť吨- [R （∘Ť）CF（A ））Ť= CŤ一乙Ť+ （（CF（A ））Ť）Ť= CŤ一乙Ť+ C一乙∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = …

10 machine-learning matrix derivative

1

混合效果模型的模型矩阵

在lmer函数内lme4的R存在是构建随机效应，模型矩阵的呼叫，作为解释在这里，7页- 9。ZZZ 计算需要两个矩阵和 KhatriRao和/或Kronecker积。 ZZZJiJiJ_iXiXiX_i 矩阵是一个的：“分组因子索引的指标矩阵”，但是它似乎是带有伪编码的稀疏矩阵，用于选择对应于较高层次级别的哪个单元（例如，重复测量的主题）在“任何观察。所述矩阵似乎作为在较低层级测量的选择器，以便两个“选择器”的组合将产生一矩阵，通过下面的例子中的纸张所示的形式的：JiJiJ_iXiXiX_iZiZiZ_i (f<-gl(3,2)) [1] 1 1 2 2 3 3 Levels: 1 2 3 (Ji<-t(as(f,Class="sparseMatrix"))) 6 x 3 sparse Matrix of class "dgCMatrix" 1 2 3 [1,] 1 . . [2,] 1 . . [3,] . 1 . [4,] . 1 . [5,] . . 1 …

10 r mixed-model lme4-nlme matrix

2

找出最小协方差矩阵的适当方法

在我读的教科书中，他们使用正定性（半正定性）来比较两个协方差矩阵。这个想法是，如果是Pd然后小于。但是我很难理解这种关系吗？A − BA−BA-B乙BB一个AA 这里有一个类似的线程： /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 使用确定性比较矩阵的直觉是什么？尽管答案很好，但它们并不能真正解决直觉。这是一个令人困惑的示例： [ 1612129] - [ 1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} 现在这里的差异的决定因素是-25，因此该关系不是pd甚至psd，因此第一个矩阵不大于第一个矩阵？我只想比较两个3 * 3协方差矩阵，看看哪个最小？在我看来，使用欧几里得范数之类的东西进行比较会更直观吗？但是，这将意味着上面的第一个矩阵大于第二个矩阵。而且，我只见过用于比较协方差矩阵的pd / psd准则。有人可以解释为什么pd / psd比使用其他方法（例如欧几里得范数）更好吗？我也已经在数学论坛上发布了这个问题（不确定什么是最好的），希望这不违反任何规则。 /math/628135/comparing-two-covariance-matrices

10 covariance-matrix matrix intuition linear-algebra geometry

4

随机矩阵的稀疏诱导正则化

众所周知（例如在压缩感测领域），范数是“稀疏诱导的”，即如果我们最小化函数（对于固定矩阵A和向量→ b）f A ，→ b（→ X）= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0，我们很可能为很多选择甲，→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b}，和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是，如果我们最小化受该的条目的状态→ X为正，而总和到1，然后将大号1术语不具有任何影响（因为‖ → X ‖ 1 = 1通过法令）。在这种情况下，是否存在一个类似的L 1型正则化函数可以起作用，以鼓励生成的→ x稀疏？fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}

10 regression matrix normalization regularization sparse

2

如何比较两个或多个相关矩阵？

我有使用MATLAB函数使用组数据（观察到）计算的相关矩阵。PPP(n×n)(n×n)(n \times n)PPP(m×n)(m×n)(m \times n)corrcoef 如何相互比较和分析这些相关矩阵？PPP 有哪些测试，方法和/或检查点？

10 correlation matlab matrix

1

低阶线性系统的快速计算/估计

方程的线性系统普遍存在于计算统计中。我遇到的一种特殊系统（例如，在因子分析中）是 Ax=b一个X=bAx=b 其中这里d是Ñ × Ñ对角线矩阵具有严格为正对角，Ω是米× 米（具有米« Ñ）对称半正定矩阵，乙是任意Ñ × 米矩阵。我们被要求解决一个被低秩矩阵扰动的对角线性系统（简单）。解决上述问题的幼稚方法是使用伍德伯里公式将A求逆A=D+BΩBT一个=d+乙Ω乙ŤA=D+ B \Omega B^TDdDn×nñ×ñn\times nΩΩ\Omegam×m米×米m\times mm≪n米≪ñm\ll nB乙Bn×mñ×米n\times mAAA。但是，这并不对劲，因为Cholesky和QR因式分解通常可以大大加快线性系统（和法向方程式）的求解速度。我最近提出了以下论文，该论文似乎采用了Cholesky方法，并提到了伍德伯里反演的数值不稳定性。但是，该论文似乎是草稿形式，我找不到数值实验或支持性研究。解决我描述的问题的最新技术水平是什么？

10 factor-analysis matrix computational-statistics matrix-decomposition matrix-inverse

Questions tagged «matrix»