Questions tagged «linear-algebra»

与有限维向量空间有关的数学领域,包括矩阵及其操作,在统计中很重要。

3
为什么默认的矩阵范数是频谱范数而不是Frobenius范数?
对于向量范数,L2范数或“欧几里得距离”是广泛使用的直观定义。但是,为什么矩阵的“最常用”或“默认”规范定义是频谱规范,而不是Frobenius规范(类似于矢量的L2规范)? 这是否与迭代算法/矩阵幂有关(如果频谱半径小于1,则算法将收敛)? 对于诸如“最常用”,“默认”之类的词总是有争议的。上面提到的“默认”一词来自Matlabfunction中的默认返回类型norm。在R矩阵的默认标准是L1常态。两者的是“不自然”,我(对于一个矩阵,它看起来更“自然”做∑i,ja2i,j−−−−−−√∑i,jai,j2\sqrt{\sum_{i,j}a^{2}_{i,j}}喜欢在向量中)。(感谢@usεr11852和@whuber的评论,对于造成的混乱,我们深表歉意。) 可能会扩展矩阵规范的用法,这将有助于我了解更多吗?

1
在矩阵中添加一行后更新SVD分解
假设我有一个致密的基质的米× Ñ大小,SVD分解甲 = û 小号V ⊤。在我可以计算SVD如下:。AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 如果一个新的个行被添加到(m+1)(m+1)(m+1),可以计算基于旧一个新的SVD分解(即通过使用 ü,小号和 V),不从头重新计算SVD?AA\mathbf AUU\mathbf USS\mathbf SVV\mathbf V


1
PCA双线图中的箭头是什么意思?
考虑以下PCA双线图: library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) 有一堆红色箭头,它们是什么意思?我知道标有“ Var1”的第一个箭头应指向数据集变化最大的方向(如果我们认为它们是2000个数据点,则每个都是大小为6的向量)。我还从某处读取,变化最大的方向应该是第一特征向量的方向。 但是,请阅读R中的biplot代码。有关箭头的线是: if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y实际在哪里是荷载矩阵,它是特征向量矩阵。所以它看起来像第一个箭头实际上是从指向(0, 0)到(y[1, 1], y[1, 2])。我了解我们正在尝试在2D平面上绘制高维箭头。这就是为什么我们要使用y[1, ]向量的第一和第二元素。但是我不明白的是: 第一特征向量方向y[, 1]不是由表示的向量y[1, ]吗?(同样,这y是通过PCA或通过的特征分解获得的特征向量矩阵t(x) %*% x),即特征向量应该是列向量,而不是那些水平向量。 即使我们将它们绘制在2D平面上,我们也应该绘制第一个方向从(0, 0)指向(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

1
NumPy如何解决不确定系统的最小二乘问题?
假设我们有形状为(2,5)的X和形状为(2,)的 y 这有效: np.linalg.lstsq(X, y) 我们希望只有在X的形状为(N,5)且N> = 5的情况下,此方法才起作用。 我们确实获得了预期的5倍权重,但是该问题如何解决? 就像我们有2个方程和5个未知数吗? numpy如何解决这个问题? 它必须执行类似插值的操作才能创建更多的人工方程式吗?

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
期望与平均值相同吗?
我正在大学里做ML,而教授在试图向我们解释有关高斯过程的某些东西时,提到了期望(E)一词。但是根据他的解释,我知道E与平均值μ相同。我明白吗? 如果相同,那么您知道为什么同时使用两个符号吗?我也看到E可以像E()一样用作函数,但是我对μ没有看到。X2x2x^2 有人可以帮助我更好地了解两者之间的区别吗?

2
增量高斯过程回归
我想使用在数据点上通过数据流一个一到达的滑动窗口来实现增量式高斯过程回归。 让表示输入空间的维数。因此,每个数据点x i具有d个元素。dddX一世xix_iddd 令为滑动窗口的大小。ñnn 为了做出预测,我需要计算语法矩阵的逆,其中K i j = k (x i,x j),k是平方指数核。ķKKķ我Ĵ= k (x一世,XĴ)Kij=k(xi,xj)K_{ij} = k(x_i, x_j) 为了避免K随着每个新数据点变大,我认为可以在添加新点之前删除最旧的数据点,这样可以防止gram增长。例如,让其中,Σ是权重的协方差和φ是由平方指数内核隐含的隐式映射函数。ķ= ϕ (X)ŤΣ φ (X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 现在让 ]和X n e w = [ x t − n + 2 | 。。。| X Ť | X 吨+ 1 ],其中X “s的ð由1列的矩阵。X= [ xt − …

4
严格来说,“随机投影”不是投影吗?
随机投影算法的当前实现方式是使用投影矩阵将数据样本从映射到从而降低了数据样本的维数,该矩阵的条目来自适当的分布(例如来自):RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 方便地,存在理论证明,表明该映射近似保留了成对的距离。 但是,最近我发现了这些注释,其中作者声称该单词与严格矩阵的线性代数意义上的投影并不是严格意义上的投影(第6页)。根据此处给出的说明,这是因为当的列从中独立选择时,它们的列并非严格正交。因此,可以将强制执行列的正交性的RP的早期版本视为投影。RRRN(0,1)N(0,1)\mathcal N(0,1)RRR 您能否提供以下更详细的解释:(1)从严格意义上讲,投影的定义是什么;(2)为什么在这种定义下RP不是投影?


1
如何获得非PCA特征向量的向量的“特征值”(解释方差的百分比)?
我想了解如何获取数据集的方差百分比,而不是在PCA提供的坐标空间中,而是在稍微不同的一组(旋转)向量上。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …

2
找出最小协方差矩阵的适当方法
在我读的教科书中,他们使用正定性(半正定性)来比较两个协方差矩阵。这个想法是,如果是Pd然后小于。但是我很难理解这种关系吗?A − BA−BA-B乙BB一个AA 这里有一个类似的线程: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices 使用确定性比较矩阵的直觉是什么? 尽管答案很好,但它们并不能真正解决直觉。 这是一个令人困惑的示例: [ 1612129] - [ 1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} 现在这里的差异的决定因素是-25,因此该关系不是pd甚至psd,因此第一个矩阵不大于第一个矩阵? 我只想比较两个3 * 3协方差矩阵,看看哪个最小?在我看来,使用欧几里得范数之类的东西进行比较会更直观吗?但是,这将意味着上面的第一个矩阵大于第二个矩阵。而且,我只见过用于比较协方差矩阵的pd / psd准则。 有人可以解释为什么pd / psd比使用其他方法(例如欧几里得范数)更好吗? 我也已经在数学论坛上发布了这个问题(不确定什么是最好的),希望这不违反任何规则。 /math/628135/comparing-two-covariance-matrices

1
为什么主成分分数不相关?
假设是均值数据矩阵。矩阵为,具有m个不同的特征值,特征向量\ mathbf s_1,\ mathbf s_2 ... \ mathbf s_m正交。S = cov (A)m × m m s 1 s 2 s m一个一个\mathbf AS =cov( A)小号=冠状病毒(一个)\mathbf S=\text{cov}(\mathbf A)米× 米米×米m\times m米米ms1个s1个\mathbf s_1s2s2\mathbf s_2smsm\mathbf s_m 第iii个主要成分(有人称其为“分数”)是向量 zi=Asizi=Asi\mathbf z_i = \mathbf A\mathbf s_i。换句话说,它是\ mathbf A的列的线性组合AA\mathbf A,其中系数是\ mathbf S的第iii个特征向量的分量。SS\mathbf S 我不明白为什么zizi\mathbf z_i和zjzj\mathbf z_j对于所有i \ neq j都不相关i≠ji≠ji\neq …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
线性变换后,余弦相似度如何变化?
之间是否存在数学关系: 余弦相似度 sim(A,B)sim⁡(A,B)\operatorname{sim}(A, B)两个向量的AAA和,和BBB 和的余弦相似度,通过给定矩阵不均匀缩放。这里是一个给定的对角矩阵,对角线上的元素不相等。A B M Msim(MA,MB)sim⁡(MA,MB)\operatorname{sim}(MA, MB)AAABBBMMMMMM 我试图查看计算结果,但无法达到简单/有趣的链接(表达式)。我想知道是否有一个。 例如,在非均匀缩放中不会保留角度,但是原始角度与非均匀缩放后的角度之间是什么关系?关于一组向量S1与另一组向量S2之间的联系,可以说什么-其中S2是通过非均匀缩放S1获得的?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.