Questions tagged «distance»

分布或变量之间的距离的度量,例如n空间中点之间的欧几里得距离。

9
从底部到顶部解释马氏距离?
我正在研究模式识别和统计,几乎每本书我都涉及马哈拉诺比斯距离的概念。这些书给出了一些直观的解释,但仍然不足以让我真正真正了解正在发生的事情。如果有人问我“马氏距离是多少?” 我只能回答:“这是一件好事,它可以测量某种距离” :) 这些定义通常还包含特征向量和特征值,与马氏距离之间的连接有点麻烦。我了解特征向量和特征值的定义,但是它们与马氏距离有何关系?它与更改线性代数等的基数有关吗? 我还阅读了有关该主题的以下先前问题: 什么是马氏距离,如何将其用于模式识别? 高斯分布函数和马哈拉诺比斯距离(Math.SE)的直观解释 我也读过这个解释。 答案是好的,画面不错,但我仍然没有真正得到它。我有一个想法,但它仍然在黑暗中。有人可以给出“您将如何向您的祖母解释”的解释,以便我最终将其总结起来,而再也不会怀疑马哈拉诺比斯距离是多少?:)它来自哪里,为什么? 更新: 以下是有助于理解Mahalanobis公式的内容: https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-椭球

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
关于Kullback-Leibler(KL)分歧的直觉
我了解了KL散度背后的直觉,因为模型分布函数与数据的理论/真实分布有多大差异。我正在阅读的资料继续说,这两个分布之间的“距离”的直观理解是有帮助的,但不应从字面上理解,因为对于两个分布和,KL散度在和不是对称的。PPP问QQPPP问QQ 我不确定如何理解最后的陈述,还是“距离”的直觉被打破了? 我希望看到一个简单但有见地的例子。

2
为分层聚类选择正确的链接方法
我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。 我的过程如下: 在/ r / politics中获取最新的1000条帖子 收集所有评论 处理数据并计算n x m数据矩阵(n:用户/样本,m:帖子/功能) 计算距离矩阵进行层次聚类 选择一种链接方法并执行分层聚类 将数据绘制为树状图 我的问题是,如何确定最佳的链接方法是什么?我目前使用的Ward,但我怎么知道我是否应该使用single,complete,average等? 我对这些东西还很陌生,但是我不确定是否有一个答案,因此我无法在网上找到明确的答案。那么,对于我的应用程序来说,什么是个好主意呢?请注意,在n x m矩阵具有多个零的意义上,数据是相对稀疏的(大多数人对多则帖子的评论不多)。

1
将相似度矩阵转换为(欧式)距离矩阵
在随机森林算法中,Breiman(作者)构造相似矩阵如下: 将所有学习示例发送到森林中的每棵树上 如果两个示例落在同一片叶子上,则相似矩阵中的对应元素增加1 用树数归一化矩阵 他说: 情况n和k之间的接近度形成矩阵{prox(n,k)}。从它们的定义可以很容易地看出,该矩阵是对称的,正定的并且在1上有界,对角线元素等于1。由此得出,值1-prox(n,k)是欧几里得中的平方距离维数空间不大于案例数。资源 在他的实现中,他使用sqrt(1-prox)(其中prox是相似矩阵)将其转换为距离矩阵。我想这与上面引用的“欧氏空间中的平方距离”有关。 有人可以解释为什么为什么在欧几里得空间中1-prox是平方距离,以及为什么他使用平方根来获得距离矩阵吗?



1
使用相关性作为距离度量(用于层次聚类)
我想对数据进行分层聚类,但我不想使用欧几里得距离,而是想使用相关性。此外,由于相关系数的范围从-1到1,用在我的研究都在-1和1表示“共同调控”,我治疗既-1和1为d = 0。因此,我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题(关于k均值聚类),您应该使用余弦定理将r转换为真正的欧几里得d:d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么?

8
仅使用距离矩阵而不是按特征点数据执行K均值(或其近亲)聚类
我想对我拥有的对象执行K-均值聚类,但是这些对象并未描述为空间中的点,即按objects x features数据集。但是,我能够计算任何两个对象之间的距离(它基于相似度函数)。因此,我处理了距离矩阵objects x objects。 我之前已经实现了K-means,但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下,我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做?为此,是否存在K均值或方法的版本?

4
为什么混合数据是基于欧几里得的聚类算法的问题?
大多数经典的聚类和降维算法(分层聚类,主成分分析,k均值,自组织映射...)都是专门为数字数据设计的,其输入数据被视为欧氏空间中的点。 当然,这是一个问题,因为许多现实世界中的问题都涉及到混杂的数据:例如,如果我们研究公交车,则高度,长度和电机尺寸将是数字,但我们可能也会对颜色感兴趣(分类变量:蓝色/红色/绿色...)和容量类别(顺序变量:小/中/大容量)。具体来说,我们可能想同时研究这些不同类型的变量。 有很多方法可以将经典聚类算法扩展到混合数据,例如使用Gower不相似性插入层次聚类或多维缩放,或者采用其他以距离矩阵为输入的方法。或例如此方法,是将SOM扩展为混合数据。 我的问题是:为什么我们不能仅对混合变量使用欧几里德距离?还是为什么这样做不好?为什么我们不能仅对分类变量进行虚拟编码,对所有变量进行归一化,以使它们在观察之间的距离上具有相似的权重,并在这些矩阵上运行常规算法? 这真的很容易,而且从未做过,所以我想这是非常错误的,但是有人可以告诉我为什么吗?和/或给我一些参考?谢谢

3
两个正态分布之差的分布
我有两个正态分布的概率密度函数: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } 和 f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 我正在寻找和之间分离的概率密度函数。我认为这意味着我正在寻找| x_1-x_2 |的概率密度函数。。那是对的吗?我怎么找到那个?x1x1x_1x2x2x_2|x1−x2||x1−x2||x_1 - x_2|


9
成对的马氏距离
我需要在协变量的矩阵中,计算每对观测值之间R中的样本马氏距离。我需要一个有效的解决方案,即仅计算距离,并最好在C / RCpp / Fortran等中实现。我假设总体协方差矩阵不知道,并使用样本协方差矩阵。Ñ (ñ - 1 )/ 2 Σn×pñ×pn \times pn(n−1)/2ñ(ñ-1个)/2n(n-1)/2ΣΣ\Sigma 我对这个问题特别感兴趣,因为似乎没有用于计算R中成对的马氏距离的“共识”方法,即,dist既未在函数中也未在cluster::daisy函数中实现。mahalanobis没有程序员的额外工作,该函数不会计算成对距离。 这里已经问过R中的成对马氏距离,但那里的解决方案似乎不正确。 这是一种正确但效率极低的方法(因为计算了距离):n×nñ×ñn \times n set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) 这很容易用C语言编写自己的代码,但是我觉得这个基本的东西应该有一个预先存在的解决方案。有一个吗? 还有其他一些不足的解决方案:当仅需要唯一距离时,HDMD::pairwise.mahalanobis()计算距离。似乎很有希望,但是我不希望我的功能来自依赖于的程序包,这严重限制了其他人运行我的代码的能力。除非该实现是完美的,否则我宁愿自己编写。有人对此功能有经验吗?n (n − 1 )/ 2n×nñ×ñn \times nn(n−1)/2ñ(ñ-1个)/2n(n-1)/2compositions::MahalanobisDist()rgl
18 r  algorithms  distance 

3
在实践中计算Kullback-Leibler散度?
我使用KL散度作为2 之间差异的量度。米。f 。p.m.f.p.m.f.p.m.f. PPP和QQQ。 DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) 如果P(Xi)=0P(Xi)=0P(X_i)=0 那么我们可以轻松地计算出 P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 但是,如果且Q (X i)= 0,则 如何计算P (X i)l n ( Q (X i))P(Xi)≠0P(Xi)≠0P(X_i)\ne0Q(Xi)=0Q(Xi)=0Q(X_i)=0P(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

3
Kullback-Leibler(KL)散度的最大值是多少
我将在我的python代码中使用KL散度,并获得了本教程。 在该教程中,实现KL散度非常简单。 kl = (model * np.log(model/actual)).sum() 据我所知,的概率分布model和actual应<= 1。 我的问题是,k的最大界限/最大可能值是多少?我需要知道我代码中的最大界限,即kl distance的最大可能值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.