Questions tagged «distance»

分布或变量之间的距离的度量,例如n空间中点之间的欧几里得距离。

2
最大平均差异(距离分布)
我有两个数据集(源数据和目标数据),它们遵循不同的分布。我正在使用MMD(这是一种非参数的距离分布)来计算源数据和目标数据之间的边际分布。 源数据,Xs 目标数据,Xt 适应矩阵A *投影数据,Zs = A'* Xs和Zt = A'Xt * MMD =>距离(P(Xs),P(Xt))= | 平均值(A'Xs)-平均值(A'Xt )| 这意味着:原始空间中源数据和目标数据之间的分布距离等于嵌入式空间中投影源数据和目标数据的均值之间的距离。 我对MMD的概念有疑问。 在MMD公式中,为什么可以通过计算潜在空间中的距离来测量原始空间中的分布距离? 谢谢

3
如何测量两个频率分布之间的统计“距离”?
我正在执行一个数据分析项目,其中涉及调查一年中网站的使用时间。我想做的是比较使用模式的“一致性”,例如,与每周使用1小时一次或每次使用10分钟一次的模式有多接近6每周次数。我知道可以计算的几件事: 香农熵:衡量结果中的“确定性”相差多少,即概率分布与均匀分布的相差多少? Kullback-Liebler散度:测量一个概率分布与另一个概率分布有多少不同 Jensen-Shannon散度:与KL 散度相似,但在返回有限值时更有用 Smirnov-Kolmogorov检验:一种用于确定连续随机变量的两个累积分布函数是否来自同一样本的检验。 卡方检验:一种拟合优度检验,用于确定频率分布与预期频率分布的差异程度。 我想做的是比较分布中实际使用时间(蓝色)与理想使用时间(橙色)的差异。这些分布是离散的,下面的版本被归一化为概率分布。横轴表示用户在网站上花费的时间(以分钟为单位);这已记录在一年中的每一天;如果用户根本没有上过网站,则该时间为零,但已从频率分布中删除。右边是累积分布函数。 我唯一的问题是,即使我可以使JS-divergence返回一个有限值,但当我查看不同的用户并将其使用分布与理想用户进行比较时,我得到的值几乎是相同的(因此这不是一个好方法。表示两者之间的差异)。同样,当归一化为概率分布而不是频率分布时,会丢失大量信息(例如,学生使用该平台50次,则应垂直缩放蓝色分布,以使长条的总长度等于50,并且橙色栏的高度应为50,而不是1)。我们所说的“一致性”的部分原因是用户访问网站的频率是否会影响他们从网站中获得多少收益;如果他们失去访问该网站的次数,那么比较概率分布就有点不确定了;即使用户持续时间的概率分布接近“理想”使用情况,该用户在一年中可能只使用了1周的平台,这可能不是很一致。 是否有比较完善的技术来比较两个频率分布并计算某种度量,以表征它们的相似度(或相异度)?

1
距离相关性有直观的表征吗?
我一直在注视着维基百科页面上的距离相关性,该距离相关性似乎由如何计算来表征。虽然我可以进行计算,但仍在努力寻找距离相关量度以及为什么计算看起来像它们一样。 是否存在(或许多)更直观的距离相关特征,可以帮助我理解其测量结果? 我意识到要求直觉有点含糊,但是如果我知道我要的是哪种直觉,我可能一开始就不会要求。对于两个随机变量之间的距离相关情况(即使在两个随机向量之间定义了距离相关)的情况,我也很满意。

5
如何将距离(欧几里得)转换为相似度分数
我正在使用表示聚类以聚类说话者的声音。当我将话语与聚集的扬声器数据进行比较时,我得到(基于欧几里得距离)平均失真。该距离可以在范围内。我想将此距离转换为相似度得分。请指导我如何实现这一目标。ķkk[ 0 ,1 ][ 0 ,∞ ][0,∞][0,\infty][ 0 ,1 ][0,1][0,1]


4
这些基于相关性的距离是否满足三角不等式?
对于分层聚类,我经常看到以下两个“量度”(它们并不是完全正确),用于测量两个随机变量和之间的距离: \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1(X,Y)&= 1- | \ Cor(X,Y)|,\\ d_2(X,Y)&= 1-(\ Cor(X,Y))^ 2 \ end {align} 中的一个一个满足三角不等式?如果是这样,除了进行暴力计算之外,我还应该证明它吗?如果它们不是指标,那么简单的反例是什么?XXXYYY\newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align}

4
行规范化的目的是什么
我理解列归一化背后的原因,因为即使没有按相同的比例尺对特征进行加权,也可以使特征得到相等的加权-但是,在最近的相邻文献中,列和行均被归一化。什么是行归一化/为什么要对行进行归一化?具体来说,行归一化的结果如何影响行向量之间的相似度/距离?


1
距离差的统计意义
我在二维网格上有3000多个矢量,具有近似均匀的离散分布。一些向量对满足一定条件。注意:该条件仅适用于向量对,不适用于单个向量。我有大约1500个这样的对的列表,我们称其为组1。组2包含所有其他向量对。我想找出第1组中一对向量之间的距离是否明显小于两个向量之间的平均距离。我怎样才能做到这一点? 统计检验:中心极限定理适用于我的情况吗?也就是说,我可以采用距离样本的方法,并使用学生的t检验比较满足条件的样本的方法与不满足条件的样本的方法吗?否则,什么统计检验适用于此? 样本数量和样本数量:我知道这里有两个变量,对于两个组中的每一个,我需要获取n个大小为m的样本,并取每个样本的平均值。有没有选择n和m的原则方法?它们应该尽可能大吗?还是只要它们具有统计意义,就应该尽可能地少?这两个组的名称是否应该相同?还是对于包含更多向量对的第2组,它们应该更大?

2
有限的高斯混合与高斯之间的距离是多少?
假设我混合了有限数量的具有已知权重,均值和标准差的高斯。手段不平等。当然,由于力矩是组分力矩的加权平均值,因此可以计算出混合物的平均值和标准偏差。混合不是正态分布,但是离正态有多远? 上图显示了高斯混合物的概率密度,其中高斯混合物的均值由标准差(各组分的标准差)隔开,而一个高斯混合物的均值和方差相同。222 111 动机:我不同意一些懒惰的人关于他们尚未测量的一些实际分布,他们认为这些分布接近正常值,因为那样很好。我也很懒 我也不想测量分布。我想能够说出他们的假设是不一致的,因为他们说的是,高斯与不同均值的有限混合是不正确的高斯。我不仅要说尾巴的渐近形状是错误的,因为这些只是近似值,仅应在均值的几个标准偏差内合理地准确。我想说的是,如果这些分量被正态分布很好地近似,那么混合就不是,并且我想能够对此进行量化。 L1L1L^12221/41/41/4

1
当属性是名义的时,个人的最佳距离函数是什么?
我不知道在名义(无序分类)属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书,他们建议使用简单匹配功能,但有些书则建议我将标称值更改为二进制属性,并使用Jaccard系数。但是,如果名义属性的值不是2怎么办?如果该属性中有三个或四个值怎么办? 应该为名义属性使用哪个距离函数?

2
美世定理是否相反?
一位同事有一个功能sss,对我们来说,它是一个黑匣子。该函数测量两个对象的相似度s (a ,b )s(a,b)s(a,b)。 我们肯定知道sss具有以下属性: 相似性分数是介于0和1之间(含0和1)的实数。 只有自我相同的对象的分数才为1。因此s (a ,b )= 1s(a,b)=1s(a,b)=1意味着a = ba=ba=b,反之亦然。 我们保证。s (a ,b )= s (b ,a )s(a,b)=s(b,a)s(a,b) = s(b,a) 现在,他想使用需要距离作为输入的算法,并依赖于满足距离公理的输入。 我的想法是,我们可以将相似性分数视为RBF核的结果有一定距离(可以是欧几里得范数或其他距离),即可以用代数重新排列,并假设相似性分数指的是RBF内核用于某些(未知)坐标系中的一对点。 小号(X一世,XĴ)− r 日志小号(X一世,XĴ)------------√= 经验( - d(米一世,米Ĵ)2[R)= d(米一世,米Ĵ)s(xi,xj)=exp⁡(−d(mi,mj)2r)−rlog⁡s(xi,xj)=d(mi,mj) \begin{align} s(x_i,x_j) &= \exp\left(-\frac{d( m_i, m_j)^2}{r}\right) \\ \sqrt{-r \log s(x_i,x_j) } &= d(m_i,m_j) \\ \end{align} 其中是一些未知向量,和X α是感兴趣的对象,并且d是一段距离。米α∈ [Rñmα∈Rnm_\alpha …


3
使用哪个距离?例如,曼哈顿,欧几里得,布雷-柯蒂斯等
我不是社区生态学家,但是这些天我正在研究社区生态数据。 除了这些距离的数学运算之外,我无法理解的是每种距离的使用标准以及在何种情况下可以使用该距离。例如,对计数数据使用什么?如何将两个位置之间的倾斜角度转换为距离?还是两个地点的温度或降雨?每个距离的假设是什么,什么时候有意义?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.