量化两个数据集之间的相似性


12

摘要:试图找到最佳方法,使用一个值总结两个对齐的数据集之间的相似性。

详细资料

我的问题最好用图表来解释。下图显示了两个不同的数据集,每个数据集都标有nfnr。沿x轴的点表示进行测量的位置,而y轴上的值表示结果的测量值。

对于每个图,我想要一个数字来总结每个测量点的相似度nfnr值。在此示例中,从视觉上看,第一张图的结果与第二张图的结果不太相似。但是我还有很多其他数据,差异不那么明显,因此能够对此进行定量排名将很有帮助。

我认为可能存在通常使用的标准技术。搜索统计相似性会得出很多不同的结果,但是我不确定最好选择什么,或者我是否准备好解决我的问题。因此,我认为在有一个简单答案的情况下,这个问题可能值得在这里提出。

在此处输入图片说明


1
您可能需要看一下列出了大量措施的本文。(users.uom.gr/~kouiruki/sung.pdf)如果该链接不起作用,则将其称为“国际数学模型和方法杂志”中Sung-Hyuk Cha的“概率密度函数之间距离/相似性度量的综合调查”在《应用科学》杂志上,该书回顾了许多相似性度量。
arie64 '16

动态时间规整用于测量两个时间序列之间的相似性。这种技术可以在这里完成任务。检查此链接:en.wikipedia.org/wiki/Dynamic_time_warping
阿曼·阿南德

Answers:


6

2条曲线之间的面积可能会给您带来不同。因此sum(nr-nf)(所有差之和)将是2条曲线之间面积的近似值。如果要使其相对,可以使用sum(nr-nf)/ sum(nf)。这些将为您提供一个值,指示每个图的2条曲线之间的相似性。

编辑:以上差异之和的方法将是有用的,即使这些是分开的点或观察值而不是连接的线或曲线,但在这种情况下,差异的平均值也可以作为指标,并且可能会更好,因为它将考虑到观察数。


1
我将尝试一下,看看它是如何工作的。我仍然希望能够将其与更正式的技术联系起来。我一直在阅读有关欧几里得距离的知识,似乎与此处的技术非常相似。另外,即使我的图形具有连接线,我也只在乎各个点。我并不是真正比较曲线,只是比较测量值。我不知道我的问题是否很清楚。
2015年

即使这些点未连接,它也应该起作用。
rnso 2015年

1

您需要更多地定义“相似性”的含义。大小重要吗?还是只有形状?

如果仅考虑形状,则需要通过其最大值对两个时间序列进行归一化(因此它们的范围均为0到1)。

如果您正在寻找线性相关性,则简单的皮尔逊相关性就可以正常工作-这实际上测量了协方差。

例如,还有其他技术可以使线或多项式适合时间序列(实质上是对其进行平滑),然后比较平滑多项式。

如果您正在寻找周期性相似性(即时间序列具有一定的正弦曲线成分或季节性),请考虑将时间序列分解成趋势,并首先对季节进行分解。或使用类似FFT的方法在频域中比较数据。

那就是我所知道的,而没有更多地定义“相似”应该是什么。希望能帮助到你。


0

您可以对每个测量点使用(nr-nf),数值(绝对值)越小,该值越相似。不完全是最科学的方法,请原谅我,我对此材料没有真正的正规培训。如果您只是在寻找视觉效果的数字表示形式,那就应该这样做。


1
感谢您的建议。我也考虑过这一点,但问题是它将由绝对差异而不是相对差异来加权。在示例中,我包括了更多相似的数据集,它们的绝对值也较小,但是如果情况相反,则使用此技术可能会得到错误的解释。我需要总结相对相似/差异而不是绝对差异。
加布里埃尔南区

(nr-nf)/ nf可以工作吗?那会让你变得亲戚。我真的很想知道真正的答案,因为我自己正在处理相同的情况。
Mike G

如果它们都处于可比较的规模,那么您的相似对象通常较低的事实与相对价值无关,而是与相似性的解释有关。如果第二张图中的值在101-104之间,是否会改变它们相似性的解释?如果是这样,您需要解释一下。关于y变量到底是什么的更多细节将是必要的。
约翰

@John这是一个好点。我想我需要再考虑一下。y的值是基准的加速值,我正在尝试比较各种不同配置之间的相似性。因此,我想这个答案中的建议可能会起作用,我可能会尝试看看数字是什么样子。我还是希望使用一种更正式地被接受的统计技术(如果我的问题有一种方法)。
2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.