我有超过10000张图片,其中约2000张是其他格式的副本(例如JPEG,PNG,GIF)。这两个数字每天都在增加。我需要删除这些重复项,为此,我必须知道如何首先找到它们。
我的第一个想法是检查图像像素并查找在相同坐标中具有相同颜色像素的其他图片。但是此选项并不总是有效。假设我搜索重复项。至于可搜索对象,我选择一个8位PNG文件。它会找到该图像的所有副本,但只会找到8位PNG,有时是8位GIF,很少是JPEG(因为我想是图像算法吗?)。
我的第二个想法是复制所有这些图像,并在严格的两种颜色的调色板(例如,黑白)中对它们重新着色,并执行与上述相同的扫描。JPEG图像又不是100%与PNG或GIF格式相似(与上述相同的原因?)。
第三个想法是减少图像需要熟悉的百分比,增加颜色可以变化的百分比,从而导致不必要的图像去除...
有什么想法吗?