Questions tagged «duplicate»


10
使用Shell脚本从字符串中删除所有重复的单词
我有一个像 "aaa,aaa,aaa,bbb,bbb,ccc,bbb,ccc" 我想从字符串中删除重复的单词,然后输出将像 "aaa,bbb,ccc" 我尝试过此代码源 $ echo "zebra ant spider spider ant zebra ant" | xargs -n1 | sort -u | xargs 使用相同的值可以正常工作,但是当我提供变量值时,它也会显示所有重复的单词。 如何删除重复的值。 更新 我的问题是如果用户相同,则将所有对应的值添加到单个字符串中。我有这样的数据-> user name | colour AAA | red AAA | black BBB | red BBB | blue AAA | blue AAA | red CCC | …

6
如何使用bash删除重复文件
我有一个包含重复文件的文件夹md5sum(md5在Mac上,按(在Mac上)文件),我想要一个克朗 计划删除所有找到的作业。 但是,我仍然坚持如何执行此操作。到目前为止,我有: md5 -r * | sort 输出如下内容: 04c5d52b7acdfbecd5f3bdd8a39bf8fb gordondam_en-au11915031300_1366x768.jpg 1e88c6899920d2c192897c886e764fc2 fortbourtange_zh-cn9788197909_1366x768.jpg 266ea304b15bf4a5650f95cf385b16de nebraskasupercell_fr-fr11286079811_1366x768.jpg 324735b755c40d332213899fa545c463 grossescheidegg_en-us10868142387_1366x768.jpg 3993028fcea692328e097de50b26f540 Soyuz Spacecraft Rolled Out For Launch of One Year Crew.png 677bcd6006a305f4601bfb27699403b0 lechaustria_zh-cn7190263094_1366x768.jpg 80d03451b88ec29bff7d48f292a25ce6 ontariosunrise_en-ca10284703762_1366x768.jpg b6d9d24531bc62d2a26244d24624c4b1 manateeday_row10617199289_1366x768.jpg ca1486dbdb31ef6af83e5a40809ec561 Grueling Coursework.jpg cdf26393577ac2a61b6ce85d22daed24 Star trails over Mauna Kea.jpg dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x768.jpg dc3ad6658d8f8155c74054991910f39c smoocave_en-au10358472670_1366x7682.jpg 如何根据文件的MD5进行处理以删除重复项?我并不在乎我保留哪个 “原始”字符,但我只想保留一个。 我是否应该以其他方式来处理这个问题?

8
按内容查找重复的PDF文件
有些期刊为每次下载生成不同的PDF。例如,APS 将时间和IP地址存储在PDF中。 或者有纸质版本带有超级链接,而文本版本带有文本引用。 如何通过使用开源软件在Linux系统上找到内容相等于90%的论文的重复下载? 我一直在考虑使用来将PDF文件转换为临时目录中的纯文本pdf2txt。然后,我可以过滤所有文件名,diff a b结果超过x行。但这一点都不优雅,并且在扫描出版物时会失败。期刊通常不提供旧出版物的OCR文本。 我也在compareImageMagick套件中进行了尝试,但是使用此工具无法处理多页PDF文件。 diffpdf 2.1.1在两个文件的GUI中做得很好,但我不知道如何将其应用于许多文件,并且在任何开放源代码许可下都无法使用最新版本。

6
使用basename解析文件中包含的路径列表
我正在运行Mac OSX,并尝试使用命令行查找具有相同名称的文件数。 我尝试使用以下命令: find ~ -type f -name "*" -print | basename | sort | uniq -d > duplicate_files 它不起作用!当我执行以下操作时: find ~ -type f -name "*" -print > duplicate_files 然后plicate_files确实包含了我所有文件的路径。因此,我认为问题出在basename-它不接受标准输入。然后,我尝试了以下操作: basename $(find ~ -type f -name "*" -print) > duplicate_files 但这又似乎不起作用。在互联网上搜索似乎并没有带来太多乐趣。任何想法最欢迎。

3
删除名称,大小和哈希不同的重复mp3
我有一个庞大的音乐库(全部为mp3),但是我的一些音乐几乎相同,但: 也许再过一两秒钟 与另一首歌曲约有97% 或另一个比特率。 有没有找到这些重复项的方法?如前所述,它们没有相同的大小,名称或SHA1-hash。
9 mp3  music  duplicate 

5
从包含时间戳的文件中删除重复的行
这个问题/答案为删除文件中的相同行提供了一些很好的解决方案,但是对我来说不起作用,因为否则重复的行都带有时间戳。 是否可以让awk在确定重复项时忽略一行的前26个字符? 例: [Fri Oct 31 20:27:05 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:10 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:13 2014] The Brown Cow Jumped Over The Moon [Fri Oct 31 20:27:16 2014] The Brown Cow Jumped Over The …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.