我将引用作为文本文件包含很多条目,每个都有两个(或更多)字段。
第一列是参考的网址;第二栏是标题,标题可能会有所不同,具体取决于输入方式。对于可能不存在的第三字段相同。
我想识别但不删除具有相同的第一个字段(引用URL)的条目。我知道,sort -k1,1 -u
但是会自动(非交互地)删除除第一个匹配项之外的所有匹配项。有没有办法让我知道,以便我选择保留哪个?
在具有相同第一个字段(http://unix.stackexchange.com/questions/49569/
)的三行下面的摘录中,我要保留第二行,因为它具有其他标签(sort,CLI)并删除#1和#3行:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
是否有程序可帮助识别此类“重复项”?然后,我可以通过个人删除#1和#3行来进行手动清理?