从Linux中的文件中获取最常见的出现行

我有一个文本文件，每行包含多个单词。
如何找到文件中出现频率最高的12行并显示？
我对脚本命令不是很好。

如果我能够获得命令和解释，以便我能够理解如何使用它并扩展我对命令的知识，那将是很棒的！

— 吉姆
source

stackoverflow.com/questions/16922357/...

— 西罗桑蒂利冠状病毒审查六四事件法轮功

您可以使用内置命令轻松完成此操作。

馈送文件的内容sort。下一步需要这个。
这去了uniq -c。它将计算每行的唯一出现次数。如果相似的线不相邻，那么如果不先进行排序就无法工作。
然后，将其提供给另一个sort，后者现在以相反的顺序（r）并根据输出的数字（n）解释进行排序uniq。我们需要数字选项，因为否则，数字前面的空格会导致错误的结果（有关更多信息，请参见GNU sort的帮助）。
最后，仅显示带有的前十二行head。

该命令将是：

sort test.txt | uniq -c | sort -rn | head -n 12

此处的输出包含实际发生的次数。

要仅获取原始行列表，可以将输出传递给sed：

sort test.txt | uniq -c | sort -rn | head -n 12 | sed -E 's/^ *[0-9]+ //g'

例：

I'm not there very often
I'm not there very often
Look at me!
Look at me!
Look at me!
Hello there!
Hello there!
Hello there!
Hello there!
Hello there!
Hello there!

第一个命令的输出，但只能从中选择2个head：

6 Hello there!
3 Look at me!

第二个命令的输出：

Hello there!
Look at me!

— slhck
source

您必须先对其进行排序，然后再使用uniq。

— 赛勒斯

@slhck：谢谢！一个问题：sort -rn使用由产生的每一行旁边的数字作为排序字段，以相反的顺序进行排序uniq -c？我认为k1将使用类似的东西

— Jim

@Jim完全正确。r反转，并n根据产生的数字进行数字排序uniq。你到底是什么意思k1？

— slhck 2012年

@slhck：我试图使用找出这些命令，man并且我了解-k必须使用某种语法来选择要进行排序的字段

— Jim

@cYrus：事先需要排序的最极端情况是什么？

— 吉姆（Jim）

如果您的发行版具有logtop

cat your_file | logtop

如果您的文件像日志文件一样不断增长，请尝试：

tail -f your_log | logtop

— 朱利安·帕拉德（Julien Palard）
source