文件中的最长行


198

我正在寻找一种查找文件中最长行的长度的简单方法。理想情况下,它将是一个简单的bash shell命令,而不是脚本。

Answers:


270

使用wc(GNU coreutils)7.4:

wc -L filename

给出:

101 filename

56
请注意,只有-c -l -m -w选项是POSIX。-L是GNUism。
詹斯

4
还要注意,结果-L取决于语言环境。有些字符(在字节和多字节意义上)甚至可能根本不算在内!
Walter Tross 2014年

7
OS X:wc: illegal option -- L usage: wc [-clmw] [file ...]
雨果

12
OS X:使用自制软件,对GNU字数计数使用gwc gwc -L文件名
kaycoder '16

3
@xaxxon gwccoreutils公式中,该公式将安装所有带有g前缀的GNU coreutils 。
gsnedders '17

100
awk '{print length, $0}' Input_file |sort -nr|head -1

供参考:查找文件中最长的行


12
为什么需要额外的cat命令?只需直接将文件名作为awk的参数即可。
Thomas Padron-McCarthy

18
@托马斯 将其表示为管道比将文件指定为选项更为通用。就我而言,我将使用从数据库查询通过管道传递的输出。
2009年

1
这是最好的答案,因为它是POSIX(嗯,可以在OS X上使用)
MK。

5
@MK。但是,此方法的行数为O(n * log(n)),而Ramon的方法为O(n)。
jub0bs 2015年

2
对大型文件进行排序可能需要数小时才能完成,并且要消耗千兆字节,甚至数TB的临时空间,具体取决于输入文件的大小。考虑存储最长的长度及其相关记录,然后从END{}块中打印出来。
Luv2code

67
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }'  YOURFILE 

3
awk '{ if (length($0) > max) max = length($0) } END { print max }' YOURFILE
ke20 2013年

5
awk 'length>max{max=length}END{print max}' file
克里斯·西摩

8
该答案给出文件中最长行的文本,而不是其长度。即使问题要求长度,我还是将其保留原样,因为我怀疑这对于只是查看标题而来此页面的人很有用。
拉蒙2014年

3
使用WC可以轻松计数。– awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE | wc -c
尼克

1
您能否解释一下这是如何工作的?
Lnux

23

纯粹出于娱乐和教育目的,纯POSIX shell解决方案,无需浪费时间使用cat,也无需派生使用外部命令。将filename作为第一个参数:

#!/bin/sh

MAX=0 IFS=
while read -r line; do
  if [ ${#line} -gt $MAX ]; then MAX=${#line}; fi
done < "$1"
printf "$MAX\n"

6
无法(通过cat)从std中读取内容实际上会降低其效用,而不会增强它。
2011年

4
好吧,OP明确表示“文件”,没有< "$1"它,可以很容易地从标准输入中读取。对其进行测试$#甚至可以同时完成这两个操作,具体取决于args的数量。在这个世界上,没有必要的是无用的猫。应该从一开始就对新手进行相应的培训。
詹斯

7
这应该被评为更高,这是用户要求的。添加函数longest(){MAX = 0 IFS =而读取-r行;如果[$ {#line} -gt $ MAX];然后MAX = $ {#line}; fi完成echo $ MAX}到您的.bashrc,您就可以运行longest < /usr/share/dict/words
skierpage 2012年


11
perl -ne 'print length()."  line $.  $_"' myfile | sort -nr | head -n 1

打印长度,行号和最长行的内容

perl -ne 'print length()."  line $.  $_"' myfile | sort -n

打印所有行的排序列表,包括行号和长度

.是连接运算符-在length()
$.是当前行号
$_是当前行之后在此处使用


要求对文件进行排序..即使对于中等大小的文件,性能也很糟糕,不适用于较大的文件。wc -L到目前为止,是我看到的最好的解决方案。
塔加尔

使用550MB 6,000,000行文本文件作为源(英国国家语料库),perl解决方案花费了12秒,而wc -L花费了3秒
Chris Koknat

wc -L只是计数数字记录-这个Q将要找到最长的行-不太一样,所以这不是准确的比较。
塔加尔

6

在上述示例中,重要的一点被忽略了。

以下2个示例计算扩展标签

  wc -L  <"${SourceFile}" 
# or
  expand --tabs=8 "${SourceFile}" | awk '{ if (length($0) > max) {max = length($0)} } END { print max }'

以下2个计数未展开的标签。

  expand --tabs=1 "${SourceFile}" | wc -L 
# or
  awk '{ if (length($0) > max) {max = length($0)} } END { print max }' "${SourceFile}"

所以

              Expanded    nonexpanded
$'nn\tnn'       10            5

5

看起来所有答案都没有给出最长的线的行号。以下命令可以给出行号和大致长度:

$ cat -n test.txt | awk '{print "longest_line_number: " $1 " length_with_line_number: " length}' | sort -k4 -nr | head -3
longest_line_number: 3 length_with_line_number: 13
longest_line_number: 4 length_with_line_number: 12
longest_line_number: 2 length_with_line_number: 11

好了 那使我感到讨厌而冗长的评论。多谢,伙计。
菲利普(Philip)

您可以更进一步,消除“猫”现象。awk '{print length}' test.txt | sort -rn | head -1。如果您也需要实际行的内容,则 awk '{print length,$0}' test.txt | sort -k1 -rn| head -1
kakoma

3

在perl中:

perl -ne 'print ($l = $_) if (length > length($l));' filename | tail -1

这只会打印行,而不会打印长度。



2

只是为了好玩,这是Powershell版本:

cat filename.txt | sort length | select -last 1

并获得长度:

(cat filename.txt | sort length | select -last 1).Length

4
因此,即使Powershell程序员也必须使用无用的猫?
詹斯

1
@Jens不确定我是否了解您,Powershell中的cat只是Get-Content的别名,其行为取决于上下文和提供程序。
eddiegroves 2011年

可以sort使用filename.txt作为参数吗?那只猫就没用了,因为sort length filename.txt | select -last 1避免了仅复制数据的管道和进程。
詹斯

附带说明,PowerShell到底是什么?我以为Powershell实用程序用于Windows机器?
富兰克林

4
@Jens,数据通常来自流而不是文件名。这是标准的Unix工具习惯用法。
安德鲁·普罗克

2

我在Unix环境中,使用大小为GB的压缩文件。我使用2 GB压缩文件(记录长度为2052)测试了以下命令。

  1. zcat <gzipped file> | wc -L

  1. zcat <gzipped file> | awk '{print length}' | sort -u

时代在变

  1. 117秒

  2. 109秒

这是大约运行10次后的脚本。

START=$(date +%s) ## time of start

zcat $1 |  wc -L

END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"

START=$(date +%s) ## time of start

zcat $1 |  awk '{print length}' | sort -u

END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"

我不确定这是否是正确的比较,我会担心该awk版本会从wc首先运行的版本的磁盘块缓存中受益(并为磁盘缓存添加种子)。您将不得不随机分配谁在十次运行中首先被调用的顺序,以使该参数生效。
规范克里斯

1

主题变化。

这一行将显示所有行,该行具有在文件中找到的最长行的长度,并保持它们在源代码中出现的顺序。

FILE=myfile grep `tr -c "\n" "." < $FILE | sort | tail -1` $FILE

所以我的文件

x
mn
xyz
123
abc

会给

xyz
123
abc

0

如果您使用的是MacOS,但出现此错误: wc: illegal option -- L您不需要安装GNU即可。

如果您只想获取文件最长行中的字符数,并且您正在使用OS X,请运行:

awk '{print length}' "$file_name" | sort -rn | head -1

像这样的东西;

echo "The longest line in the file $file_name has $(awk '{print length}' "$file_name" | sort -rn | head -1) characters"

输出:

The longest line in the file my_file has 117 characters

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.