在Bash中循环浏览文件内容


1387

我如何遍历文本文件的每一行 Bash

使用此脚本:

echo "Start!"
for p in (peptides.txt)
do
    echo "${p}"
done

我在屏幕上得到以下输出:

Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

(后来我想做些更复杂的事情 $p不只是输出到屏幕上。)


环境变量SHELL是(来自env):

SHELL=/bin/bash

/bin/bash --version 输出:

GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version 输出:

Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

肽文件.txt文件包含:

RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

19
哦,我发现这里发生了很多事情:所有评论都被删除,问题被重新打开。仅供参考,在逐行读取文件中将值分配给变量的可接受答案以一种规范的方式解决了该问题,在此处应优先考虑该可接受的答案。
fedorqui'SO停止伤害

Answers:


2089

一种方法是:

while read p; do
  echo "$p"
done <peptides.txt

正如评论中指出的那样,这样做的副作用是修剪前导空白,解释反斜杠序列以及在缺少最后一个换行符的情况下跳过最后一行。如果有这些问题,可以执行以下操作:

while IFS="" read -r p || [ -n "$p" ]
do
  printf '%s\n' "$p"
done < peptides.txt

如果循环体可以从标准输入中读取异常,则可以使用其他文件描述符打开文件:

while read -u 10 p; do
  ...
done 10<peptides.txt

在这里,10只是一个任意数字(不同于0、1、2)。


7
我应该如何解释最后一行?文件peptides.txt是否重定向到标准输入,并以某种方式重定向到整个while块?
Peter Mortensen

11
“将peptides.txt插入此while循环中,因此'read'命令需要消耗一些东西。” 我的“ cat”方法与此类似,将命令的输出发送到while块中以供“读取”使用,只有它启动另一个程序才能完成工作。
沃伦·杨

8
此方法似乎跳过了文件的最后一行。
xastor

5
双引号!回显“ $ p”和文件..相信我,如果你不这样做,它将咬你!!!我知道!大声笑
Mike Q

5
如果两个版本都未以换行符终止,则它们均无法读取最后一行。始终使用while read p || [[ -n $p ]]; do ...
dawg

447
cat peptides.txt | while read line 
do
   # do something with $line here
done

和单线变体:

cat peptides.txt | while read line; do something_with_$line_here; done

如果没有尾随换行,这些选项将跳过文件的最后一行。

您可以通过以下方法避免这种情况:

cat peptides.txt | while read line || [[ -n $line ]];
do
   # do something with $line here
done

68
通常,如果您仅使用一个参数使用“ cat”,那么您所做的事情是错误的(或次优)。
JesperE

27
是的,它的效率不如Bruno,因为它不必要地启动了另一个程序。如果效率很重要,那就按布鲁诺的方法去做。我记得我的方式,因为您可以将其与其他命令一起使用,而“重定向自”语法无效。
沃伦·杨

74
这还有另一个更严重的问题:因为while循环是管道的一部分,它在子shell中运行,因此退出时,循环内设置的所有变量都会丢失(请参阅bash-hackers.org/wiki/doku。 php / mirroring / bashfaq / 024)。这可能非常烦人(取决于您在循环中要执行的操作)。
戈登·戴维森

25
我之所以使用“ cat file |”作为许多命令的开头,纯粹是因为我经常使用“ head file |”作为原型。
mat kelcey 2014年

62
这可能效率不高,但是比其他答案更具可读性。
Savage Reader

144

选项1a: While循环:一次一行:输入重定向

#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do 
    echo $p
done < $filename

选项1b: While循环:一次一行:
打开文件,从文件描述符(在本例中为文件描述符#4)读取。

#!/bin/bash
filename='peptides.txt'
exec 4<$filename
echo Start
while read -u4 p ; do
    echo $p
done

对于选项1b:是否需要再次关闭文件描述符?例如,该循环可能是一个内部循环。
Peter Mortensen

3
文件描述符将在进程退出时清除。可以执行显式关闭以重用fd编号。要关闭fd,请使用带有&-语法的另一个exec,如下所示:exec 4 <&
Stan Graves

1
谢谢你的选项2。我遇到了选项1的巨大问题,因为我需要在循环中从stdin读取数据。在这种情况下,选项1不起作用。
masgo 2014年

4
您应该更清楚地指出,强烈建议不要使用选项2 。@masgo选项1b在这种情况下应该可以使用,并且可以通过替换done < $filenamedone 4<$filename(与选项1a中的输入重定向语法结合使用(如果要从命令参数中读取文件名,则很有用,在这种情况下,您可以替换$filename$1)。
Egor Hans

我需要在循环中tail -n +2 myfile.txt | grep 'somepattern' | cut -f3运行ssh命令时循环文件内容,例如,(消耗标准输入);选项2这里似乎是唯一的方法?
user5359531

85

这并不比其他答案更好,但是是在没有空格的文件中完成工作的另一种方法(请参见注释)。我发现我经常需要一线来挖掘文本文件中的列表,而无需使用单独的脚本文件的额外步骤。

for word in $(cat peptides.txt); do echo $word; done

这种格式使我可以将所有内容放在一个命令行中。将“ echo $ word”部分更改为所需的内容,然后可以发出多个由分号分隔的命令。下面的示例将文件的内容用作您可能编写的其他两个脚本的参数。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者,如果您打算像流编辑器(学习sed)那样使用它,则可以将输出转储到另一个文件,如下所示。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些内容,因为我使用的是文本文件,每行只有一个单词。(请参阅注释)如果您有不想分割单词/行的空格,它会变得有些难看,但是相同的命令仍然可以按如下方式工作:

OLDIFS=$IFS; IFS=$'\n'; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉外壳程序仅在换行符上分割而不是在空格上分割,然后将环境返回到以前的状态。此时,您可能需要考虑将其全部放入shell脚本中,而不是将其全部压缩到一行中。

祝你好运!


6
bash $(<peptides.txt)也许更优雅,但是它仍然是错误的,Joao所说的正确,您正在执行命令替换逻辑,其中空格或换行符是同一回事。如果一行中有空格,则循环针对该行执行TWICE或更多。因此,您的代码应正确读取:$(<peptides.txt)中的单词;....如果您知道事实没有空格,那么一行等于一个单词,您就可以了。
maxpolk

2
@ JoaoCosta,maxpolk:我没考虑过的好点。我已经编辑了原始帖子以反映它们。谢谢!
mayyypile 2013年

2
使用for使输入标记/行经受外壳扩展,这通常是不希望的。尝试执行以下操作:for l in $(echo '* b c'); do echo "[$l]"; done-如您所见,*-即使原来是带引号的文字- 也会扩展到当前目录中的文件。
mklement0

2
@dblanchard:最后一个使用$ IFS的示例应忽略空格。您是否尝试过该版本?
mayypile 2015年

4
解决了关键问题后,此命令的方式变得更加复杂,很好地说明了为什么使用for迭代文件行是一个坏主意。另外,@ mklement0提到的扩展方面(即使可以通过引入转义的引号来绕开它,这又使事情变得更复杂且可读性更差)。
Egor Hans,

69

其他答案未涵盖的其他内容:

从定界文件读取

# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
  # process the fields
  # if the line has less than three fields, the missing fields will be set to an empty string
  # if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出中读取

while read -r line; do
  # process the line
done < <(command ...)

这种方法比command ... | while read -r line; do ...因为它的while循环在当前外壳程序中运行而不是在子外壳程序中运行(后者更好)更好。参见相关文章不记得在while循环内修改的变量

例如,从空分隔的输入中读取 find ... -print0

while read -r -d '' line; do
  # logic
  # use a second 'read ... <<< "$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

相关阅读: BashFAQ / 020-如何查找和安全处理包含换行符,空格或两者的文件名?

一次读取多个文件

while read -u 3 -r line1 && read -u 4 -r line2; do
  # process the lines
  # note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

根据这里@chepner的回答

-u是bash扩展。为了实现POSIX兼容性,每个调用看起来像read -r X <&3

将整个文件读入数组(Bash版本低于4)

while read -r line; do
    my_array+=("$line")
done < my_file

如果文件以不完整的行结尾(末尾缺少换行符),则:

while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

将整个文件读入数组(Bash 4x和更高版本)

readarray -t my_array < my_file

要么

mapfile -t my_array < my_file

然后

for line in "${my_array[@]}"; do
  # process the lines
done

相关文章:


请注意,不是command < input_filename.txt您总是可以这样做,input_generating_command | command或者command < <(input_generating_command)
masterxilo

1
感谢您将文件读入数组。正是我需要的,因为我需要每一行解析两次,增加新的变量,做一些验证等等
frank_108

45

使用while循环,如下所示:

while IFS= read -r line; do
   echo "$line"
done <file

笔记:

  1. 如果设置不IFS正确,则会缩进。

  2. 您几乎应该始终将-r选项与read一起使用。

  3. 不要用 for


2
为什么-r选择?
David C. Rankin

2
@ DavidC.Rankin -r选项可防止反斜杠解释。Note #2是对链接进行了详细说明的地方
Jahid

将其与另一个答案中的“ read -u”选项结合使用,则非常完美。
Florin Andrei

@FlorinAndrei:上面的示例不需要该-u选项,您是否在谈论另一个示例-u
Jahid

浏览了您的链接,感到惊讶的是,没有任何答案可以简单地在Note 2中链接您的链接。该页面提供了您需要了解的有关该主题的所有信息。还是不鼓励仅链接的答案?
Egor Hans

14

假设您有以下文件:

$ cat /tmp/test.txt
Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR

有四个元素会改变许多Bash解决方案读取的文件输出的含义:

  1. 空白行4;
  2. 两条线上的前导或尾随空格;
  3. 保持各行的含义(即每行都是一条记录);
  4. 线路6未以CR终止。

如果要文本文件一行一行地包括空白行和不带CR的终止行,则必须使用while循环,并且必须对最后一行进行替代测试。

以下是可能更改文件的方法(与cat返回内容相比):

1)丢失最后一行以及前导和尾随空格:

$ while read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'

(如果while IFS= read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt改为这样做,则保留前导和尾随空格,但是如果最后一行没有以CR终止,则仍然会丢失最后一行)

2)使用with进行流程替换cat将一口气读取整个文件,并且失去了各行的含义:

$ for p in "$(cat /tmp/test.txt)"; do printf "%s\n" "'$p'"; done
'Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR'

(如果"$(cat /tmp/test.txt)文件中逐个读取文件而不是一个文件,则可能不是目的。)


逐行读取文件并保留所有间距的最可靠,最简单的方法是:

$ while IFS= read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'    Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space    '
'Line 6 has no ending CR'

如果要去除前导和交易空间,请删除IFS=零件:

$ while read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'
'Line 6 has no ending CR'

没有终止(文本文件\n,而相当普遍,被认为是POSIX断下。如果你能在后指望\n你不需要|| [[ -n $line ]]while循环中。)

有关BASH常见问题的更多信息


13

如果您不希望换行符打乱您的阅读,请使用-

#!/bin/bash
while IFS='' read -r line || [[ -n "$line" ]]; do
    echo "$line"
done < "$1"

然后以文件名作为参数运行脚本。


4
#!/bin/bash
#
# Change the file name from "test" to desired input file 
# (The comments in bash are prefixed with #'s)
for x in $(cat test.txt)
do
    echo $x
done

7
这个答案需要mayyypile答案中提到的警告,如果任何行包含shell元字符(由于未引用“ $ x”),它可能会严重失败。
Toby Speight 2015年

7
我真的很惊讶,人们还没有想出通常不喜欢的台词 ...
Egor Hans

3

这是我真实的示例,该示例如何循环另一个程序输出的行,检查子字符串,从变量中删除双引号,在循环外使用该变量。我想很多人迟早会问这些问题。

##Parse FPS from first video stream, drop quotes from fps variable
## streams.stream.0.codec_type="video"
## streams.stream.0.r_frame_rate="24000/1001"
## streams.stream.0.avg_frame_rate="24000/1001"
FPS=unknown
while read -r line; do
  if [[ $FPS == "unknown" ]] && [[ $line == *".codec_type=\"video\""* ]]; then
    echo ParseFPS $line
    FPS=parse
  fi
  if [[ $FPS == "parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
    echo ParseFPS $line
    FPS=${line##*=}
    FPS="${FPS%\"}"
    FPS="${FPS#\"}"
  fi
done <<< "$(ffprobe -v quiet -print_format flat -show_format -show_streams -i "$input")"
if [ "$FPS" == "unknown" ] || [ "$FPS" == "parse" ]; then 
  echo ParseFPS Unknown frame rate
fi
echo Found $FPS

在循环外声明变量,设置值并在循环外使用它需要完成<<<“ $(...)”语法。应用程序需要在当前控制台的上下文中运行。命令周围的引号使输出流换行。

子字符串的循环匹配然后读取name = value对,拆分last =字符的右侧部分,删除第一个引号,删除最后一个引号,我们有一个干净的值可用于其他地方。


3
虽然答案是正确的,但我确实理解它是如何在这里结束的。基本方法与许多其他答案提出的方法相同。另外,它完全淹没在您的FPS示例中。
Egor Hans,

0

这来得很晚了,但是我以为这可能会对某人有所帮助,所以我添加了答案。同样,这可能不是最佳方法。head该命令可以与自-n变量一起使用以从文件开头读取n行,同样,该tail命令也可以从底部开始读取。现在,要从文件中获取第n行,我们需要n行,通过管道将数据通过管道传输到仅尾部的1行。

   TOTAL_LINES=`wc -l $USER_FILE | cut -d " " -f1 `
   echo $TOTAL_LINES       # To validate total lines in the file

   for (( i=1 ; i <= $TOTAL_LINES; i++ ))
   do
      LINE=`head -n$i $USER_FILE | tail -n1`
      echo $LINE
   done

1
不要这样 循环在线路号码和方式获取每个单独的线sedhead+ tail令人难以置信的效率低下,当然求你为什么不干脆用另一种解决方案这里的问题。如果您需要知道行号,请在while read -r循环中添加一个计数器,或用于nl -ba在循环前为每行添加一个行号前缀。
三点

-1

@Peter:这可能为您解决-

echo "Start!";for p in $(cat ./pep); do
echo $p
done

这将返回输出-

Start!
RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL


3
这个答案违反了上述良好答案所设定的所有原则!
codeforester

3
请删除此答案。
dawg

3
现在,伙计们,不要夸张。答案是不好的,但它似乎有效,至少对于简单的用例而言。只要提供了答案,那么给出错误的答案就不会剥夺答案的存在权。
埃格·汉斯

3
@EgorHans,我强烈不同意:答案是教人们如何编写软件。教人们以您知道的方式做事对他们有害,而使用他们的软件的人(引入错误/意外行为等)在故意地伤害他人。在精心设计的教学资源中,没有一个已知的有害答案是“存在的权利”(而要正确地解决这个问题,就是我们在投票和举报的人们应该在这里做的事情)。
查尔斯·达菲
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.