如何从文件中选择某些行（n，n + 4，n + 8，n + 12…）？

11

输入：

1
hgh
h2b
h4h
2
ok
koko
lkopk
3
uh
ju
nfjvn
4

预期产量：

因此，我需要在输出文件中仅具有文件的1、5、9、13值。这该怎么做？

text-processing

— 维鲁
source

2

另请参见：unix.stackexchange.com/questions/325985/…使用GNU sed，您可以执行sed -n '1~4p'

— Sundeep

1

相关：superuser.com/questions/396536/…–

— 朱利安·洛佩兹

28

使用AWK：

awk '!((NR - 1) % 4)' input > output

弄清楚这是如何工作的，留给读者练习。

— 斯蒂芬·基特
source

感谢您参加这个简短的awk课程！

— darxmurf

20

NR % 4 == 1会更清晰的IMO。

— 斯特凡Chazelas

12

同意@Stéphane; 这对我来说可能是有问题的，但是对于潜在的家庭作业问题，我会尝试使答案模糊不清...

— Stephen Kitt，

@StephenKitt混淆了您的答案？真？这不是这样做的地方。

— 数据

22

使用split （GNU coreutils）：

split -nr/1/4 input > output

-n生成CHUNKS输出文件

和CHUNKS作为

r/K/N 使用循环分配，仅将N的第K个输出到stdout，而不拆分行/记录

— 弗雷迪
source

1

精神震撼。这样的回答就是为什么我喜欢这个SE。谢谢！

— user1717828

21

使用GNU sed：

sed '1~4!d' < input > output

符合标准sed：

sed -n 'p;n;n;n' < input > output

使用1和4in $n和$i变量：

sed "$n~$i!d" # GNU only

awk -v n="$n" -v i="$i" 'NR >= n && (NR % i) == (n % i)'

— StéphaneChazelas
source

7

添加强制性的perl解决方案：

perl -ne 'print if $. % 4 == 1' input > output

— 乌特尔
source

4

Python版本，只是为了好玩：

with open('input.txt') as f:
    for i, line in enumerate(f.readlines()):
        if i%4 == 0:
            print(line.strip())

— 用户名
source

enumerate(f)应该能够在消耗更少内存的情况下完成这项工作

— iruvar，

@iruvar真整洁！以前从未意识到；将来会使用。随时将其编辑为该答案；我真的不会通过优化来维护它，因为其他Bash答案（尤其是这个）肯定是要走的路。

— user1717828

如果要使用readlines（因此将整个文件插入内存），则可以使用f.readlines()[::4]来获取第四行。这样就可以使用了print(''.join(f.readlines()[::4]))。

— 尼克·马特奥

3

POSIX sed：此方法使用posixly sed，因此可以在任何地方运行，或至少尊重posix的那些sed。

 $ sed -ne '
   /\n/!{
    H;s/.*//;x
   }

   :loop
       $bdone
       N;s/\n/&/4
       tdone
   bloop

   :done
   s/.//;P
 ' input.file

另一个是用于可扩展性目的的编程sed代码生成：

$ code=$(yes n | head -n 4 | paste -sd\; | sed s/n/p/)
$ sed -ne "$code" input.file

Perl：我们填充数组A直到大小为4。然后，我们打印其第一个元素并清除数组。

$ perl -pe '
   $A[@A] = @A ? <> : $_ while @A < 4;
   $_ = (splice @A)[0];
' input.file

— 拉克什·沙玛（Rakesh Sharma）
source

1

用scriptname filename skip（在您的情况下为4）调用它，方法是iter从文件的顶部拉线，然后仅输出最后一行。然后，它的增量iter由skips和重复只要值iter未超过lines在file。

#!/bin/bash
file="$1"
lines=`wc -l < "$file"`
skips="$2" || "4"
iter=1
while [ "$iter" -le "$lines" ]; do
 head "$file" -n $iter | tail -n 1
 iter=$(( $iter + $skips ))
done

— 瑞安·格兰奇
source

1

纯重击：

mapfile -t lines < input
for (( i=0; i < ${#lines[@]}; i+=4 ))
do printf "%s\n" "${lines[$i]}"
done

mapfile是Bash 4中添加的内置函数，它将标准输入读取到数组中，此处命名为lines，每个条目一行。该-t选项将删除最后的换行符。

如果要从第4行开始每四行打印一次，则可以使用mapfile的callback选项在一个命令中执行此操作，该命令-C每隔多行运行提供的代码，间隔为-c。当前数组索引和要分配的下一行作为参数提供给代码。

mapfile -t -c4 -C 'printf "%.0s%s\n"' < input

这使用printf内置的；格式代码%.0s禁止显示第一个参数（索引），因此仅打印该行。

您可以使用同一命令从行1、2或3开始打印每四行，但input在将行送入之前必须先添加3、2或1行mapfile，我认为这比它值得的麻烦多。。

这也适用：

mapfile -t lines < input
printf "%s%.0s%.0s%.0s\n" "${lines[@]}"

在这里，一次printf消耗数组的四个条目lines，只打印第一个，用跳过其他三个%.0s。我不喜欢这样，因为您必须手动调整格式字符串以获取不同的时间间隔或起点。

— 尼克·马特奥
source