我正在使用大致的代码从文本中删除停用词
我有以下
$ cat file
file
types
extensions
$ cat stopwords
i
file
types
grep -vwFf stopwords file
我期待结果:
extensions
但我得到了(我认为不正确)
file
extensions
就像file停用词文件中已跳过该词一样。现在,这里的凉爽一下:如果我修改停用字词档案,通过改变单个字/字母i在第一行,其他任何ASCII字母以外f,i,l,e,那么同样grep命令给我的不同,正确的结果extensions。
这是怎么回事,我该如何解决?
我在Mac OSX GNU bash 4.4.12(1)版上使用grep(BSD grep)2.5.1-FreeBSD
grep(GNU grep)3.1可以按预期工作。
—
Hauke Laging,
我已经复制了这个。另一个数据:在文件中将
—
JdeBP
i模式设置为第二个模式而不是第一个模式stopwords也将改变行为。
我无法使用本机
—
库萨兰达
grep或GNU grep3.1 在OpenBSD 6.2上重现该行为。
-x开关用于行正则表达式而不是-w单词?但是,我认为此-F开关将取消其中任何一个,反之亦然。