我正在使用大致的代码从文本中删除停用词
我有以下
$ cat file
file
types
extensions
$ cat stopwords
i
file
types
grep -vwFf stopwords file
我期待结果:
extensions
但我得到了(我认为不正确)
file
extensions
就像file
停用词文件中已跳过该词一样。现在,这里的凉爽一下:如果我修改停用字词档案,通过改变单个字/字母i
在第一行,其他任何ASCII字母以外f
,i
,l
,e
,那么同样grep命令给我的不同,正确的结果extensions
。
这是怎么回事,我该如何解决?
我在Mac OSX GNU bash 4.4.12(1)版上使用grep(BSD grep)2.5.1-FreeBSD
grep(GNU grep)3.1可以按预期工作。
—
Hauke Laging,
我已经复制了这个。另一个数据:在文件中将
—
JdeBP
i
模式设置为第二个模式而不是第一个模式stopwords
也将改变行为。
我无法使用本机
—
库萨兰达
grep
或GNU grep
3.1 在OpenBSD 6.2上重现该行为。
-x
开关用于行正则表达式而不是-w
单词?但是,我认为此-F
开关将取消其中任何一个,反之亦然。