我有一个2958616字节的文本文件。运行时 sort < file.txt | uniq > sorted-file.txt
,我得到一个3213965字节的文本文件。为什么我的排序文本文件更大?
您可以在此处下载文本文件。
@meuh就是这样!您能补充一下吗?
—
wb9688 '16
等等,这会影响到语言环境吗?您使用什么语言环境?输出是
—
terdon
locale
什么?您确定没有在其他系统上创建文件吗?
sed '/^[a-z]*$/d' < file.txt | wc -l
给了我305行。
您的文件还包含
—
登
â ê î ñ ô ö öö û
不在ASCII集中的那些文件。
\r\n
行尾,而输入文件具有\n
行尾。也许您应该设置不同的语言环境。LC_ALL=C
在每个命令前尝试。