我有一个文本文档,其中包含大量文本,每个字母后都添加了额外的空格!
例:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
视觉上:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t…
请注意,每个字母后都有一个多余的空格,因此连续单词之间有两个空格。
有什么方法可以获取awk
或sed
删除多余的空格?(不幸的是,此文本文档非常庞大,需要很长时间才能手动完成。)
我很欣赏这可能是一个简单的bash脚本要解决的复杂得多的问题,因为还需要某种形式的文本识别。
我该如何解决这个问题?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'