6
Python,从字符串中删除所有非字母字符
我正在编写python MapReduce字数统计程序。问题是数据中散布着许多非字母字符,我发现这篇文章从Python的字符串中剥离了除了字母数字字符之外的所有内容,这显示了使用正则表达式的一个很好的解决方案,但是我不确定如何实现它 def mapfn(k, v): print v import re, string pattern = re.compile('[\W_]+') v = pattern.match(v) print v for w in v.split(): yield w, 1 恐怕我不确定该如何使用该库re甚至正则表达式。我不确定如何将正则表达式模式v正确地应用于传入的字符串(书的一行)以检索没有任何非字母数字字符的新行。 有什么建议吗?