我正在编写python MapReduce字数统计程序。问题是数据中散布着许多非字母字符,我发现这篇文章从Python的字符串中剥离了除了字母数字字符之外的所有内容,这显示了使用正则表达式的一个很好的解决方案,但是我不确定如何实现它
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
恐怕我不确定该如何使用该库re
甚至正则表达式。我不确定如何将正则表达式模式v
正确地应用于传入的字符串(书的一行)以检索没有任何非字母数字字符的新行。
有什么建议吗?
v
是一本书的整行(特别是白鲸),我要逐字逐字而不是逐字逐字地走。因此某些单词的末尾可能会带有“,”,因此“ indignity”不会与“ indignity”对应。