在Python中，如何分割字符串并保留分隔符？

226

这是解释此问题的最简单方法。这是我正在使用的：

re.split('\W', 'foo/bar spam\neggs')
-> ['foo', 'bar', 'spam', 'eggs']

这就是我想要的：

someMethod('\W', 'foo/bar spam\neggs')
-> ['foo', '/', 'bar', ' ', 'spam', '\n', 'eggs']

原因是我想将字符串拆分为标记，对其进行操作，然后将其重新放回原处。

python regex

— 肯·金德
source

3

代表什么\W？我在Google上失败了。

— Ooker，2015年

8

一个非字字符看到这里有详细资料

— 拉塞尔

对于原始字节字符串分割，而不是字符串分割，看到重复stackoverflow.com/questions/62591863/...

— 洛伦茨

295

>>> re.split('(\W)', 'foo/bar spam\neggs')
['foo', '/', 'bar', ' ', 'spam', '\n', 'eggs']

— 杰格准将
source

22

这很酷。我不知道re.split是和捕获组一起做的。

— 劳伦斯·贡萨尔维斯

16

@Laurence：好的，它已被记录在案：docs.python.org/library/re.html#re.split：“通过模式的出现来拆分字符串。如果在模式中使用捕获括号，则模式中所有组的文本也作为结果列表的一部分返回。”

— Vinay Sajip，2010年

40

记录严重不足。我已经使用Python 14年了，才发现这一点。

— smci 2013年

19

是否有一个选项可将组匹配的输出附加到拆分左侧（或类似右侧）的内容？例如，可以很容易地对其进行修改，使输出为['foo', '/bar', ' spam', '\neggs']吗？

— 2015年

3

@ Mr.F您也许可以对re.sub做一些事情。我想平分一个结尾的百分比，所以我以双字符平分，然后平淡，但是我适合我的情况：re.split('% ', re.sub('% ', '%% ', '5.000% Additional Whatnot'))->['5.000%', 'Additional Whatnot']

— Kyle James Walker

29

如果要在换行符上拆分，请使用splitlines(True)。

>>> 'line 1\nline 2\nline without newline'.splitlines(True)
['line 1\n', 'line 2\n', 'line without newline']

（这不是一个通用的解决方案，但是请在此处添加此功能，以防万一有人来这里而意识到此方法不存在。）

— 马克·洛达托
source

12

另一个在Python 3上运行良好的无正则表达式解决方案

# Split strings and keep separator
test_strings = ['<Hello>', 'Hi', '<Hi> <Planet>', '<', '']

def split_and_keep(s, sep):
   if not s: return [''] # consistent with string.split()

   # Find replacement character that is not used in string
   # i.e. just use the highest available character plus one
   # Note: This fails if ord(max(s)) = 0x10FFFF (ValueError)
   p=chr(ord(max(s))+1) 

   return s.replace(sep, sep+p).split(p)

for s in test_strings:
   print(split_and_keep(s, '<'))


# If the unicode limit is reached it will fail explicitly
unicode_max_char = chr(1114111)
ridiculous_string = '<Hello>'+unicode_max_char+'<World>'
print(split_and_keep(ridiculous_string, '<'))

— tw
source

10

如果只有1个分隔符，则可以使用列表推导：

text = 'foo,bar,baz,qux'  
sep = ','

追加/前置分隔符：

result = [x+sep for x in text.split(sep)]
#['foo,', 'bar,', 'baz,', 'qux,']
# to get rid of trailing
result[-1] = result[-1].strip(sep)
#['foo,', 'bar,', 'baz,', 'qux']

result = [sep+x for x in text.split(sep)]
#[',foo', ',bar', ',baz', ',qux']
# to get rid of trailing
result[0] = result[0].strip(sep)
#['foo', ',bar', ',baz', ',qux']

分隔符是它自己的元素：

result = [u for x in text.split(sep) for u in (x, sep)]
#['foo', ',', 'bar', ',', 'baz', ',', 'qux', ',']
results = result[:-1]   # to get rid of trailing

— 恐龙龙
source

1

您还可以添加if x以确保产生的块split具有一定的内容，即result = [x + sep for x in text.split(sep) if x]

— 我

对我来说，脱衣舞会去除得太多，我不得不使用它：result = [sep+x for x in data.split(sep)] result[0] = result[0][len(sep):]

— scottlittle

9

另一个示例，拆分非字母数字并保留分隔符

import re
a = "foo,bar@candy*ice%cream"
re.split('([^a-zA-Z0-9])',a)

输出：

['foo', ',', 'bar', '@', 'candy', '*', 'ice', '%', 'cream']

说明

re.split('([^a-zA-Z0-9])',a)

() <- keep the separators
[] <- match everything in between
^a-zA-Z0-9 <-except alphabets, upper/lower and numbers.

— 阿努拉格
source

尽管正如文档所说，这等效于公认的答案，但我还是喜欢此版本的可读性-尽管这\W是一种更紧凑的表达方式。

— 伊夫史密斯

3

您还可以使用字符串数组而不是正则表达式来拆分字符串，如下所示：

def tokenizeString(aString, separators):
    #separators is an array of strings that are being used to split the the string.
    #sort separators in order of descending length
    separators.sort(key=len)
    listToReturn = []
    i = 0
    while i < len(aString):
        theSeparator = ""
        for current in separators:
            if current == aString[i:i+len(current)]:
                theSeparator = current
        if theSeparator != "":
            listToReturn += [theSeparator]
            i = i + len(theSeparator)
        else:
            if listToReturn == []:
                listToReturn = [""]
            if(listToReturn[-1] in separators):
                listToReturn += [""]
            listToReturn[-1] += aString[i]
            i += 1
    return listToReturn


print(tokenizeString(aString = "\"\"\"hi\"\"\" hello + world += (1*2+3/5) '''hi'''", separators = ["'''", '+=', '+', "/", "*", "\\'", '\\"', "-=", "-", " ", '"""', "(", ")"]))

— 安德森·格林
source

3

# This keeps all separators  in result 
##########################################################################
import re
st="%%(c+dd+e+f-1523)%%7"
sh=re.compile('[\+\-//\*\<\>\%\(\)]')

def splitStringFull(sh, st):
   ls=sh.split(st)
   lo=[]
   start=0
   for l in ls:
     if not l : continue
     k=st.find(l)
     llen=len(l)
     if k> start:
       tmp= st[start:k]
       lo.append(tmp)
       lo.append(l)
       start = k + llen
     else:
       lo.append(l)
       start =llen
   return lo
  #############################

li= splitStringFull(sh , st)
['%%(', 'c', '+', 'dd', '+', 'e', '+', 'f', '-', '1523', ')%%', '7']

— 莫伊西·奥斯盖特
source

2

一种懒惰和简单的解决方案

假设您的正则表达式模式是 split_pattern = r'(!|\?)'

首先，您添加与新分隔符相同的字符，例如“ [cut]”

new_string = re.sub(split_pattern, '\\1[cut]', your_string)

然后拆分新的分隔符， new_string.split('[cut]')

— 王一雷
source

这种方法很聪明，但是当原始字符串已经包含[cut]某个位置时，它将失败。

— Matthijs Kooijman

1

如果要拆分字符串同时用正则表达式保留分隔符而不捕获组：

def finditer_with_separators(regex, s):
    matches = []
    prev_end = 0
    for match in regex.finditer(s):
        match_start = match.start()
        if (prev_end != 0 or match_start > 0) and match_start != prev_end:
            matches.append(s[prev_end:match.start()])
        matches.append(match.group())
        prev_end = match.end()
    if prev_end < len(s):
        matches.append(s[prev_end:])
    return matches

regex = re.compile(r"[\(\)]")
matches = finditer_with_separators(regex, s)

如果假设正则表达式包含在捕获组中：

def split_with_separators(regex, s):
    matches = list(filter(None, regex.split(s)))
    return matches

regex = re.compile(r"([\(\)])")
matches = split_with_separators(regex, s)

两种方式都将删除在大多数情况下无用且烦人的空组。

— 德米特里·辛佐夫（Dmitriy Sintsov）
source

0

我在尝试拆分文件路径时遇到了类似的问题，并且很难找到一个简单的答案。这对我有用，并且不需要将分隔符替换回拆分文本中：

my_path = 'folder1/folder2/folder3/file1'

import re

re.findall('[^/]+/|[^/]+', my_path)

返回：

['folder1/', 'folder2/', 'folder3/', 'file1']

— 康纳
source

：这可以通过使用稍微简化re.findall('[^/]+/?', my_path)（如使斜线可选的使用?，而不是提供两种选择用|。

— Matthijs Kooijman

0

我发现这种基于生成器的方法更加令人满意：

def split_keep(string, sep):
    """Usage:
    >>> list(split_keep("a.b.c.d", "."))
    ['a.', 'b.', 'c.', 'd']
    """
    start = 0
    while True:
        end = string.find(sep, start) + 1
        if end == 0:
            break
        yield string[start:end]
        start = end
    yield string[start:]

它在理论上应该相当便宜，而无需找出正确的正则表达式。它不会创建新的字符串对象，而是将大部分迭代工作委托给有效的find方法。

...并且在python 3.8中可以很短：

def split_keep(string, sep):
    start = 0
    while (end := string.find(sep, start) + 1) > 0:
        yield string[start:end]
        start = end
    yield string[start:]

— 陈征
source

0

全部替换seperator: (\W)为seperator + new_seperator: (\W;)
被 new_seperator: (;)

def split_and_keep(seperator, s):
  return re.split(';', re.sub(seperator, lambda match: match.group() + ';', s))

print('\W', 'foo/bar spam\neggs')

— 科巴科
source

0

这是一个.split无需正则表达式的简单解决方案。

这是对Python split（）的答案，没有删除定界符，因此与原始帖子所要求的不完全相同，但另一个问题已作为与此问题的重复而关闭。

def splitkeep(s, delimiter):
    split = s.split(delimiter)
    return [substr + delimiter for substr in split[:-1]] + [split[-1]]

随机测试：

import random

CHARS = [".", "a", "b", "c"]
assert splitkeep("", "X") == [""]  # 0 length test
for delimiter in ('.', '..'):
    for idx in range(100000):
        length = random.randint(1, 50)
        s = "".join(random.choice(CHARS) for _ in range(length))
        assert "".join(splitkeep(s, delimiter)) == s

— 奥雷斯蒂夫
source