这似乎应该是微不足道的,但是我是Python的新手,并且希望以最Python的方式进行操作。
我想找到对应于字符串中第n个子字符串的索引。
一定有什么我想做的事情是
mystring.find("substring", 2nd)
如何在Python中实现?
这似乎应该是微不足道的,但是我是Python的新手,并且希望以最Python的方式进行操作。
我想找到对应于字符串中第n个子字符串的索引。
一定有什么我想做的事情是
mystring.find("substring", 2nd)
如何在Python中实现?
Answers:
我认为,Mark的迭代方法将是通常的方法。
这是字符串拆分的替代方法,通常可用于查找相关过程:
def findnth(haystack, needle, n):
parts= haystack.split(needle, n+1)
if len(parts)<=n+1:
return -1
return len(haystack)-len(parts[-1])-len(needle)
这是一种快速(有点脏,因为您必须选择一些无法与针头相匹配的谷壳)的单缸套:
'foo bar bar bar'.replace('bar', 'XXX', 1).find('bar')
.rfind('XXX')
,但是如果'XXX'
以后无论如何在输入中出现,那都会崩溃。
这是简单的迭代解决方案的更多Pythonic版本:
def find_nth(haystack, needle, n):
start = haystack.find(needle)
while start >= 0 and n > 1:
start = haystack.find(needle, start+len(needle))
n -= 1
return start
例:
>>> find_nth("foofoofoofoo", "foofoo", 2)
6
如果要查找的第n个重叠出现needle
,可以用1
代替,增加len(needle)
,如下所示:
def find_nth_overlapping(haystack, needle, n):
start = haystack.find(needle)
while start >= 0 and n > 1:
start = haystack.find(needle, start+1)
n -= 1
return start
例:
>>> find_nth_overlapping("foofoofoofoo", "foofoo", 2)
3
这比Mark的版本更容易阅读,并且不需要拆分版本或导入正则表达式模块的额外内存。与各种方法不同,它还遵守python Zen中的一些规则re
:
这将在字符串中找到子字符串的第二次出现。
def find_2nd(string, substring):
return string.find(substring, string.find(substring) + 1)
编辑:我对性能没有考虑太多,但是快速递归可以帮助找到第n个出现的情况:
def find_nth(string, substring, n):
if (n == 1):
return string.find(substring)
else:
return string.find(substring, find_nth(string, substring, n - 1) + 1)
n
子字符串少于发生的情况。(在这种情况下,返回值将周期性地遍历所有发生位置)。
了解正则表达式并不总是最好的解决方案,我可能在这里使用一个:
>>> import re
>>> s = "ababdfegtduab"
>>> [m.start() for m in re.finditer(r"ab",s)]
[0, 2, 11]
>>> [m.start() for m in re.finditer(r"ab",s)][2] #index 2 is third occurrence
11
(m.start() for m in re.finditer(r"ab",s))[2]
itertools.islice
功能还是可以实现类似的丑陋解决方案:next(islice(re.finditer(r"ab",s), 2, 2+1)).start()
我提供了一些基准测试结果,以比较到目前为止介绍的最著名的方法,即@bobince findnth()
(基于str.split()
)与@tgamblin find_nth()
(或基于@Mark Byers)(基于str.find()
)。我还将与C扩展名(_find_nth.so
)进行比较,以了解我们可以走多快。这里是find_nth.py
:
def findnth(haystack, needle, n):
parts= haystack.split(needle, n+1)
if len(parts)<=n+1:
return -1
return len(haystack)-len(parts[-1])-len(needle)
def find_nth(s, x, n=0, overlap=False):
l = 1 if overlap else len(x)
i = -l
for c in xrange(n + 1):
i = s.find(x, i + l)
if i < 0:
break
return i
当然,如果字符串很大,性能最重要,因此假设我们要在1.3 GB的文件“ bigfile”中找到第1000001个换行符('\ n')。为了节省内存,我们希望处理mmap.mmap
文件的对象表示形式:
In [1]: import _find_nth, find_nth, mmap
In [2]: f = open('bigfile', 'r')
In [3]: mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
findnth()
由于mmap.mmap
对象不支持,因此已经存在第一个问题split()
。因此,我们实际上必须将整个文件复制到内存中:
In [4]: %time s = mm[:]
CPU times: user 813 ms, sys: 3.25 s, total: 4.06 s
Wall time: 17.7 s
哎哟! 幸运的是s
,我的Macbook Air仍可容纳4 GB内存,因此让我们进行基准测试findnth()
:
In [5]: %timeit find_nth.findnth(s, '\n', 1000000)
1 loops, best of 3: 29.9 s per loop
显然表现糟糕。让我们看看基于的方法是如何str.find()
做到的:
In [6]: %timeit find_nth.find_nth(s, '\n', 1000000)
1 loops, best of 3: 774 ms per loop
好多了!显然,findnth()
问题在于它被迫在期间复制字符串split()
,这已经是我们第二次在after之后复制1.3 GB的数据了s = mm[:]
。这里有第二个优点find_nth()
:我们可以mm
直接使用它,因此文件的零副本是必需的:
In [7]: %timeit find_nth.find_nth(mm, '\n', 1000000)
1 loops, best of 3: 1.21 s per loop
mm
vs. 上似乎有一些小的性能损失s
,但这表明find_nth()
与1.2 s findnth
的总和(47 s)相比,可以在1.2 s内获得答案。
我发现没有任何str.find()
一种方法比基于方法的性能明显差于str.split()
基于方法的情况,因此,在这一点上,我认为应该接受@tgamblin或@Mark Byers的答案,而不是@bobince的答案。
在我的测试中,上述版本find_nth()
是我能想到的最快的纯Python解决方案(非常类似于@Mark Byers的版本)。让我们看看使用C扩展模块可以做的更好。这里是_find_nthmodule.c
:
#include <Python.h>
#include <string.h>
off_t _find_nth(const char *buf, size_t l, char c, int n) {
off_t i;
for (i = 0; i < l; ++i) {
if (buf[i] == c && n-- == 0) {
return i;
}
}
return -1;
}
off_t _find_nth2(const char *buf, size_t l, char c, int n) {
const char *b = buf - 1;
do {
b = memchr(b + 1, c, l);
if (!b) return -1;
} while (n--);
return b - buf;
}
/* mmap_object is private in mmapmodule.c - replicate beginning here */
typedef struct {
PyObject_HEAD
char *data;
size_t size;
} mmap_object;
typedef struct {
const char *s;
size_t l;
char c;
int n;
} params;
int parse_args(PyObject *args, params *P) {
PyObject *obj;
const char *x;
if (!PyArg_ParseTuple(args, "Osi", &obj, &x, &P->n)) {
return 1;
}
PyTypeObject *type = Py_TYPE(obj);
if (type == &PyString_Type) {
P->s = PyString_AS_STRING(obj);
P->l = PyString_GET_SIZE(obj);
} else if (!strcmp(type->tp_name, "mmap.mmap")) {
mmap_object *m_obj = (mmap_object*) obj;
P->s = m_obj->data;
P->l = m_obj->size;
} else {
PyErr_SetString(PyExc_TypeError, "Cannot obtain char * from argument 0");
return 1;
}
P->c = x[0];
return 0;
}
static PyObject* py_find_nth(PyObject *self, PyObject *args) {
params P;
if (!parse_args(args, &P)) {
return Py_BuildValue("i", _find_nth(P.s, P.l, P.c, P.n));
} else {
return NULL;
}
}
static PyObject* py_find_nth2(PyObject *self, PyObject *args) {
params P;
if (!parse_args(args, &P)) {
return Py_BuildValue("i", _find_nth2(P.s, P.l, P.c, P.n));
} else {
return NULL;
}
}
static PyMethodDef methods[] = {
{"find_nth", py_find_nth, METH_VARARGS, ""},
{"find_nth2", py_find_nth2, METH_VARARGS, ""},
{0}
};
PyMODINIT_FUNC init_find_nth(void) {
Py_InitModule("_find_nth", methods);
}
这是setup.py
文件:
from distutils.core import setup, Extension
module = Extension('_find_nth', sources=['_find_nthmodule.c'])
setup(ext_modules=[module])
像往常一样安装python setup.py install
。C代码在这里发挥了优势,因为它仅限于查找单个字符,但是让我们看一下它有多快:
In [8]: %timeit _find_nth.find_nth(mm, '\n', 1000000)
1 loops, best of 3: 218 ms per loop
In [9]: %timeit _find_nth.find_nth(s, '\n', 1000000)
1 loops, best of 3: 216 ms per loop
In [10]: %timeit _find_nth.find_nth2(mm, '\n', 1000000)
1 loops, best of 3: 307 ms per loop
In [11]: %timeit _find_nth.find_nth2(s, '\n', 1000000)
1 loops, best of 3: 304 ms per loop
显然还快很多。有趣的是,内存中情况和映射情况之间的C级别没有差异。有趣的是_find_nth2()
,它基于string.h
的memchr()
库函数,相对于以下简单的实现方式有所失落_find_nth()
:额外的“优化” memchr()
显然是后退式的...
总而言之,findnth()
(基于str.split()
)中的实现确实是一个坏主意,因为(a)由于需要进行复制,因此它对于较大的字符串表现出极大的性能,(b)根本不适用于mmap.mmap
对象。在find_nth()
(基于str.find()
)中的实现在所有情况下都应优先考虑(因此是该问题的公认答案)。
还有很大的改进空间,因为C扩展比纯Python代码快将近4倍,这表明可能存在专用Python库函数的情况。
我可能会使用带有索引参数的find函数来做这样的事情:
def find_nth(s, x, n):
i = -1
for _ in range(n):
i = s.find(x, i + len(x))
if i == -1:
break
return i
print find_nth('bananabanana', 'an', 3)
我猜这不是特别的Pythonic,但是很简单。您可以使用递归来代替:
def find_nth(s, x, n, i = 0):
i = s.find(x, i)
if n == 1 or i == -1:
return i
else:
return find_nth(s, x, n - 1, i + len(x))
print find_nth('bananabanana', 'an', 3)
这是解决该问题的一种实用方法,但是我不知道这是否使其更具有Python风格。
for _ in xrange(n):
可以代替while n: ... n-=1
return find_nth(s, x, n - 1, i + 1)
应该是return find_nth(s, x, n - 1, i + len(x))
。没什么大不了的,但是节省了一些计算时间。
这是搜索a 或a 时应该工作的另一个re
+ itertools
版本。我会自由地承认这可能是过度设计的,但是出于某种原因,它使我感到很开心。str
RegexpObject
import itertools
import re
def find_nth(haystack, needle, n = 1):
"""
Find the starting index of the nth occurrence of ``needle`` in \
``haystack``.
If ``needle`` is a ``str``, this will perform an exact substring
match; if it is a ``RegexpObject``, this will perform a regex
search.
If ``needle`` doesn't appear in ``haystack``, return ``-1``. If
``needle`` doesn't appear in ``haystack`` ``n`` times,
return ``-1``.
Arguments
---------
* ``needle`` the substring (or a ``RegexpObject``) to find
* ``haystack`` is a ``str``
* an ``int`` indicating which occurrence to find; defaults to ``1``
>>> find_nth("foo", "o", 1)
1
>>> find_nth("foo", "o", 2)
2
>>> find_nth("foo", "o", 3)
-1
>>> find_nth("foo", "b")
-1
>>> import re
>>> either_o = re.compile("[oO]")
>>> find_nth("foo", either_o, 1)
1
>>> find_nth("FOO", either_o, 1)
1
"""
if (hasattr(needle, 'finditer')):
matches = needle.finditer(haystack)
else:
matches = re.finditer(re.escape(needle), haystack)
start_here = itertools.dropwhile(lambda x: x[0] < n, enumerate(matches, 1))
try:
return next(start_here)[1].start()
except StopIteration:
return -1
# return -1 if nth substr (0-indexed) d.n.e, else return index
def find_nth(s, substr, n):
i = 0
while n >= 0:
n -= 1
i = s.find(substr, i + 1)
return i
find_nth('aaa', 'a', 0)
返回,1
而应该返回0
。您需要类似的东西i = s.find(substr, i) + 1
,然后返回i - 1
。
这是我找到n
inth出现b
在字符串中的解决方案a
:
from functools import reduce
def findNth(a, b, n):
return reduce(lambda x, y: -1 if y > x + 1 else a.find(b, x + 1), range(n), -1)
它是纯Python并且是迭代的。对于0或n
太大,它将返回-1。它是单线的,可以直接使用。这是一个例子:
>>> reduce(lambda x, y: -1 if y > x + 1 else 'bibarbobaobaotang'.find('b', x + 1), range(4), -1)
7
对于搜索字符的第n个出现(即长度为1的子字符串)的特殊情况,以下功能通过构建给定字符出现的所有位置的列表来起作用:
def find_char_nth(string, char, n):
"""Find the n'th occurence of a character within a string."""
return [i for i, c in enumerate(string) if c == char][n-1]
如果少于n
给定字符的出现次数,它将给出IndexError: list index out of range
。
这是从@Zv_oDD的答案派生而来的,对于单个字符而言,它得到了简化。
Def:
def get_first_N_words(mytext, mylen = 3):
mylist = list(mytext.split())
if len(mylist)>=mylen: return ' '.join(mylist[:mylen])
使用方法:
get_first_N_words(' One Two Three Four ' , 3)
输出:
'One Two Three'