Questions tagged «character-properties»


3
Java正则表达式中\ w和\ b的Unicode等效项?
许多现代正则表达式实现将\w字符类速记解释为“任何字母,数字或连接标点符号”(通常:下划线)。这样一来,像一个正则表达式\w+匹配的话像hello,élève,GOÄ_432或gefräßig。 不幸的是,Java没有。在Java中,\w仅限于[A-Za-z0-9_]。除了其他问题之外,这使得匹配上述单词变得困难。 似乎\b分隔符在不应该匹配的地方匹配。 类似于.NET的,支持Unicode的\w或\bJava 的正确等效项是什么?还有哪些其他快捷方式需要“重写”以使它们能够识别Unicode?

2
Python和带Unicode的正则表达式
我需要从字符串“ بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ”中删除一些Unicode符号 我知道他们肯定在这里。我试过了: re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ') 但这不起作用。字符串保持不变。我究竟做错了什么?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.