如何使用正则表达式从JavaScript中的字符串中删除所有标点符号？

152

如果我有一个带有任何类型的非字母数字字符的字符串：

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

如何在JavaScript中获得无标点的版本：

"This is an example of a string with punctuation"

javascript regex

— 昆汀·菲斯克
source

210

如果要从字符串中删除特定的标点符号，则最好将其完全删除。

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

执行上述操作仍不会返回您指定的字符串。如果要删除疯狂的标点符号留下的多余空间，那么您将需要执行类似的操作

replace(/\s{2,}/g," ");

我的完整示例：

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

在Firebug控制台中运行代码的结果：

替代文字

— 迈克·格雷斯
source

4

正则表达式中的花括号在前面加上了一个量词，因此在这种情况下，它\s用一个空格替换了2到100个空格字符（）。如果你要崩溃了任意数量的空白字符到一个，你会离开过上限，像这样：replace(/\s{2,}/g, ' ')。

— Mike Partridge

13

我在标点符号列表（@+?><[]+）中添加了更多字符replace(/[\.,-\/#!$%\^&\*;:{}=\-_`~()@\+\?><\[\]\+]/g, '')。如果有人在寻找一套稍微更完整的套。

— timmfin 2014年

9

Python的string.punctuation将标点符号定义为：!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~这对我来说更好，因此另一种选择是：replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,"");

— 01AutoMonkey 2014年

1

@AntoineLizée我同意这具有误导性。更新了答案。谢谢。

— Mike Grace

2

我尝试过“吗？” -不适用于我（regex101.com/r/F4j5Qc/1），正确的解决方案是：/[.,\/#!$%\^&*;:{}=\-_`〜（） \？] / g

— Maxim Firsoff

128

str = str.replace(/[^\w\s]|_/g, "")
         .replace(/\s+/g, " ");

除去字母数字字符和空格以外的所有内容，然后将多个相邻字符折叠为单个空格。

详细说明：

\w 是任何数字，字母或下划线。
\s 是任何空格。
[^\w\s] 不是数字，字母，空格或下划线的任何内容。
[^\w\s]|_ 与＃3相同，除了添加了下划线。

— 约翰·库格曼
source

72

这还将去除非英语但完全完美的字母数字字符，例如à，é，ö以及整个西里尔字母。

— Dan Abramov'3

5

@quemeful我不同意，原始问题未指定“仅用于英语”。SO非常国际化，在世界范围内使用。会说英语并可以上网的人都可以使用它。如果问题中未指定语言，则我们不应做任何假设。我们在2017年，该死！

— 罗尔夫（Rolf）

1

同样，即使您仅支持英语，您也拥有诸如简历和外地人姓名之类的外来词，因此您不会希望破坏某人说他们在拉蒙·克洛埃之间的小隔间里的圣何塞（官方拼写）工作的能力。

— 克里斯·亚当斯

这将乱用词语，如wouldn't和don't

— 查理

71

以下是US-ASCII的标准标点符号： !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

对于Unicode标点符号（例如，大括号，短划线等），您可以轻松地在特定的块范围内进行匹配。在一般标点符号块\u2000-\u206F，并补充标点符号块\u2E00-\u2E7F。

放在一起并正确地进行转义，您将获得以下RegExp：

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

这几乎可以与您遇到的任何标点匹配。因此，要回答原始问题：

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

US-ASCII来源：http : //docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Unicode来源：http：//kourge.net/projects/regexp-unicode-block

— 约瑟夫
source

3

对于Unicode标点符号，块还不够。您必须查看常规类别标点，并且您会发现并非所有标点都位于这些块中。例如，在拉丁语块中有许多熟悉的标点符号。

— nhahtdh

15

/ [^ A-Za-z0-9 \ s] / g应该匹配所有标点符号，但要保留空格。因此，您可以根据.replace(/\s{2,}/g, " ")需要替换多余的空格。您可以在http://rubular.com/中测试正则表达式

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

更新：仅当输入为ANSI英文时才有效。

— adnan2nd
source

6

您假定该字符串是ANSI英语。不是带有重音字母（àéô）的法语，也不是德语，土耳其语。Unicode阿拉伯文，中文等也将消失。

— 罗尔夫（Rolf）

2

谢谢，没有完全考虑。

— adnan2nd

10

我遇到了同样的问题，该解决方案可以解决问题，并且可读性强：

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

结果：

"This is an example of a string with punctuation"

诀窍是创建一个否定的集合。这意味着它匹配不在集合内的任何东西，即[^abc]-不是a，b或c

\W是任何非单词，因此[^\W]+将否定所有非单词char。

通过添加_（下划线），您也可以将其取反。

使它全局应用/g，然后您可以通过它运行任何字符串并清除标点符号：

/[^_\W]+/g

干净整洁;）

— 雅各别森
source

1

您还可以使用此方法将所有新行更改为空格。

— nhahtdh 2015年

5

此方法仅适用于英语，所有带重音的字符都将被删除。

— NicolasBernier

@NicolasBernier是的，这是100％正确的-JavaScript的正则表达式引擎实际上是la脚的（请参阅：stackoverflow.com/questions/4043307/…）-不幸的是，对于更复杂的任务（并为非英语单词创建模式），这需要花一点时间更多代码。尽管如此，对于快速，简洁的正则表达式来说，它可以删除标点符号：)

— jacobedawson

这是最简单的方法，很好地满足了我的目的。

— James Shrum

9

我会把它放在这里给别人看。

匹配所有语言的所有标点符号：

从Unicode标点符号类别构造而成，并添加了一些常见的键盘符号，例如$和和\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

基本替换：

".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

添加\ s作为空间

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

添加了^以反转patternt以匹配标点符号，而不匹配标点符号

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

对于希伯来语这样的语言，可能要删除单引号和双引号。

使用此脚本：

步骤1：在Firefox保持控件中选择一列U + 1234数字并进行复制，请勿复制U + 12456，它们会替换为英语

步骤2（我在chrome中做过）找到一些文本区域并将其粘贴到其中，然后右键单击并单击检查。那么您可以使用$ 0访问所选元素。

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

步骤3将ascii的第一个字母复制为单独的字符，不在范围内，因为有人可能会添加或删除单个字符

— Shimon Doodkin
source

7

在支持Unicode的语言中，“ Unicode 标点符号”字符属性是\p{P}-通常可以缩写\pP，有时也可以扩展为\p{Punctuation}便于阅读。

您正在使用Perl兼容的正则表达式库吗？

— 基督
source

8

不幸的是，JS与Perl不兼容。另一个问题是，当我对其进行测试时，它没有捕获@Quentin

— Mike Grace 2010年

4

您可以使用XRegExp库获取此扩展语法。

— Eirik Birkeland

7

如果要从任何字符串中删除标点符号，则应使用PUnicode类。

但是，由于JavaScript RegEx不接受类，因此您可以尝试应与所有标点匹配的RegEx。它与以下类别匹配：Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So General标点符号补充标点符号CJKSymbolsAnd标点符号楔形数字和标点符号。

我使用此在线工具创建了它，该工具专门为JavaScript生成正则表达式。那是达到您目标的代码：

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫！-／：-＠［-｀｛-･￠-￦￨-￮-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)

展开摘要

— 救世主
source

5

对于en-US（美式英语）字符串，这应该足够了：

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

请注意，如果您支持UTF-8以及中文/俄文等字符，那么它们也会替换掉它们，因此您实际上必须指定所需的内容。

— 默德·奥拉里耶夫
source

3

如果您使用lodash

_.words('This, is : my - test,line:').join(' ')

这个例子

_.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')

— Pankaj Avhad
source

2

根据Wikipedia的标点符号列表，我必须构建以下可检测标点符号的正则表达式：

[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷×ºª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]

— 塔莎·高斯瓦米（Tushar Goswami）
source

2

如果使用此正则表达式，则还应转义正则表达式定界符。例如，如果使用/（最常用），则应在上面的字符类中通过在其前面加上反斜杠来对其进行转义，如下所示：\/。这是您将如何使用它：

"String!! With, Punctuation.".replace(/[\.’'\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?‘’“”'";\/⁄·\&*@\•^†‡°”¡¿※#№÷×ºª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]+/g,"")

。顺便说一句，我在那儿没看到反引号（`），怎么回事？

— 罗尔夫（Rolf）

不见了。似乎很难找到所有标点符号的列表。

— Alex

1

如果只想保留字母和空格，可以执行以下操作：

str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

— 鳕鱼
source

8

那不只是标点符号吗？Unicode之类的？

— 亚历克斯（Alex）2010年

3

您的意思是“只有英文字母和空格”

— Rolf

0

这取决于您要返回的内容。我最近使用了这个：

return text.match(/[a-z]/i);

— 阿曼达·科斯特（Amanda Koster）
source