如何从字符串中删除除破折号以外的所有非字母数字字符?


606

如何从字符串中删除所有非字母数字字符(破折号和空格字符除外)?

Answers:


868

替换[^a-zA-Z0-9 -]为空字符串。

Regex rgx = new Regex("[^a-zA-Z0-9 -]");
str = rgx.Replace(str, "");

79
值得一提的是-,该字符必须位于字符类的末尾,或者以反斜杠转义,以防止被用于范围。
彼得·布顿

6
@Dan在您的正则表达式中设置了全局标志-否则,它将替换第一个匹配项。一个快速的谷歌应该告诉你如何在经典的ASP正则表达式中设置全局标志。否则,请寻找replaceAll函数而不是replace
Amarghosh

20
这是一个正则表达式的编译版本: return Regex.Replace(str, "[^a-zA-Z0-9_.]+", "", RegexOptions.Compiled); 相同的基本问题
Paige Watson

13
@MGOwen,因为每次使用“”时,由于字符串是不可变的,因此您正在创建一个新对象。当使用string.empty时,您将重用表示空字符串所需的单个实例,该实例更快且更有效。
Brian Scott

17
@BrianScott我知道这很旧,但是在搜索中发现的,所以我觉得这很重要。这实际上取决于您所运行的.NET的版本。> 2.0使用""string.Empty完全相同。stackoverflow.com/questions/151472/...
贾里德

348

我本来可以使用RegEx,它们可以提供优雅的解决方案,但它们可能导致性能问题。这是一个解决方案

char[] arr = str.ToCharArray();

arr = Array.FindAll<char>(arr, (c => (char.IsLetterOrDigit(c) 
                                  || char.IsWhiteSpace(c) 
                                  || c == '-')));
str = new string(arr);

使用紧凑型框架(没有FindAll)时

1替换FindAll

char[] arr = str.Where(c => (char.IsLetterOrDigit(c) || 
                             char.IsWhiteSpace(c) || 
                             c == '-')).ToArray(); 

str = new string(arr);

1条 评论来自ShawnFeatherly


41
在我的测试中,这项技术要快得多。确切地说,它比Regex Replace技术快3倍以下。

12
紧凑型框架没有FindAll,您可以将FindAll替换为char[] arr = str.Where(c => (char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-')).ToArray();
ShawnFeatherly 2013年

2
有人测试过吗?那根本没有用。-但这对我来说确实如此:string str2 = new string(str.Where(c =>(char.IsLetterOrDigit(c)))。ToArray());
KevinDeus

48

你可以试试:

string s1 = Regex.Replace(s, "[^A-Za-z0-9 -]", "");

s你的绳子在哪里。


1
OP问几许不下划线
肖恩乙

39

使用System.Linq

string withOutSpecialCharacters = new string(stringWithSpecialCharacters.Where(c =>char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-').ToArray());

@Michael类似,但至少这是一个衬纸,而不是3行。我想这足以使它成为不同的答案。
Dymas

1
@Dymas我现在同意这是可以接受的,但不是因为空格不同。显然,在编写此答案后,编辑了功能上等效的部分(仅var名称不同)。
Michael-Clay Shirky在哪里,

1
@ZainAli,如果您进行琐碎的编辑并ping我,我将撤消我的反对意见。对于任何s窃行为,我深表歉意。
Michael-Clay Shirky在哪里,

22

正则表达式为[^\w\s\-]*

\s最好使用空格()代替,因为文本中可能会有一个制表符。


1
除非您要删除标签。
马特·艾伦

...和换行符,以及所有其他字符都视为“空白”。
彼得·布顿

6
该解决方案远远优于上述解决方案,因为它还支持国际(非英语)字符。<!-语言:c#->字符串s =“MötleyCrue日本人:の氏名和汉字爱和平假名あい”;字符串r = Regex.Replace(s,“ [^ \\ w \\ s-] *”,“”); 上面产生的结果与:MötleyCrue日本人の氏名和Kanji爱和Hiraganaあい
danglund 2014年

1
使用@转义\字符串转换:@“ [^ \ w \ s-] *”
Jakub Pawlinski 2014年

1
它,呃...不删除下划线?在整个创建过程中被正则表达式实现视为“单词”字符,但不是字母数字,破折号或空格...(?)
Code Jockey

14

基于此问题的答案,我创建了一个静态类并添加了这些类。以为对某些人可能有用。

public static class RegexConvert
{
    public static string ToAlphaNumericOnly(this string input)
    {
        Regex rgx = new Regex("[^a-zA-Z0-9]");
        return rgx.Replace(input, "");
    }

    public static string ToAlphaOnly(this string input)
    {
        Regex rgx = new Regex("[^a-zA-Z]");
        return rgx.Replace(input, "");
    }

    public static string ToNumericOnly(this string input)
    {
        Regex rgx = new Regex("[^0-9]");
        return rgx.Replace(input, "");
    }
}

然后这些方法可以用作:

string example = "asdf1234!@#$";
string alphanumeric = example.ToAlphaNumericOnly();
string alpha = example.ToAlphaOnly();
string numeric = example.ToNumericOnly();

2
对于您提供的示例,如果提供每种方法的结果,也会很有用。
c-chavez

7

要快点吗?

public static class StringExtensions 
{
    public static string ToAlphaNumeric(this string self, params char[] allowedCharacters)
    {
        return new string(Array.FindAll(self.ToCharArray(), c => char.IsLetterOrDigit(c) || allowedCharacters.Contains(c)));
    }
}

这将允许您指定要允许的字符。


5

这是我想要的非正则表达式堆分配友好的快速解决方案。

不安全的版本。

public static unsafe void ToAlphaNumeric(ref string input)
{
    fixed (char* p = input)
    {
        int offset = 0;
        for (int i = 0; i < input.Length; i++)
        {
            if (char.IsLetterOrDigit(p[i]))
            {
                p[offset] = input[i];
                offset++;
            }
        }
        ((int*)p)[-1] = offset; // Changes the length of the string
        p[offset] = '\0';
    }
}

对于那些不想使用不安全或不信任字符串长度黑客的人。

public static string ToAlphaNumeric(string input)
{
    int j = 0;
    char[] newCharArr = new char[input.Length];

    for (int i = 0; i < input.Length; i++)
    {
        if (char.IsLetterOrDigit(input[i]))
        {
            newCharArr[j] = input[i];
            j++;
        }
    }

    Array.Resize(ref newCharArr, j);

    return new string(newCharArr);
}

4

通过消除Control字符,我提出了另一种解决方案,这是我最初的问题。

比将所有“特殊但好”的字符放入列表中更好

char[] arr = str.Where(c => !char.IsControl(c)).ToArray();    
str = new string(arr);

它比较简单,所以我认为它更好!


2

这是一个使用@ata答案作为灵感的扩展方法。

"hello-world123, 456".MakeAlphaNumeric(new char[]{'-'});// yields "hello-world123456"

或者如果您需要连字符以外的其他字符...

"hello-world123, 456!?".MakeAlphaNumeric(new char[]{'-','!'});// yields "hello-world123456!"


public static class StringExtensions
{   
    public static string MakeAlphaNumeric(this string input, params char[] exceptions)
    {
        var charArray = input.ToCharArray();
        var alphaNumeric = Array.FindAll<char>(charArray, (c => char.IsLetterOrDigit(c)|| exceptions?.Contains(c) == true));
        return new string(alphaNumeric);
    }
}

1

我在这里使用答案之一的变体。我想将空格替换为“-”,以使其对SEO友好,并使其小写。也不能从我的服务层引用system.web。

private string MakeUrlString(string input)
{
    var array = input.ToCharArray();

    array = Array.FindAll<char>(array, c => char.IsLetterOrDigit(c) || char.IsWhiteSpace(c) || c == '-');

    var newString = new string(array).Replace(" ", "-").ToLower();
    return newString;
}

0

这是一个非常简洁的版本

myString = myString.replace(/[^A-Za-z0-9 -]/g, "");

-1

使用Regex可以轻松得多。

private string FixString(string str)
{
    return string.IsNullOrEmpty(str) ? str : Regex.Replace(str, "[\\D]", "");
}

1
仅替换非数字字符
frostymarvelous
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.