C#清理文件名


174

最近,我一直在将一堆MP3从不同位置移到存储库中。我一直在使用ID3标签构建新文件名(感谢TagLib-Sharp!),我注意到我得到了System.NotSupportedException

“不支持给定路径的格式。”

这是由File.Copy()或生成的Directory.CreateDirectory()

很快,我就意识到需要对我的文件名进行清理。所以我做了显而易见的事情:

public static string SanitizePath_(string path, char replaceChar)
{
    string dir = Path.GetDirectoryName(path);
    foreach (char c in Path.GetInvalidPathChars())
        dir = dir.Replace(c, replaceChar);

    string name = Path.GetFileName(path);
    foreach (char c in Path.GetInvalidFileNameChars())
        name = name.Replace(c, replaceChar);

    return dir + name;
}

令我惊讶的是,我继续遇到例外。原来,':'不在的集合中Path.GetInvalidPathChars(),因为它在路径根目录中有效。我认为这很有意义-但这必须是一个非常普遍的问题。有人有一些简短的代码可以清理路径吗?我想出了最彻底的方法,但是感觉可能已经过头了。

    // replaces invalid characters with replaceChar
    public static string SanitizePath(string path, char replaceChar)
    {
        // construct a list of characters that can't show up in filenames.
        // need to do this because ":" is not in InvalidPathChars
        if (_BadChars == null)
        {
            _BadChars = new List<char>(Path.GetInvalidFileNameChars());
            _BadChars.AddRange(Path.GetInvalidPathChars());
            _BadChars = Utility.GetUnique<char>(_BadChars);
        }

        // remove root
        string root = Path.GetPathRoot(path);
        path = path.Remove(0, root.Length);

        // split on the directory separator character. Need to do this
        // because the separator is not valid in a filename.
        List<string> parts = new List<string>(path.Split(new char[]{Path.DirectorySeparatorChar}));

        // check each part to make sure it is valid.
        for (int i = 0; i < parts.Count; i++)
        {
            string part = parts[i];
            foreach (char c in _BadChars)
            {
                part = part.Replace(c, replaceChar);
            }
            parts[i] = part;
        }

        return root + Utility.Join(parts, Path.DirectorySeparatorChar.ToString());
    }

任何使该功能更快和更少巴洛克的改进将不胜感激。


Answers:


314

要清理文件名,您可以这样做

private static string MakeValidFileName( string name )
{
   string invalidChars = System.Text.RegularExpressions.Regex.Escape( new string( System.IO.Path.GetInvalidFileNameChars() ) );
   string invalidRegStr = string.Format( @"([{0}]*\.+$)|([{0}]+)", invalidChars );

   return System.Text.RegularExpressions.Regex.Replace( name, invalidRegStr, "_" );
}

3
问题是关于路径而不是文件名,并且这些路径的无效字符不同。
Dour High Arch

15
也许可以,但是当我遇到同样的问题时,这段代码肯定对我有帮助:)
mmr

8
还有另一个潜在的出色SO用户可以走路...这个功能很棒。谢谢Adrevdm ...
Dan Rosenstark

19
很棒的方法。不要忘记,尽管保留字仍然会咬你,但你会被抓挠。资料来源:Wikipedia文件名保留字
Spud 2012年

8
句点是无效字符,如果它们位于文件名的末尾,GetInvalidFileNameChars则不包含这些字符。它不会在Windows中引发异常,它只是将它们剥离,但是如果您期望这段时间在那里,则可能导致意外行为。我修改了正则表达式以处理这种情况,.以使其在字符串的末尾被视为无效字符之一。
Scott Chamberlain

119

较短的解决方案:

var invalids = System.IO.Path.GetInvalidFileNameChars();
var newName = String.Join("_", origFileName.Split(invalids, StringSplitOptions.RemoveEmptyEntries) ).TrimEnd('.');

1
@PeterMajeed:直到线计数从零开始:-)
加里·麦吉尔

这尤其比ASP.NET Core的最高答案更好,ASP.NET Core可能会基于平台返回不同的字符。
阿列克谢

79

基于Andre的出色回答,但考虑到Spud对保留字的评论,我制作了以下版本:

/// <summary>
/// Strip illegal chars and reserved words from a candidate filename (should not include the directory path)
/// </summary>
/// <remarks>
/// http://stackoverflow.com/questions/309485/c-sharp-sanitize-file-name
/// </remarks>
public static string CoerceValidFileName(string filename)
{
    var invalidChars = Regex.Escape(new string(Path.GetInvalidFileNameChars()));
    var invalidReStr = string.Format(@"[{0}]+", invalidChars);

    var reservedWords = new []
    {
        "CON", "PRN", "AUX", "CLOCK$", "NUL", "COM0", "COM1", "COM2", "COM3", "COM4",
        "COM5", "COM6", "COM7", "COM8", "COM9", "LPT0", "LPT1", "LPT2", "LPT3", "LPT4",
        "LPT5", "LPT6", "LPT7", "LPT8", "LPT9"
    };

    var sanitisedNamePart = Regex.Replace(filename, invalidReStr, "_");
    foreach (var reservedWord in reservedWords)
    {
        var reservedWordPattern = string.Format("^{0}\\.", reservedWord);
        sanitisedNamePart = Regex.Replace(sanitisedNamePart, reservedWordPattern, "_reservedWord_.", RegexOptions.IgnoreCase);
    }

    return sanitisedNamePart;
}

这些是我的单元测试

[Test]
public void CoerceValidFileName_SimpleValid()
{
    var filename = @"thisIsValid.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual(filename, result);
}

[Test]
public void CoerceValidFileName_SimpleInvalid()
{
    var filename = @"thisIsNotValid\3\\_3.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid_3__3.txt", result);
}

[Test]
public void CoerceValidFileName_InvalidExtension()
{
    var filename = @"thisIsNotValid.t\xt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("thisIsNotValid.t_xt", result);
}

[Test]
public void CoerceValidFileName_KeywordInvalid()
{
    var filename = "aUx.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("_reservedWord_.txt", result);
}

[Test]
public void CoerceValidFileName_KeywordValid()
{
    var filename = "auxillary.txt";
    var result = PathHelper.CoerceValidFileName(filename);
    Assert.AreEqual("auxillary.txt", result);
}

1
这是一个非常完整的答案,至少对于问题的文件名部分来说,应该得到更多的支持。
布莱恩·麦凯

2
较小的建议,因为该方法看起来像是朝这个方向发展:添加this关键字,它将成为方便的扩展方法。公共静态字符串CoerceValidFileName(此字符串文件名)
Ryan McArthur

2
小错误:如果没有文件扩展名(例如COM1),该方法不会更改保留字,这也是不允许的。建议的解决方法是将reservedWordPattern更改为"^{0}(\\.|$)",并将替换字符串更改为"_reservedWord_$1"
Dehalion


4

我正在使用该System.IO.Path.GetInvalidFileNameChars() 方法来检查无效字符,并且没有问题。

我正在使用以下代码:

foreach( char invalidchar in System.IO.Path.GetInvalidFileNameChars())
{
    filename = filename.Replace(invalidchar, '_');
}

3

我想以某种方式保留字符,而不仅仅是用下划线替换字符。

我认为的一种方法是用外观相似的字符替换字符(在我的情况下),这些字符不太可能用作常规字符。因此,我从无效字符列表中找到了相似的对象。

以下是使用外观进行编码和解码的功能。

此代码未包含所有System.IO.Path.GetInvalidFileNameChars()字符的完整列表。因此,您可以扩展或利用下划线替换其余字符。

private static Dictionary<string, string> EncodeMapping()
{
    //-- Following characters are invalid for windows file and folder names.
    //-- \/:*?"<>|
    Dictionary<string, string> dic = new Dictionary<string, string>();
    dic.Add(@"\", "Ì"); // U+OOCC
    dic.Add("/", "Í"); // U+OOCD
    dic.Add(":", "¦"); // U+00A6
    dic.Add("*", "¤"); // U+00A4
    dic.Add("?", "¿"); // U+00BF
    dic.Add(@"""", "ˮ"); // U+02EE
    dic.Add("<", "«"); // U+00AB
    dic.Add(">", "»"); // U+00BB
    dic.Add("|", "│"); // U+2502
    return dic;
}

public static string Escape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Key, replace.Value);
    }

    //-- handle dot at the end
    if (name.EndsWith(".")) name = name.CropRight(1) + "°";

    return name;
}

public static string UnEscape(string name)
{
    foreach (KeyValuePair<string, string> replace in EncodeMapping())
    {
        name = name.Replace(replace.Value, replace.Key);
    }

    //-- handle dot at the end
    if (name.EndsWith("°")) name = name.CropRight(1) + ".";

    return name;
}

您可以选择自己的外观。我在Windows中使用了角色地图应用来选择我的%windir%\system32\charmap.exe

通过发现进行调整时,我将更新此代码。


请注意,有许多看起来更相似的字符,例如全角格式 !"#$%&'()*+,-./:;<=>?@{|}~或诸如/SOLIDUS和`⁄ FRACTION SLASH之类的其他形式,可以直接在文件名中使用而没有问题
phuclv

2

我认为问题在于您首先调用Path.GetDirectoryName了错误的字符串。如果其中包含非文件名字符,则.Net无法确定字符串的哪些部分是目录和抛出。您必须进行字符串比较。

假设只有文件名不好,而不是整个路径,请尝试以下操作:

public static string SanitizePath(string path, char replaceChar)
{
    int filenamePos = path.LastIndexOf(Path.DirectorySeparatorChar) + 1;
    var sb = new System.Text.StringBuilder();
    sb.Append(path.Substring(0, filenamePos));
    for (int i = filenamePos; i < path.Length; i++)
    {
        char filenameChar = path[i];
        foreach (char c in Path.GetInvalidFileNameChars())
            if (filenameChar.Equals(c))
            {
                filenameChar = replaceChar;
                break;
            }

        sb.Append(filenameChar);
    }

    return sb.ToString();
}

2

过去,我在此方面取得了成功。

不错,简短而静态:-)

    public static string returnSafeString(string s)
    {
        foreach (char character in Path.GetInvalidFileNameChars())
        {
            s = s.Replace(character.ToString(),string.Empty);
        }

        foreach (char character in Path.GetInvalidPathChars())
        {
            s = s.Replace(character.ToString(), string.Empty);
        }

        return (s);
    }

2

这里有很多可行的解决方案。仅出于完整性考虑,这是一种不使用正则表达式但使用LINQ的方法:

var invalids = Path.GetInvalidFileNameChars();
filename = invalids.Aggregate(filename, (current, c) => current.Replace(c, '_'));

另外,这是一个很短的解决方案;)


1
我爱一个班轮:)
拉里

1

这是一个基于安德烈代码的高效延迟加载扩展方法:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace LT
{
    public static class Utility
    {
        static string invalidRegStr;

        public static string MakeValidFileName(this string name)
        {
            if (invalidRegStr == null)
            {
                var invalidChars = System.Text.RegularExpressions.Regex.Escape(new string(System.IO.Path.GetInvalidFileNameChars()));
                invalidRegStr = string.Format(@"([{0}]*\.+$)|([{0}]+)", invalidChars);
            }

            return System.Text.RegularExpressions.Regex.Replace(name, invalidRegStr, "_");
        }
    }
}

0

如果将目录和文件名一起附加并清理,而不是单独清理,则代码会更干净。至于清除:,只需取字符串中的第二个字符即可。如果它等于“ replacechar”,则用冒号代替。由于此应用程序供您自己使用,因此这样的解决方案应该足够了。


-1
using System;
using System.IO;
using System.Linq;
using System.Text;

public class Program
{
    public static void Main()
    {
        try
        {
            var badString = "ABC\\DEF/GHI<JKL>MNO:PQR\"STU\tVWX|YZA*BCD?EFG";
            Console.WriteLine(badString);
            Console.WriteLine(SanitizeFileName(badString, '.'));
            Console.WriteLine(SanitizeFileName(badString));
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.ToString());
        }
    }

    private static string SanitizeFileName(string fileName, char? replacement = null)
    {
        if (fileName == null) { return null; }
        if (fileName.Length == 0) { return ""; }

        var sb = new StringBuilder();
        var badChars = Path.GetInvalidFileNameChars().ToList();

        foreach (var @char in fileName)
        {
            if (badChars.Contains(@char)) 
            {
                if (replacement.HasValue)
                {
                    sb.Append(replacement.Value);
                }
                continue; 
            }
            sb.Append(@char);
        }
        return sb.ToString();
    }
}
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.