如何检测文本文件的编码/代码页
在我们的应用中,我们收到的文本文件(.txt,.csv从不同的来源,等等)。读取时,这些文件有时包含垃圾,因为这些文件是在其他/未知代码页中创建的。 有没有办法(自动)检测文本文件的代码页? 的detectEncodingFromByteOrderMarks,对StreamReader构造,工程UTF8 和其他的Unicode标文件,但是我正在寻找一种方法来检测代码页,像ibm850,windows1252。 感谢您的回答,这就是我所做的。 我们收到的文件来自最终用户,他们不了解代码页。接收者也是最终用户,到目前为止,这是他们对代码页的了解:代码页存在并且令人讨厌。 解: 在记事本中打开收到的文件,查看乱码的文本。如果有人叫弗朗索瓦(François)之类的东西,凭着您的智慧,您就可以猜到。 我创建了一个小应用程序,用户可用来打开文件,并输入一个文本,用户知道使用正确的代码页时它将出现在文件中。 循环浏览所有代码页,并使用用户提供的文本显示提供解决方案的代码页。 如果弹出一个以上的代码页,请要求用户指定更多文本。