我有一个byte[]
从恰好包含UTF-8的文件加载的数组。
在一些调试代码中,我需要将其转换为字符串。是否有一个班轮可以做到这一点?
在幕后,它应该只是一个分配和一个内存复制,因此即使未实现它也应该是可能的。
我有一个byte[]
从恰好包含UTF-8的文件加载的数组。
在一些调试代码中,我需要将其转换为字符串。是否有一个班轮可以做到这一点?
在幕后,它应该只是一个分配和一个内存复制,因此即使未实现它也应该是可能的。
Answers:
string result = System.Text.Encoding.UTF8.GetString(byteArray);
System.Text.Encoding.UTF8.GetString(buf).TrimEnd('\0');
。
至少有四种不同的方式可以完成此转换。
编码的GetString
,但是如果原始字节具有非ASCII字符,您将无法取回原始字节。
BitConverter.ToString
输出是一个以“-”分隔的字符串,但是没有.NET内置方法将字符串转换回字节数组。
Convert.ToBase64String
您可以使用轻松将输出字符串转换回字节数组Convert.FromBase64String
。
注意:输出字符串可以包含“ +”,“ /”和“ =”。如果要在URL中使用字符串,则需要对其进行显式编码。
HttpServerUtility.UrlTokenEncode
您可以使用轻松将输出字符串转换回字节数组HttpServerUtility.UrlTokenDecode
。输出字符串已经是URL友好的了!缺点是,System.Web
如果您的项目不是Web项目,则需要汇编。
一个完整的例子:
byte[] bytes = { 130, 200, 234, 23 }; // A byte array contains non-ASCII (or non-readable) characters
string s1 = Encoding.UTF8.GetString(bytes); // ���
byte[] decBytes1 = Encoding.UTF8.GetBytes(s1); // decBytes1.Length == 10 !!
// decBytes1 not same as bytes
// Using UTF-8 or other Encoding object will get similar results
string s2 = BitConverter.ToString(bytes); // 82-C8-EA-17
String[] tempAry = s2.Split('-');
byte[] decBytes2 = new byte[tempAry.Length];
for (int i = 0; i < tempAry.Length; i++)
decBytes2[i] = Convert.ToByte(tempAry[i], 16);
// decBytes2 same as bytes
string s3 = Convert.ToBase64String(bytes); // gsjqFw==
byte[] decByte3 = Convert.FromBase64String(s3);
// decByte3 same as bytes
string s4 = HttpServerUtility.UrlTokenEncode(bytes); // gsjqFw2
byte[] decBytes4 = HttpServerUtility.UrlTokenDecode(s4);
// decBytes4 same as bytes
var decBytes2 = str.Split('-').Select(ch => Convert.ToByte(ch, 16)).ToArray();
当您不知道编码时,从字节数组转换为字符串的一般解决方案:
static string BytesToStringConverted(byte[] bytes)
{
using (var stream = new MemoryStream(bytes))
{
using (var streamReader = new StreamReader(stream))
{
return streamReader.ReadToEnd();
}
}
}
定义:
public static string ConvertByteToString(this byte[] source)
{
return source != null ? System.Text.Encoding.UTF8.GetString(source) : null;
}
使用:
string result = input.ConvertByteToString();
将a转换byte[]
为a string
看起来很简单,但是任何形式的编码都可能使输出字符串混乱。这个小功能可以正常工作而不会产生任何意外结果:
private string ToString(byte[] bytes)
{
string response = string.Empty;
foreach (byte b in bytes)
response += (Char)b;
return response;
}
使用(byte)b.ToString("x2")
,输出b4b5dfe475e58b67
public static class Ext {
public static string ToHexString(this byte[] hex)
{
if (hex == null) return null;
if (hex.Length == 0) return string.Empty;
var s = new StringBuilder();
foreach (byte b in hex) {
s.Append(b.ToString("x2"));
}
return s.ToString();
}
public static byte[] ToHexBytes(this string hex)
{
if (hex == null) return null;
if (hex.Length == 0) return new byte[0];
int l = hex.Length / 2;
var b = new byte[l];
for (int i = 0; i < l; ++i) {
b[i] = Convert.ToByte(hex.Substring(i * 2, 2), 16);
}
return b;
}
public static bool EqualsTo(this byte[] bytes, byte[] bytesToCompare)
{
if (bytes == null && bytesToCompare == null) return true; // ?
if (bytes == null || bytesToCompare == null) return false;
if (object.ReferenceEquals(bytes, bytesToCompare)) return true;
if (bytes.Length != bytesToCompare.Length) return false;
for (int i = 0; i < bytes.Length; ++i) {
if (bytes[i] != bytesToCompare[i]) return false;
}
return true;
}
}
还有一个类UnicodeEncoding,用法非常简单:
ByteConverter = new UnicodeEncoding();
string stringDataForEncoding = "My Secret Data!";
byte[] dataEncoded = ByteConverter.GetBytes(stringDataForEncoding);
Console.WriteLine("Data after decoding: {0}", ByteConverter.GetString(dataEncoded));
UnicodeEncoding
是有史以来最差的名字;unicode根本不是编码。该类实际上是UTF-16。我认为是小端版本。
一个Linq一线式byteArrFilename
将从文件中读取的字节数组转换为纯ascii C样式的零终止字符串是这样的:方便读取旧存档格式的文件索引表之类的内容。
String filename = new String(byteArrFilename.TakeWhile(x => x != 0)
.Select(x => x < 128 ? (Char)x : '?').ToArray());
我'?'
在这里将所有非纯ascii用作默认字符,但是可以更改。如果您想确保可以检测到它,请改用它,'\0'
因为TakeWhile
开始时请确保以这种方式构建的字符串不可能包含'\0'
来自输入源的值。
BitConverter
类可用于将转换byte[]
为string
。
var convertedString = BitConverter.ToString(byteAttay);
BitConverter
类的文档可以在MSDN上找到
据我所知,给出的答案都不能保证零终止的正确行为。在有人给我不同的显示之前,我用以下方法编写了自己的静态类来处理此问题:
// Mimics the functionality of strlen() in c/c++
// Needed because niether StringBuilder or Encoding.*.GetString() handle \0 well
static int StringLength(byte[] buffer, int startIndex = 0)
{
int strlen = 0;
while
(
(startIndex + strlen + 1) < buffer.Length // Make sure incrementing won't break any bounds
&& buffer[startIndex + strlen] != 0 // The typical null terimation check
)
{
++strlen;
}
return strlen;
}
// This is messy, but I haven't found a built-in way in c# that guarentees null termination
public static string ParseBytes(byte[] buffer, out int strlen, int startIndex = 0)
{
strlen = StringLength(buffer, startIndex);
byte[] c_str = new byte[strlen];
Array.Copy(buffer, startIndex, c_str, 0, strlen);
return Encoding.UTF8.GetString(c_str);
}
的原因startIndex
是在我正在研究的示例中,我需要将a解析byte[]
为以空终止的字符串组成的数组。在简单情况下可以安全地忽略它
byteArr.TakeWhile(x => x != 0)
是解决空终止问题的快速简便的方法。
hier是您不必费心编码的结果。我在网络类中使用了它,并以字符串形式发送二进制对象。
public static byte[] String2ByteArray(string str)
{
char[] chars = str.ToArray();
byte[] bytes = new byte[chars.Length * 2];
for (int i = 0; i < chars.Length; i++)
Array.Copy(BitConverter.GetBytes(chars[i]), 0, bytes, i * 2, 2);
return bytes;
}
public static string ByteArray2String(byte[] bytes)
{
char[] chars = new char[bytes.Length / 2];
for (int i = 0; i < chars.Length; i++)
chars[i] = BitConverter.ToChar(bytes, i * 2);
return new string(chars);
}
试试这个控制台应用程序:
static void Main(string[] args)
{
//Encoding _UTF8 = Encoding.UTF8;
string[] _mainString = { "Héllo World" };
Console.WriteLine("Main String: " + _mainString);
//Convert a string to utf-8 bytes.
byte[] _utf8Bytes = Encoding.UTF8.GetBytes(_mainString[0]);
//Convert utf-8 bytes to a string.
string _stringuUnicode = Encoding.UTF8.GetString(_utf8Bytes);
Console.WriteLine("String Unicode: " + _stringuUnicode);
}
我在这篇文章中看到了一些答案,有可能被认为是完整的基础知识,因为在C#编程中有几种方法可以解决相同的问题。仅需考虑的一件事是Pure UTF-8与带有BOM的UTF-8之间的区别。
在上周的工作中,我需要开发一种功能,该功能可以输出带BOM的CSV文件和带有纯UTF-8(不带BOM)的其他CSV,每种CSV文件的编码类型将由不同的非标准化API使用, API读取带有BOM的UTF-8,而其他API读取不带有BOM的东西。我需要研究有关此概念的参考,阅读“ 没有BOM的UTF-8和UTF-8有什么区别? ”堆栈溢出讨论和此Wikipedia链接“ 字节顺序标记 ”来构建我的方法。
最后,我的两种UTF-8编码类型(带有BOM和pure)的C#编程都必须类似于以下示例:
//for UTF-8 with B.O.M., equals shared by Zanoni (at top)
string result = System.Text.Encoding.UTF8.GetString(byteArray);
//for Pure UTF-8 (without B.O.M.)
string result = (new UTF8Encoding(false)).GetString(byteArray);