日期:2014-05-16  浏览次数:20929 次

[C#/asp.net]字符串编码、解码以及编码转换

在项目开发中不少朋友都会遇到字符串编码、解码或者编码转换的问题。

为了方便初学者朋友,我就在这里抛砖引玉地讲解一下吧。

在C#中我们一般使用System.Text.Encoding来处理字符串编码的问题。

1、字符串解码

string code = "00430023662f4e0095e85f884f1896c576848bed8a00";
有这么一段代码,我们如何把它转换成可识别的中文呢?
有经验或对各种编码比较熟悉的朋友可能直接就可以看出来,但是我们在不知道编码的情况下如何快速把该编码转换为汉字呢?
string text = Encoding.UTF8.GetString(byte[] bytes);
在知道这是UTF8编码的情况下我们可以通过GetString来进行解码。
不知道编码其实我们可以通过遍历的方式来穷举一下就可以了:
            string sources = "C#是一门很优雅的语言";
            string code = "00430023662f4e0095e85f884f1896c576848bed8a00";
            foreach (var encoding in Encoding.GetEncodings())
            {
                string temp_code = string.Concat(encoding.GetEncoding().GetBytes(sources).Select(item => item.ToString("x").PadLeft(2, '0')));
                if (temp_code == code)
                {
                    Console.WriteLine(temp_code);
                    Console.WriteLine(encoding.Name);
                }
            }
如果没有sources字符串,只有code编码的时候也可以遍历所有encoding,看看什么encoding可以输出正常的中文即可。

或者在直接知道编码的情况下:
            string code = "00430023662f4e0095e85f884f1896c576848bed8a00";
            byte[] buffer = Regex.Matches(code, "[0-9a-fA-F]{2}").Cast<Match>().Select(item => Convert.ToByte(item.Value, 16)).ToArray();
            Console.WriteLine(Encoding.BigEndianUnicode.GetString(buffer));

2、字符串编码

编码就相对比较简单了。
string temp_code = string.Concat(encoding.GetEncoding().GetBytes(sources).Select(item => item.ToString("x").PadLeft(2, '0')));
我们上面的解码过程中就是把字符串用各种编码方式进行编码然后和已有的编码比较。

3、编码转换

            byte[] buffer = Encoding.UTF8.GetBytes(sources);//可能是从其他地方获取过来的参数
            buffer = Encoding.Convert(Encoding.UTF8/*原始编码*/, Encoding.ASCII/*目标编码*/, buffer);

PS:
在web开发中可能经常遇到的是url编码、解码的问题,或者url参数乱码等等。。。
Server.UrlEncode("");
Server.UrlDecode("");
System.Web.HttpUtility.UrlEncode("");
System.Web.HttpUtility.UrlDecode("");
System.Uri.EscapeDataString("");
System.Uri.UnescapeDataString("");
通常可以使用这些工具类来编码、解码。乱码一般都是因为发送方和接收放使用的编码不一致造成的,在解码过程中加上正确的编码即可。