.net里面的StreamReader读取文本文件默认使用utf-8的编码,因此,如果你写一个最简单的使用StreamReader.ReadToEnd的方法读出一个文本文件放入文本框中,八成出现的是乱码。因为在中文系统上,纯文本文件默认的保存编码是ASCII。
但是使用的时候也不能全部都按照ASCII来读,因为你也无法保证系统上是否会读到UNICODE的文件。因此,需要一个侦测文件编码类型并且能够按照相应类型来读取的方法。
找了一个小时,终于找到了。
如果文件是有特定编码格式的,这个编码会记录在文件的头四个字节里。因此,读出这四个字节,检查是否是Unicode就可以了。如果这四个字节并没有特定的意义,你就只能猜测一个了,一般情况下,就Default就比较合适了。
Public Function LoadFile(ByVal FileName As String) As String
Dim enc As Encoding
Dim file As FileStream = New FileStream(FileName, FileMode.Open, FileAccess.Read, FileShare.Read)
If file.CanSeek Then
Dim bom(3) As Byte
file.Read(bom, 0, 4)
If ((bom(0) = &HEF And bom(1) = &HBB And bom(2) = &HBF) Or (bom(0) = &HFF And bom(1) = &HFE) Or (bom(0) = &HFE And bom(1) = &HFF) Or (bom(0) = 0 And bom(1) = 0 And bom(2) = &HFE And bom(3) = &HFF)) Then
enc = Encoding.Unicode
Else
enc = Encoding.Default
End If
file.Seek(0, SeekOrigin.Begin)
Else
enc = Encoding.Default
End If
Dim FileByte(file.Length) As Byte
file.Read(FileByte, 0, file.Length)
'转成系统对应的编码字符
Dim MyEncoder As Encoding = enc
file.Close()
file = Nothing
Return New String(MyEncoder.GetChars(FileByte))
End Function