怎么从UTF-8的XML中读取中文-Java教程-爱易网页

怎么从UTF-8的XML中读取中文

日期：2014-05-20　浏览次数：20937 次

如何从UTF-8的XML中读取中文
XML文件中用的是UTF-8编码，可是又包含中文，该怎么解决？
直接解析肯定是不行的，但是如果我先用GBK替换<?xml version="1.0" encoding="UTF-8"?>中的UTF-8的话，仍然会出现org.xml.sax.SAXParseException: An invalid XML character错误。

XML输入：

XML code

<?xml version="1.0" encoding="UTF-8"?><Files Domain="odpsfile" Path="2008"><File FileTempPath="6c08a588-c245-11dc-958a-d1128874cdde.doc" Index="1" Name="卫生防疫.doc" Title="新建"/></Files>

JAVA代码

Java code

String input = glwj.replace("UTF-8","GBK");
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder documentBuilder = dbf.newDocumentBuilder();
Document doc = documentBuilder.parse(StringBufferInputStream(input));

------解决方案--------------------
你是不是文件编码不对...用记事本打开,然后另存看下.

是否是UTF-8,或者如果是ANSI,就一定错了.

如果你的类本身是UTF-8编码,一般不会有问题.

不知道你是jdom,还是dom4j....
------解决方案--------------------
先取到对应节点的值，然后转码

Dom4j为例子

Node node=document.selectSingleNode("/Files/File/@Name");
String text=node.getText();
text=new String(text.getBytes("UTF-8"),"GBK");
------解决方案--------------------
用jdom来试试。

XML code


<?xml version="1.0" encoding="UTF-8"?><Files Domain="odpsfile" Path="2008"><File FileTempPath="6c08a588-c245-11dc-958a-d1128874cdde.doc" Index="1" Name="卫生防疫.doc" Title="新建"/></Files>

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

怎么从UTF-8的XML中读取中文

相关资料更多>

推荐阅读更多>