日期:2014-05-18  浏览次数:20767 次

word转换html后,怎么用程序去掉html代码中的样式表?高分求助。
MS   Word转换html后,我想在线编辑转换后的html,由于Word样式的特殊性,我想在转换后html代码中过滤掉word中的样式(class和style),只留下标准的html,请各位高手提供一下解决方法,最好使用Java来实现。

<p   class=MsoNormal   style= 'margin-left:27.0pt;mso-para-margin-left:2.57gd;
text-indent:.1pt '> <span   style= 'font-family:宋体;mso-ascii-font-family: "Times   New   Roman ";
mso-hansi-font-family: "Times   New   Roman " '> 实施方案: </span>   <span   style= 'font-family:
宋体;mso-ascii-font-family: "Times   New   Roman ";mso-hansi-font-family: "Times   New   Roman " '> 针对其主要竞争对手中国移动通信公司做了一份市场调查。通过对各大厅现场察看及对用户的抽样调查,从服务态度、大厅环境、套餐优惠、通话资费等方面做了详细分析。 </span> </p>

转换后为:
<p   > <span   > 实施方案: </span>   <span   > 针对其主要竞争对手中国移动通信公司做了一份市场调查。通过对各大厅现场察看及对用户的抽样调查,从服务态度、大厅环境、套餐优惠、通话资费等方面做了详细分析。 </span> </p>




------解决方案--------------------
ntko在线word操作
------解决方案--------------------
最好不要动它,直接用在线编辑器编辑就是了。
非要去掉的话就用 xml 解析器去掉不需要的属性和节点即可。