word转换html后,怎么用程序去掉html代码中的样式表?高分求助。
MS Word转换html后,我想在线编辑转换后的html,由于Word样式的特殊性,我想在转换后html代码中过滤掉word中的样式(class和style),只留下标准的html,请各位高手提供一下解决方法,最好使用Java来实现。
如
<p class=MsoNormal style= 'margin-left:27.0pt;mso-para-margin-left:2.57gd;
text-indent:.1pt '> <span style= 'font-family:宋体;mso-ascii-font-family: "Times New Roman ";
mso-hansi-font-family: "Times New Roman " '> 实施方案: </span> <span style= 'font-family:
宋体;mso-ascii-font-family: "Times New Roman ";mso-hansi-font-family: "Times New Roman " '> 针对其主要竞争对手中国移动通信公司做了一份市场调查。通过对各大厅现场察看及对用户的抽样调查,从服务态度、大厅环境、套餐优惠、通话资费等方面做了详细分析。 </span> </p>
转换后为:
<p > <span > 实施方案: </span> <span > 针对其主要竞争对手中国移动通信公司做了一份市场调查。通过对各大厅现场察看及对用户的抽样调查,从服务态度、大厅环境、套餐优惠、通话资费等方面做了详细分析。 </span> </p>
------解决方案--------------------ntko在线word操作
------解决方案--------------------最好不要动它,直接用在线编辑器编辑就是了。
非要去掉的话就用 xml 解析器去掉不需要的属性和节点即可。