日期:2014-05-17  浏览次数:20838 次

正则表达式将html解析为xml文件的问题
我用爬虫把原网页爬下来后,想把其中一部分内容提取出来并且存为xml格式,想问下各位是用什么工具进行解析呢?
html代码如下:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK" />
<title>【联想Y400N-ISE T怎么样】lenovo Y400N-ISE T好用吗_Y400N-ISE T优缺点-ZOL中关村在线</title>
            <div class="comment_tit"><h4><a href="/352/351323/review_0_0_491587_1.shtml" target="_self">总体还不错</a></h4></div>
            <div class="comment_content">
                            <dl>
                <dt class="good">优点</dt>
                <dd>配置较高,显卡也很给力。外表不错。在不考虑散热的情况下游戏性能极佳。音响的音量和音质都非常不错。联想的做工也都很好。odd插槽 提供了更多选择。</dd>
              </dl>
                            <dl>
                <dt class="bad">缺点</dt>
                <dd>散热一般,不过在大多数笔记本来说都是不错的了。用了蛮久,显卡的温度到还都是正常,cup一般也不高,玩游戏的时候cup就会飙到65度以上。整个机器都很热,特别是通风口。没有背光键盘很不方便。硬盘也有着大多数笔记本的病通——5200转。屏幕分辨率较低,有些泛白,色泽色彩都不是很好。重量较重。电池续航能力不足。要插上电源才能高效运行。</dd>
              </dl>
                            <dl>
                <dt>总结</dt>
                <dd>总的来说还是不错的,但是性价比不高,联想的电脑普遍高价,但是在做工等等其他方面基本秒杀同配置机型。推荐游戏发烧友和手中有着充足的经济的童鞋购买。如果手头紧,购买神舟等等性价比高的机型。当然也可以攒钱买这台。毕竟它贵不是空穴而来的,而是实实在在的质量。</dd>
              </dl>
                          </div>
                <dt class="good">优点</dt>