解析html网页
各位,我要读取个纯html页面,获取里面的内容
里面的东西我都要,存到数据库里,用正则太麻烦,而且东西可能会变的,有没有其他的方式,类似搞xml的?谢谢各位了
html
数据库
------解决方案--------------------正则最简单,用其它办法更麻烦
------解决方案--------------------
首先实例化一个HtmlDocument
HtmlDocument document = new HtmlDocument();
然后HtmlDocument 有Load方法和LoadHtml方法,分表从Stream加载和文本中加载。你用WebRequest获取到资源,解析就行了。关键要学会XPath表达式。