正则页面内容匹配
比如:http://news.sina.com.cn/c/2013-06-26/115227502792.shtml
匹配它的标题和里面的内容。
------解决方案--------------------标题 (?i)<h1[^>]*?id=(['""]?)artibodyTitle\1[^>]*?>(?<Title>[^<>]*?)</h1>
去分组 Groups["Title"].value
内容 (?i)<div[^>]*?id=(['""]?)artibody\1[^>]*?>[\s\S]*?<p>\s*?(?<Content>[^<>]*?)\s*?</p>[\s\S]*?</div>
去分组 Groups["Content"].value
------解决方案--------------------1、
string patternTitle=@"(?is)<h1[^>]*?id=""artibodyTitle""[^>]*?>(?<Title>.*?)</h1>";
取Groups.Groups["Title"].Value
2、
string patternContent=@"(?is)<div[^>]*?id=""artibody""[^>]*?>[\s\S]*?<p>(?<Content>.*?)</p>[\s\S]*?</div>";
取Groups.Groups["Content"].Value