网站数据抓取(C#)
http://ent.qq.com/star/shouye2012/gangtai.htm
我只要要从这个网站上面获取这四块的所有内容,请大家帮忙正则表达式怎么写呀???我只要正则表达式,
,求帮助呀,用正则表达式怎么写呀???
------解决方案--------------------<div[^>]*>[\s\S]*?src="(?<pic>[^"]*)"\s*alt="(?<title>[^"]*)">[\s\S]*?<span\s*class="date">(?<date>[^<]*)</span>[\s\S]*<div[^>]*>(?<all>[^<]*)<
------解决方案--------------------更正一下
<div[^>]*>[\s\S]*?src="(?<pic>[^"]*)"\s*alt="(?<title>[^"]*)">[\s\S]*?<span\s*class="date">(?<date>[^<]*)</span>[\s\S]*?<div[^>]*>(?<all>[^<]*)<
加个去贪婪,免得多匹配
------解决方案--------------------
难道一次取4个不好吗
------解决方案--------------------
string tempStr="";//源文本
string pattern = @"(?i)<div[^>]*>[\s\S]*?src="(?<pic>[^"]*)"\s*alt="(?<title>[^"]*)">[\s\S]*?<span\s*class="date">(?<date>[^<]*)</span>[\s\S]*?<div[^>]*>(?<all>[^<]*)<";
Match m = Regex.Match(tempStr,pattern);
string value1 = m.Groups["pic"].Value;
string value2 = m.Groups["title"].Value;
string value3 = m.Groups["date"].Value;