如何截取网页内容 谢谢
本帖最后由 cnxxxxcncn 于 2013-08-03 10:26:34 编辑
请教两个问题
问题一:
c2="<title>网站名</title>"
string d2 = @"<title>(?<title>[^<]*)</title>";
string title = Regex.Match(c2, d2).ToString();
结果是:<title>网站名</title>
我想要的结果是:网站名
表达式改怎么写?
问题二:
字符串 str1
<table class="result" id="3" tpl="se_st_default" ><tr><td class="f" ><h3 class="t">
<span class="g">baidu1.cn/<b>shownews.asp</b>?<b>id=</b>329 2011-11-14 </span>
濮阳-郑州 5:30-19:00 30-40分/班 濮阳-保定 7:20 濮阳-安阳 6:10-18:30 20-30分/...</div
<span class="g">www.baidu2.com/<b>shownews.asp</b>?<b>id=</b>412 2011-5-16 </span><table class="result" id="3" tpl="se_st_default" ><tr><td class="f" ><h3 class="t">
<span class="g">baidu3.cn/<b>shownews.asp</b>?<b>id=</b>329 2011-11-14 </span>濮阳-郑州 5:30-19:00 30-40分/班 濮阳-保定 7:20 濮阳-安阳 6:10-18:30 20-30分/...</div
<span class="g">www.baidu4.com/<b>shownews.asp</b>?<b>id=</b>412 2011-5-16 </span><table class="result" id="3" tpl="se_st_default" ><tr><td class="f" ><h3 class="t">
我想要的结果是,循环输出:
baidu1.cn
www.baidu2.com
baidu3.cn
www.baidu4.com
------解决方案--------------------string title = Regex.Match(c2, d2).Groups["title"].Value; //网站名
------解决方案--------------------string sInput = File.ReadAllText(@"C:\Users\myx\Desktop\Test.txt",Encoding.GetEncoding("GB2312"));
var list = Regex.Matches(sInput, @"(?<=<span[^>]*?class=""g""[^>]*?>)[^/]+").OfType<Match>().Select(a => a.Value);