C#正则表达式获取<p>标签的内容
[code=HTML][/code]
<P>日 期:<BR>一、热点事件概述<BR>二、网络舆情关注度分析<BR> 1. 各类媒体报道趋势分析<BR> 2. 微博关注度分析<BR> 3. 各类媒体报道情况排行<BR>三、舆情发展态势评估<BR></P>
<TABLE border=1>
<TBODY>
<TR>
<TD>标题</TD>
<TD>倾向性</TD>
<TD>点击量</TD>
<TD>发布时间</TD></TR>
<TR>
<TD>大庆 小区门口附近的步道板上隐藏 陷人坑</TD>
<TD>负面</TD>
<TD>78</TD>
<TD>2012-9-13 4:06:08</TD></TR></TBODY></TABLE><IMG src="E:\dfldSummarize201209019\dfldSummarize201209011\dfldSummarize\dfldSummarize\bin\Debug\1\56-68-0-3-0.JPG">
我只要p标签内容,内容里面有<br>转换成换行, 转换成空格。求高手帮忙。。。
------解决方案--------------------Regex.Match(s,@"(?is)<p>(.*?)</p>").Groups[1].Value
替换就不必说了吧
------解决方案-------------------- string FilterHtmlP(string html)
{
Regex rReg = new Regex(@"<P>[\s\S]*?</P>", RegexOptions.IgnoreCase);
string pContent = rReg.Match(html).Value;
pContent = Regex.Replace(pContent, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
pContent = Regex.Replace(pContent, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);
return pContent;
}
------解决方案--------------------
C# code
string source="html源码";
Regex Reg = new Regex(@"(?is)(?<=<P>).*?(?=</P>)", RegexOptions.IgnoreCase);
string Content = Reg.Match(source).Value;
Content = Regex.Replace(Content, @"(?i)(<BR>| )", "", RegexOptions.IgnoreCase);