一个抓取部分文字的正则,怎么写啊
列pagecontents的内容如下:
<h1 class="firstHeading">南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</h1>
<div id="bodyContent">
<h3 id="siteSub">取自 AEED</h3>
<div id="contentSub"></div>
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%8B%8F" title="江苏">江苏</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>江苏省人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt"></font></td></tr>
我搜索"南京市人民代表大会常务委员..."出来这个结果,可是我只想要符合搜索的部分中文,其他怎么弄掉呢?
怎么只能搜出"南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定";
就像百度,google的搜索那样,搜出来网页显示的部分就是需要的内容
------解决方案--------------------indexOf 取位置前后多少字符内
------解决方案--------------------南京市人民代表大会常务委员.+(?=</?h1>)
------解决方案--------------------Regex reg = new Regex(@"(?is)(?<=<h1[^>].*?>).*?(?=</h1>)");
------解决方案--------------------
------解决方案--------------------感觉你问的似乎是两个问题?
(1)先把html中的html标签去掉
(2)作全文本索引。
------解决方案--------------------