日期:2014-05-18  浏览次数:20716 次

一个抓取部分文字的正则,怎么写啊
列pagecontents的内容如下:

<h1 class="firstHeading">南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</h1>
<div id="bodyContent">
<h3 id="siteSub">取自 AEED</h3>
<div id="contentSub"></div>
<div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
<a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="法律法规">法律法规</a>-><a href="/index.php/%E5%9C%B0%E6%96%B9%E7%8E%AF%E5%A2%83%E4%BF%9D%E6%8A%A4%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84" title="地方环境保护法律法规">地方环境保护法律法规</a>-><a href="/index.php/%E6%B1%9F%E8%8B%8F" title="江苏">江苏</a>-><br /><table border="0" width="96%" align="center" cellspacing="0" cellpadding="5"><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:16pt"><b>江苏省人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定</b></font></td></tr><tr><td bgcolor="#FCFBF2" align="center"><br /><font color="navy" style="font-size:9pt"></font></td></tr>


我搜索"南京市人民代表大会常务委员..."出来这个结果,可是我只想要符合搜索的部分中文,其他怎么弄掉呢?


怎么只能搜出"南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定";

就像百度,google的搜索那样,搜出来网页显示的部分就是需要的内容



------解决方案--------------------
indexOf 取位置前后多少字符内
------解决方案--------------------
南京市人民代表大会常务委员.+(?=</?h1>)
------解决方案--------------------
Regex reg = new Regex(@"(?is)(?<=<h1[^>].*?>).*?(?=</h1>)");
------解决方案--------------------
探讨
如果别人搜的是“ 人民代表 ”

那这句“南京市人民代表大会常务委员会关于修改《南京城墙保护管理办法》的决定”该在呢么搜出?

结尾和开头也不一定是<h1>,就以<>来做界限,可以么?

------解决方案--------------------
感觉你问的似乎是两个问题?
(1)先把html中的html标签去掉
(2)作全文本索引。




------解决方案--------------------
探讨

这个内容就是在数据库中,搜索词条,就是搜索这列的内容。内容是包括很多东西的。
现在就是想像百度google那样,搜索词条,出来的条目下面全是关于词条的解释部分。