求抽取HTML正文正则表达式解决方案-C#教程-爱易网页

求抽取HTML正文正则表达式解决方案

日期：2014-05-19　浏览次数：21361 次

求抽取HTML正文正则表达式
字符串如下
<html>
 It is test 
 abc 
 



</html>

需要抽取前两行。
我写表达式如下
Regex regex = new Regex (@ " <[^/> ]+> [^ <> /]+[a-zA-Z,\.]+ </[^> ]+> ");
不知道怎么才能判断中间可以有 “\s” 但必须包含字母。

也就是中间的部分可以包括字母和空格以及任何看不见的字符（\s）。但不能只包含看不见的字符（\s）

多谢各位老大！

------解决方案--------------------
用正向预搜索(?!\s+ <)

<[^> ]*?> (?!\s+ <)([^ <]*?) <[^> ]*?>
------解决方案--------------------
如果 也不是你想要的，那就应该是(?!\s* <)

正向预搜索： "(?!xxxxx) "

格式： "(?!xxxxx) "，在被匹配的字符串中，它对所处的 "缝隙 " 或者 "两头 " 附加的条件是：所在缝隙的右侧，必须不能够匹配上 xxxxx 这部分的表达式。因为它只是在此作为这个缝隙上附加的条件，所以它并不影响后边的表达式去真正匹配这个缝隙之后的字符。这就类似 "\b "，本身不匹配任何字符。 "\b " 只是将所在缝隙之前、之后的字符取来进行了一下判断，不会影响后边的表达式来真正的匹配。

> (?!\s* <)
表示在“> ”的右侧，下一个 " < "之前，不能是空格，制表符等空白符号

<[^> ]*?> (?!\s* <)([^ <]*?) <[^> ]*?>

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

C#读取QQWry.Dat资料实现IP查询

装了VA_X将vs2010中的智能感应覆盖掉了，请教怎么恢复过来

一起聊聊.NET开发B/S结构的系统中你所用的方法与思路。解决方法

小弟我在C#中用MWNumericArray定义了两个矩阵对象，请教怎么求这两个矩阵的加法“+”操作

一个和java当中同样的功能,请教在c#当中怎么实例,等待中.

请教如何做一个能够来回滚动的进度条

C#第2周实验-任务2（1）-用户输入一个字符，并用Console类的Readkey()方法读取该字符，并在控制台下输出该字符(改进版）

vs2008/vs2010安装不了，提示如图解决思路

求抽取HTML正文正则表达式解决方案

相关资料更多>

推荐阅读更多>