正则表达式的最小婚配-C#教程-爱易网页

正则表达式的最小婚配

日期：2014-05-17　浏览次数：21612 次

正则表达式的最小匹配
在做提取网页正文的东西，用的HtmlAgilityPack 可是通过里面Document.InnerText()方法取出来的内容含有网页的注释信息，想把这些内容去除。如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

搜狐-中国最大的门户网站


      .
      .
      .


然后我是想通过正则表达式找出里面的注释以及第一段的信息，再将其删除，现在的正则表达式是这么写的：

string patternNote = @"()|(<![\S\s].*?>)";
可是这样不能把<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
给匹配到，如果不用 . 可以找到换行的可是是最大匹配我想做最小匹配不知道怎么做，求大神们帮忙
------解决方案--------------------



            string str = @"<!DOCTYPE html PUBLIC ""-//W3C//DTD XHTML 1.0 Transitional//EN""

 ""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"">sdjfksjfdlkdsjf<!--2008.1.1-->sjdfkjdd";



            Regex regex = new Regex(@"(?is)<[^>]*?>");

            MatchCollection mc = regex.Matches(str);

            foreach (Match item in mc)

                Console.WriteLine("匹配项："+item.Value);



            Console.WriteLine();

            str = regex.Replace(str, "");

            Console.WriteLine("去除注释之后："+str);



            Console.Read();

------解决方案--------------------
(?is)<![^>]*>
------解决方案--------------------
楼主的代码
string patternNote = @"()
------解决方案--------------------
(<![\S\s].*?>)";
用了[\s\S]表示任意字符，后面就不该再加小数点.了，小数点.匹配除换行符\n外的任意字符，所以这里匹配不了换行，去掉小数点可以满足你的要求
string patternNote = @"()
------解决方案--------------------
(<![\S\s]*?>)";
不过这样写效率比较低，可以用排除型字符组
string patternNote = @"<![^>]*>";

PS：由于这里不涉及到字母，也不涉及到小数点，所以不需要使用(?is)

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

正则表达式的最小婚配

相关资料更多>

推荐阅读更多>