正则表达式 匹配html问题
需要匹配的HTML: <a> adfad </a>  <a> fafsdfa </a>    
 为什么这个正则表达式 <a.*> (.*?) </a> 匹配的是 <a> adfad </a>  <a> fafsdfa </a> 其中$1=> adfad </a>  <a 
 而这个正则表达式 <a(.*?)> (.*?) </a> 匹配的是 <a> adfad </a> 和 <a> fafsdfa </a>  
 ------------------------------------   
 下面正则匹配出来的结果,是我想要的,但是,为什么分组与不分组有这么大的差距? 
------解决方案--------------------加个?表示非贪婪匹配。
------解决方案--------------------正如一楼说的,这跟加分组是没有关系的,而是那个“?”号,表示非贪婪 
 如果是贪婪模式,那么 <a.*> (.*?) </a> 中的第一个“.*”,将一直向后匹配到最后,然后回溯到“ <a> adfad </a>  <a> fafsdfa </a> ”的第三个“> ”前, 
 其中$1应该也不是“> adfad </a>  <a”,而是“fafsdfa”...
------解决方案--------------------在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如: "{m,n} ",  "{m,} ",  "? ",  "* ",  "+ ",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本  "dxxxdxxxd ",举例如下:   
 (d)(\w+)    "\w+ " 将匹配第一个  "d " 之后的所有字符  "xxxdxxxd " 
 (d)(\w+)(d)   "\w+ " 将匹配第一个  "d " 和最后一个  "d " 之间的所有字符  "xxxdxxx "。虽然  "\w+ " 也能够匹配上最后一个  "d ",但是为了使整个表达式匹配成功, "\w+ " 可以  "让出 " 它本来能够匹配的最后一个  "d "      
     由此可见, "\w+ " 在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个  "d ",但那也是为了让整个表达式能够匹配成功。同理,带  "* " 和  "{m,n} " 的表达式都是尽可能地多匹配,带  "? " 的表达式在可匹配可不匹配的时候,也是尽可能的  "要匹配 "。这 种匹配原则就叫作  "贪婪 " 模式 。   
     非贪婪模式:   
     在修饰匹配次数的特殊符号后再加上一个  "? " 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的  "不匹配 "。这种匹配原则叫作  "非贪婪 " 模式,也叫作  "勉强 " 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本  "dxxxdxxxd " 举例:      
 (d)(\w+?)    "\w+? " 将尽可能少的匹配第一个  "d " 之后的字符,结果是: "\w+? " 只匹配了一个  "x " 
 (d)(\w+?)(d)  为了让整个表达式匹配成功, "\w+? " 不得不匹配  "xxx " 才可以让后边的  "d " 匹配,从而使整个表达式匹配成功。因此,结果是: "\w+? " 匹配  "xxx "        
  <a.*> (.*?) </a> 这里的 <a.*> 为贪婪模式,匹配 <a> adfad </a>  <a> fafsdfa </a> 可以一直成功匹配到最后,这里的$1应为fafsdfa 
 而比如匹配字符串改为 <a> adfad </a>  <a> fafsdfa </table> ,这样正则表达式若要匹配成功,只能匹配到 <a> adfad </a> ,此时$1是adfad 
  <a(.*?)> (.*?) </a> 这里的 <a(.*?)> 为非贪婪模式,所以可以分别匹配 <a> adfad </a> 和 <a> fafsdfa </table>    
 当然,这里还有另外一个潜在的原因,那就是 
 . 小数点可以匹配除了换行符(\n)以外的任意一个字符 
 如果正则式改成 <a[^> ]*> (.*?) </a> ,即使同样为贪婪模式,那和它将与 <a(.*?)> (.*?) </a> 匹配的结果一致 
------解决方案--------------------这就是贪婪匹配的问题啊,只有(.*?)能够禁止贪婪匹配的过程。   
 在你的第一个表达式中,虽然禁止了 <a> 和 </a> 之间的贪婪匹配,但没有禁止 <a> 内的贪婪匹配,所以匹配时第一个(.*)就匹配了 "> adfad </a>  <a "(也就是第一个 <a> 到第二个 <a> )。
------解决方案--------------------非贪婪模式:   
     在修饰匹配次数的特殊符号后再加上一个  "? " 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的  "不匹配 "。这种匹配原则叫作  "非贪婪 " 模式,也叫作  "勉强 " 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本  "dxxxdxxxd " 举例:   
 表达式 
  匹配结果    
 (d)(\w+?) 
   "\w+? " 将尽可能少的匹配第一个  "d " 之后的字符,结果是: "\w+? " 只匹配了一个  "x "    
 (d)(\w+?)(d) 
  为了让整个表达式匹配成功, "\w+? " 不得不匹配  "xxx " 才可以让后边的  "d " 匹配,从而使整个表达式匹配成功。因此,结果是: "\w+? " 匹配  "xxx "