日期:2014-05-20  浏览次数:21029 次

正则基础知识
我看有些正则开头的时候是^   ,结尾是$  
可是我看不加也行把,有什么实际作用?
谢谢了

------解决方案--------------------
http://www.cnblogs.com/tuyile006/archive/2006/12/18/595874.html
------解决方案--------------------
为了规范咯,语法需要
------解决方案--------------------
要加比如XXX文本框只能输入一个或者多个数字^\d*$,你不能写成\d*
------解决方案--------------------
,接分
------解决方案--------------------
1. 什么是正则表达式

基本说来,正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Express。本文将用 < <regex> > 来表示一段具体的正则表达式。

一段文本就是最基本的模式,简单的匹配相同的文本。



2. 不同的正则表达式引擎

正则表达式引擎是一种可以处理正则表达式的软件。通常,引擎是更大的应用程序的一部分。在软件世界,不同的正则表达式并不互相兼容。本教程会集中讨论Perl 5 类型的引擎,因为这种引擎是应用最广泛的引擎。同时我们也会提到一些和其他引擎的区别。许多近代的引擎都很类似,但不完全一样。例如.NET正则库,JDK正则包。



3. 文字符号

最基本的正则表达式由单个文字符号组成。如 < <a> > ,它将匹配字符串中第一次出现的字符“a”。如对字符串“Jack is a boy”。“J”后的“a”将被匹配。而第二个“a”将不会被匹配。

正则表达式也可以匹配第二个“a”,这必须是你告诉正则表达式引擎从第一次匹配的地方开始搜索。在文本编辑器中,你可以使用“查找下一个”。在编程语言中,会有一个函数可以使你从前一次匹配的位置开始继续向后搜索。

类似的, < <cat> > 会匹配“About cats and dogs”中的“cat”。这等于是告诉正则表达式引擎,找到一个 < <c> > ,紧跟一个 < <a> > ,再跟一个 < <t> > 。

要注意,正则表达式引擎缺省是大小写敏感的。除非你告诉引擎忽略大小写,否则 < <cat> > 不会匹配“Cat”。



· 特殊字符

对于文字字符,有11个字符被保留作特殊用途。他们是:

[ ] \ ^ $ . | ? * + ( )

这些特殊字符也被称作元字符。

如果你想在正则表达式中将这些字符用作文本字符,你需要用反斜杠“\”对其进行换码 (escape)。例如你想匹配“1+1=2”,正确的表达式为 < <1\+1=2> > .

需要注意的是, < <1+1=2> > 也是有效的正则表达式。但它不会匹配“1+1=2”,而会匹配“123+111=234”中的“111=2”。因为“+”在这里表示特殊含义(重复1次到多次)。

在编程语言中,要注意,一些特殊的字符会先被编译器处理,然后再传递给正则引擎。因此正则表达式 < <1\+2=2> > 在C++中要写成“1\\+1=2”。为了匹配“C:\temp”,你要用正则表达式 < <C:\\temp> > 。而在C++中,正则表达式则变成了“C:\\\\temp”。



· 不可显示字符

可以使用特殊字符序列来代表某些不可显示字符:

< <\t> > 代表Tab(0x09)

< <\r> > 代表回车符(0x0D)

< <\n> > 代表换行符(0x0A)

要注意的是Windows中文本文件使用“\r\n”来结束一行而Unix使用“\n”。



4. 正则表达式引擎的内部工作机制

知道正则表达式引擎是如何工作的有助于你很快理解为何某个正则表达式不像你期望的那样工作。

有两种类型的引擎:文本导向(text-directed)的引擎和正则导向(regex-directed)的引擎。Jeffrey Friedl把他们称作DFA和NFA引擎。本文谈到的是正则导向的引擎。这是因为一些非常有用的特性,如“惰性”量词(lazy quantifiers)和反向引用(backreferences),只能在正则导向的引擎中实现。所以毫不意外这种引擎是目前最流行的引擎。

你可以轻易分辨出所使用的引擎是文本导向还是正则导向。如果反向引用或“惰性”量词被实现,则可以肯定你使用的引擎是正则导向的。你可以作如下测试:将正则表达式 < <regex|regex not> > 应用到字符串“regex not”。如果匹配的结果是regex,则引擎是正则导向的。如果结果是regex not,则是文本导向的。因为正则导向的引擎是“猴急”的,它会很急切的进行表功,报告它找到的第一个匹配 。


------解决方案--------------------
还有些深奥的东西,平时一般不用那么复杂的。
------解决方案--------------------
补充:
使用“^”和“$”作为行的开始和结束锚定

如果你有一个包含了多行的字符串。例如:“first line\n\rsecond line”(其中\n\r表示一个新行符)。常常需要对每行分别处理而不是整个字符串。因此,几乎所有的正则表达式引擎都提供一个选项,可以扩展这两种锚定的含义。“^”可以匹配字串的开始位置(在f之前),以及每一个新行符的后面位置(在\n\r和s之间)。类似的,$会匹配字串的结束位置(最后一个e之后),以及每个新行符的前面(在e与\n\r之间)。

在.NET中,当你使用如下代码时,将会定义锚定匹配每一个新行符的前面和后面位置:Regex.Match( "string ", "regex ", RegexOptions.Multiline)

应用:string str = Regex.Replace(Original, "^ ", "> ", RegexOptions.Multiline)--将会在每行的行首插入“> ”。