ECMAScript通过RegExp类型来支持正则表达式。使用类似Perl的语法,就可以创建一个正则表达式。
var expression = / pattern / flags;
其中的模式(pattern)部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定符、分组、向前查找以及反向引用。每个正则表达式都可带有一或多个标志(flags),用以标明正则表达式的行为。正则表达式的匹配模式支持下列3个标志。
因此,一个正则表达式就是一个模式与上述3个标志的组合体。不同组合产生不同结果,如下面的例子所示。
<script type="text/javascript"> //匹配字符串中所有"at"的实例 var pattern1 = /at/g; //匹配第一个"bat"或"cat", 不区分大小写 var pattern2 = /[bc]at/i; //匹配所有以"at"结尾的3个字符的组合, 不区分大小写 var pattern3 = /.at/gi; </script>
与其他语言中的正则表达式类似,模式中使用的所有元字符都必须转义。正则表达式中的元字符包括:
{ } [ ] ( ) ? * + . \ | ^ $
这些元字符在正则表达式中都有一或多种特殊用途,因此如果想要匹配字符串中包含的这些字符,就必须对它们进行转义。下面给出几个例子。
<script type="text/javascript"> //匹配第一个"bat"或"cat", 不区分大小写 var pattern1 = /[bc]at/i; //匹配第一个"[bc]at", 不区分大小写 var pattern2 = /\[bc\]at/i; //匹配所有以"at"结尾的3个字符的组合, 不区分大小写 var pattern3 = /.at/gi; //匹配所有".at", 不区分大小写 var pattern4 = /\.at/gi; </script>
在上面的例子中,pattern1匹配第一个"bat"或"cat",不区分大小写。而要想直接匹配"[bc]at"的话,就需要像定义pattern2一样,对其中的两个方括号进行转义。对于pattern3来说,句点表示位于"at"之前的任意一个可以构成匹配项的字符。但如果想匹配".at",则必须对句点本身进行转义,如pattern4所示。前面举的这些例子都是以字面量形式来定义的正则表达式。另一种创建正则表达式的方式是使用RegExp构造函数,它接收两个参数:一个是要匹配的字符串模式,另一个是可选的标志字符串。可以使用字面量定义的任何表达式,都可以使用构造函数来定义,如下面的例子所示。
//匹配第一个"bat"或"cat", 不区分大小写 var pattern1 = /[bc]at/i; //与pattern1相同, 只不过是使用构造函数创建的 var pattern2 = new RegExp("[bc]at", "i");
在此,pattern1和pattern2是两个完全等价的正则表达式。要注意的是,传递给RegExp构造函数的两个参数都是字符串。由于RegExp构造函数的模式参数是字符串,所以在某些情况下要对字符进行双重转义。所有元字符都必须双重转义,那些已经转义过的字符也是如此,例如\n(字符\在字符串中通常被转义为\\,而在正则表达式字符串中就会变成\\\\)。下表给出了一些模式,左边是这些模式的字面量形式,右边是使用RegExp构造函数定义相同模式时使用的字符串。
字面量模式 | 等价的字符串 |
/\[bc\]at/ | "\\[bc\\]at" |
/\.at/ | "\\.at" |
/name\/age/ | "/name\\/age" |
/\d.\d{1,2}/ | "\\d.\\d{1,2}" |
/\w\\hello\\123/ | "\\w\\\\hello\\\\123" |
使用正则表达式字面量和使用RegExp构造函数创建的正则表达式不一样。在ECMAScript 3中,正则表达式字面量始终会共享同一个RegExp实例,而使用构造函数创建的每一个新RegExp实例都是一个新实例。来看下面的例子。
<script type="text/javascript"> var re=null,i; for(i=0;i<5;i++){ re = /wangzhan/g; LS.log.write(re.test("wangzhan.wangzhan.wangzhan.wangzhan.wangzhan.")); } LS.log.write("这是一条分割线"); for(i=0;i<5;i++){ re = new RegExp("wangzhan","g"); LS.log.write(re.test("wangzhan.wangzhan.wangzhan.wangzhan.wangzhan.")); } </script>
在第一个循环中,即使是循环体中指定的,但实际上只为/wangzhan/创建了一个RegExp实例。由于实例属性不会重置,所以在循环中再次调用test()方法会失败。这是因为第一次调用test()找到了字符串wangzhan,但第二次调用是从索引为8的字符(上一次匹配的末尾)开始的,所以就找不到它了。由于会测试到字符串末尾,所以下一次再调用test()就又从开头开始了。第二个循环使用RegExp构造函数在每次循环中创建正则表达式。因为每次迭代都会创建一个新的RegExp实例,所以每次调用test()都会返回true。ECMAScript 5明确规定,使用正则表达式字面量必须像直接调用RegExp构造函数一样,每次都创建新的RegExp实例。IE9+、Firefox 4+和Chrome都据此做出了修改。