发表于: 2017-04-20 20:39:06

1 1329


小课堂【第八十七期】

如何使用正则表达式?

1.背景介绍

正则表达式到底是什么东西?

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE), 计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合组成一个“规则字符串”, 这个“规则字符串”用来表达对字符串的一种过滤逻辑。

2.知识剖析

2.1 元字符,拥有特殊含义的字符

常用的元字符


                    代码	          说明
                     .	    匹配除换行符以外的任意字符
                     \w	    匹配字母或数字或下划线或汉字
                     \s	    匹配任意的空白符
                     \d	    匹配数字
                     \b	    匹配单词的开始或结束
                     ^	    匹配字符串的开始
                     $	    匹配字符串的结束                

我们举个例子来看看这些元字符是什么意思

元字符^(和数字6在同一个键位上的符号)和$都匹配一个位置,这和\b有点类似。^匹配你要用来查找的字符串的开头,$匹配结尾。 这两个代码在验证输入的内容时非常有用,比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^\d{5,12}$。

因为使用了^和$,所以输入的整个字符串都要用来和\d{5,12}来匹配,也就是说整个输入必须是5到12个数字, 因此如果输入的QQ号能匹配这个正则表达式的话,那就符合要求了。

2.2 字符转义

如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。 这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.

例如:jnshu\.com匹配jnshu.com

C:\\Windows匹配C:\Windows

2.3 重复

常用的限定符


                    代码/语法	     说明
                        *	    重复零次或更多次
                        +	    重复一次或更多次
                        ?	    重复零次或一次
                       {n}	    重复n次
                       {n,} 	重复n次或更多次
                       {n,m}	重复n到m次                

例如:

Windows\d+匹配Windows后面跟1个或更多数字

^\w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置

2.4 反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:

常用的反义代码


                    代码/语法	                    说明
                        \W	        匹配任意不是字母,数字,下划线,汉字的字符
                        \S	        匹配任意不是空白符的字符
                        \D	        匹配任意非数字的字符
                        \B	        匹配不是单词开头或结束的位置
                       [^x]	        匹配除了x以外的任意字符
                       [^aeiou]	    匹配除了aeiou这几个字母以外的任意字符                

例子:\S+匹配不包含空白符的字符串。

<a[^b]+>匹配用尖括号括起来的以a开头的字符串。

2.5 贪婪与懒惰

懒惰限定符


                    代码/语法	            说明
                        *?	    重复任意次,但尽可能少重复
                        +?	    重复1次或更多次,但尽可能少重复
                        ??	    重复0次或1次,但尽可能少重复
                        {n,m}?	    重复n到m次,但尽可能少重复
                        {n,}?	    重复n次以上,但尽可能少重复                

当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b, 它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。 这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

3.常见问题

什么情况下会用到正则表达式?

4.解决方案

验证各种表单内容是否符合条件,查找一些需要的内容之类的都可以

5.编码实战

6.扩展思考

回到前面的贪婪与懒惰匹配,为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?

简单地说,因为正则表达式有另一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权

7.参考文献

参考一:正则表达式30分钟入门教程

参考二:js常用正则表达式

参考三:在线正则表达式测试

8.更多讨论

正则表达式还有其他那些与法呢?

PPT地址:https://ptteng.github.io/PPT/PPT/js-05-reg-zhengzhou.html#/

视频地址:https://v.qq.com/x/page/x03954u3z1v.html



返回列表 返回列表
评论

    分享到