[西安|荣耀师兄]JS-侯升|2019年10月03日的日报-技能树.IT修真院

发表于： 2019-10-03 22:47:59

1 730

今天完成的事情：

今天师弟问了一下关于正则表达式的问题，发现自己对正则表达式的了解不是很多，学习了下。

把任务六的静态页面在angular写好了，分好各个组件，并开始设置路由。

明天计划的事情：接着任务六

遇到的问题：无

收获：

什么是正则表达式？

正则表达式是构成搜索模式（search pattern）的字符序列。

当您搜索文本中的数据时，您可使用搜索模式来描述您搜索的内容。

正则表达式可以是单字符，或者更复杂的模式。

正则表达式可用于执行所有类型的文本搜索和文本替换操作

语法

/pattern/modifiers;

实例

var patt = /w3school/i;

例子解释：

/w3school/i 是一个正则表达式。

w3school 是模式（pattern）（在搜索中使用）。

i 是修饰符（把搜索修改为大小写不敏感）。

正则表达式中包括的元素

(1)、原子（普通字符：a-z A-Z 0-9 、原子表、转义字符）

(2)、元字符（有特殊功能的字符）

(3)、模式修正符（系统内置部分字符 i 、m、S、U…）

正则表达式中的“原子”

①a-z A-Z _ 0-9 //最常见的字符

②(abc) (skd) //用圆括号包含起来的单元符合

③[abcs] [^abd] //用方括号包含的原子表，原子表中的^代表排除或相反内容

④转义字符

\d 包含所有数字[0-9]

\D 除所有数字外[^0-9]

\w 包含所有英文字符[a-zA-Z_0-9]

\W 除所有英文字符外[^a-zA-Z_0-9]

\s 包含空白区域如回车、换行、分页等 [\f\n\r]

……

3、正则表达式元字符

* 匹配前一个内容的0次1次或多次

. 匹配内容的0次1次或多次，但不包含回车换行

+ 匹配前一个内容的1次或多次

？匹配前一个内容的0次或1次

| 选择匹配类似PHP中的| （因为这个运算符合是弱类型导致前面最为整体匹配）

^ 匹配字符串首部内容

$ 匹配字符串尾部内容

\b 匹配单词边界，边界可以是空格或者特殊符合

\B 匹配除带单词边界意外内容

{m} 匹配前一个内容的重复次数为M次

{m,} 匹配前一个内容的重复次数大于等于M次

{m,n} 匹配前一个内容的重复次数M次到N次

( ) 合并整体匹配，并放入内存，可使用\1 \2…依次获取

4、模式修正符

模式修正符是为正则表达式增强和补充的一个功能，使用在正则之外

常用修正符

i 正则内容在匹配时候不区分大小写（默认是区分的）

m 在匹配首内容或者尾内容时候采用多行识别匹配

S 将转义回车取消是为单行匹配如. 匹配的时候

x 忽略正则中的空白

A 强制从头开始匹配

D 强制$匹配尾部无任何内容 \n

U 禁止贪婪匹配只跟踪到最近的一个匹配符并结束,常用在采集程序上的正则表达式

JavaScript RegExp 对象

RegExp 对象表示正则表达式，它是对字符串执行模式匹配的强大工具。

方括号用于查找某个范围内的字符：

[abc] 查找方括号之间的任何字符。

[^abc] 查找任何不在方括号之间的字符。

[0-9] 查找任何从 0 至 9 的数字。

[a-z] 查找任何从小写 a 到小写 z 的字符。

[A-Z] 查找任何从大写 A 到大写 Z 的字符。

[A-z] 查找任何从大写 A 到小写 z 的字符。

[adgk] 查找给定集合内的任何字符。

[^adgk] 查找给定集合外的任何字符。

(red|blue|green) 查找任何指定的选项。

[…] 字符组(Character Classes)

字符组可以匹配[ ]中包含的任意一个字符。虽然可以是任意一个，但只能是一个。

字符组支持由连字符“-”来表示一个范围。当“-”前后构成范围时，要求前面字符的码位小于后面字符的码位。

[^…] 排除型字符组。排除型字符组表示任意一个未列出的字符，同样只能是一个。排除型字符组同样支持由连字符“-”来表示一个范围。

元字符

元字符（Metacharacter）是拥有特殊含义的字符：

. 查找单个字符，除了换行和行结束符。

\w 查找单词字符。

\W 查找非单词字符。

\d 查找数字。

\D 查找非数字字符。

\s 查找空白字符。

\S 查找非空白字符。

\b 匹配单词边界。

\B 匹配非单词边界。

\0 查找 NUL 字符。

\n 查找换行符。

\f 查找换页符。

\r 查找回车符。

\t 查找制表符。

\v 查找垂直制表符。

\xxx 查找以八进制数 xxx 规定的字符。

\xdd 查找以十六进制数 dd 规定的字符。

\uxxxx 查找以十六进制数 xxxx 规定的 Unicode 字符。

量词

n+ 匹配任何包含至少一个 n 的字符串。

n* 匹配任何包含零个或多个 n 的字符串。

n? 匹配任何包含零个或一个 n 的字符串。

n{X} 匹配包含 X 个 n 的序列的字符串。

n{X,Y} 匹配包含 X 至 Y 个 n 的序列的字符串。

n{X,} 匹配包含至少 X 个 n 的序列的字符串。

n$ 匹配任何结尾为 n 的字符串。

^n 匹配任何开头为 n 的字符串。

?=n 匹配任何其后紧接指定字符串 n 的字符串。

?!n 匹配任何其后没有紧接指定字符串 n 的字符串。

RegExp 对象属性

属性描述

global RegExp 对象是否具有标志 g。

ignoreCase RegExp 对象是否具有标志 i。

lastIndex 一个整数，标示开始下一次匹配的字符位置。

multiline RegExp 对象是否具有标志 m。

source 正则表达式的源文本。

RegExp 对象方法

方法描述

compile 编译正则表达式。

exec 检索字符串中指定的值。返回找到的值，并确定其位置。

test 检索字符串中指定的值。返回 true 或 false。

支持正则表达式的 String 对象的方法

方法描述

search 检索与正则表达式相匹配的值。

match 找到一个或多个正则表达式的匹配。

replace 替换与正则表达式匹配的子串。

split 把字符串分割为字符串数组。

捕获组（Capture Group）

捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或手动命名的组里，以供后面引用。

(Expression)

普通捕获组，将子表达式Expression匹配的内容保存到以数字编号的组里

(?<name> Expression)

命名捕获组，将子表达式Expression匹配的内容保存到以name命名的组里

普通捕获组（在不产生歧义的情况下，简称捕获组）是以数字进行编号的，编号规则是以“(”从左到右出现的顺序，从1开始进行编号。通常情况下，编号为0的组表示整个表达式匹配的内容。

命名捕获组可以通过捕获组名，而不是序号对捕获内容进行引用，提供了更便捷的引用方式，不用关注捕获组的序号，也不用担心表达式部分变更会导致引用错误的捕获组。

非捕获组

一些表达式中，不得不使用( )，但又不需要保存( )中子表达式匹配的内容，这时可以用非捕获组来抵消使用( )带来的副作用。

(?:Expression)

进行子表达式Expression的匹配，并将匹配内容保存到最终的整个表达式的区配结果中，但Expression匹配的内容不单独保存到一个组内

反向引用

捕获组匹配的内容，可以在正则表达式的外部程序中进行引用，也可以在表达式中进行引用，表达式中引用的方式就是反向引用。

反向引用通常用来查找重复的子串，或是限定某一子串成对出现。

\1，\2

对序号为1和2的捕获组的反向引用

\k<name>

对命名为name的捕获组的反向引用

举例：

“(a|b)\1”在匹配“abaa”时，匹配成功，匹配到的结果是“aa”。“(a|b)”在尝试匹配时，虽然既可以匹配“a”，也可以匹配“b”，但是在进行反向引用时，对应()中匹配的内容已经是固定的了。

环视（Look Around）

环视只进行子表达式的匹配，匹配内容不计入最终的匹配结果，是零宽度的。

环视按照方向划分有顺序和逆序两种，按照是否匹配有肯定和否定两种，组合起来就有四种环视。环视相当于对所在位置加了一个附加条件。

(?<=Expression)

逆序肯定环视，表示所在位置左侧能够匹配Expression

(?<!Expression)

逆序否定环视，表示所在位置左侧不能匹配Expression

(?=Expression)

顺序肯定环视，表示所在位置右侧能够匹配Expression

(?!Expression)

顺序否定环视，表示所在位置右侧不能匹配Expression

举例：

“(?<=Windows )\d+”在匹配“Windows 2003”时，匹配成功，匹配结果为“2003”。我们知道“\d+”表示匹配一个以上的数字，而“(?<=Windows )”相当于一个附加条件，表示所在位置左侧必须为“Windows ”，它所匹配的内容并不计入匹配结果。同样的正则在匹配“Office 2003”时，匹配失败，因为这里任意一串数字子串的左侧都不是“Windows ”。

“(?!1)\d+”在匹配“123”时，匹配成功，匹配的结果为“23”。“\d+”匹配一个以上数字，但是附加条件“(?!1)”要求所在位置右侧不能是“1”，所以匹配成功的位置是“2”前面的位置。

忽略优先和匹配优先

或者叫做正则表达式匹配的贪婪与非贪婪模式。

标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。

一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。

举例：

源字符串：<div>aaa</div><div>bbb</div>

正则表达式1：<div>.*</div> 匹配结果：<div>aaa</div><div>bbb</div>

正则表达式2：<div>.*?</div> 匹配结果：<div>aaa</div>