十分钟学会正则表达式 [ 菜刚RyuGou的博客 ]

正则表达式用处挺广的，主要用于处理字符串。

正则引擎

想要在计算机语言中使用正则表达式，那么这门计算机语言必须要利用正则引擎去实现相应的正则库。主要的正则引擎分为以下两类：

DFA 确定性的状态机。不使用”回溯”，效率高，但是支持的正则表达式语法有限。
NFA 非确定性状态机。构造简单，使用”回溯算法”，支持大多数的正则语法，是目前使用最广泛的正则引擎，大多数计算机语言例如Java、PHP、Ruby、Python等都是使用的NFA正则引擎。

不同的语言对正则的实现不同，暴露出来的方法也不同，但方法的作用其实都是大同小异，这里用PHP语言做例子。

preg_match(string $pattern, string $subject[, array &$matches]) 使用很频繁。函数返回匹配到的结果的次数。只匹配一次，参数matches只返回第一条结果。
preg_match_all(string $pattern, string $subject[, array &$matches]) 使用很频繁。函数返回匹配到的结果的次数。参数matches只返回所有结果。

这俩函数，都可以替换字符串，在字符串替换中，俩函数用法完全一致。

这俩函数，不仅可以替换字符串，还可以替换数组！在替换数组的时候，pre_filter会过滤掉没有匹配到的内容，而pre_replace不会，这就是他俩的唯一区别。

preg_grep(string $pattern, array $input[, int flags = 0]) 返回匹配模式的数组条目。阉割版本的preg_filter

对一个字符串中的正则表达式的运算符：”. \ + * ? [ ] ^ $ ( ) { } = ! < > | : -“进行转义，转义成非正则表达式的运算符，否则正则表达式会认为其为运算符。

你可以把正则表达式当做一门简单的语言来看，但是它的语法显然比一般的计算机语言要简单一些。

指定正则表达式的开始和结束，可以当成是计算机语言中的大括号{和}。一般有三种表现方式：

正则表达式中最小的匹配单位，其实就是字符串中的字符。主要分为两大类：

可见原子:

肉眼能够看见的字符。

由于某些字符在正则表达式中属于特殊字符，那么在书写这类特殊字符的时候，应该注意要加上反斜杠\，例如如果匹配^直接写/^/肯定不行，如果加上反斜杠，就可以了。\^

不可见原子:

肉眼看不到的。

定义原子的筛选方式，队员原子进行归类，简化正则表达式的书写。

表示某一个原子连续出现的数量。

将模式单元中的括号及其正则表达式当做是一个原子来看待。

给正则表达式的匹配过程添加一种匹配模式

U 加U是懒惰匹配，不加U是默认的贪婪匹配。
i 忽略英文字母大小写。
x 忽略空白。（包括空格和按tab键输出的制表符）
s 让元字符.匹配包括换行符在内的所有字符。
e preg_replace()在替换字符串中对逆向引用作正常的替换。简单的说，就是PHP会把replace的结果当做PHP代码。（替换字符串要符合php的语法规范）
例如：echo preg_replace('/(\d+),(\d+)/e', '$1+$2', '2,3');会输出5。

书写方式为：

$pattern = '/hello World/U'

$pattern = '/hello World/i'

$pattern = '/hello World/Ui'//可以任意组合