phppreg函数技巧_正则表达式的效率与优化

文章目录 [+]

eg. 利用[a-d]表示a~d之间的字母，而不是利用(a|b|c|d)

function regTest($pattern,$str,$cnt){

phppreg函数技巧_正则表达式的效率与优化

$start=microtime(true);

（图片来自网络侵删）

for ($i=0;$i<$cnt;$i++){

preg_match($pattern,$str);

}

echo 'waste time(s): ',number_format(microtime(true)-$start, 10),' ';

}

$cnt=15;//最好设大数，eg.1000

$str='';

for ($i=0;$i<$cnt;$i++){

$str.='abababcdefg';

}

//方案1：分支条件

regTest(\公众/^(a|b|c|d|e|f|g)+$/\"大众,$str,$cnt);

//方案2：字符组

regTest(\公众/^[a-g]+$/\"大众,$str,$cnt);

//方案3：同方案2

regTest(\"大众/^[abcdefg]+$/\"大众,$str,$cnt);

123456789101112131415161718

可以看出利用字符组比利用分支条件速率快很多。
这是由于在匹配单个字符的时候，引擎会把[abc]这样的字符组视为一个元素，而不是3个元素（a、b、c）。
全体元素作为匹配迭代的一个单元，不须要进行三次迭代，从而提高匹配效率。

二、优化选择最左真个匹配结果

对付传统NFA引擎来说，由于引擎一旦找到匹配结果就会停下来，而不会去考试测验正则表达式的每一种可能（PHP中的preg函数就属于传统型NFA引擎）。

三、标准量词是匹配优先的

若用量词约束某个表达式，那么在匹配成功前，进行的考试测验次数有下限和上限。
eg.

preg_match('/\w(\d+)/','copy2003y',$match);

这条正则表达式匹配的$1结果该当是3。
阐明如下：当正则引擎用“\w(\d+)”匹配字符串copy2003y时，会先用“\w”匹配字符串copy2003y。
而“\w”会匹配字符串copy2003y的所有字符，然后再交给“\d+”匹配剩下的字符串，而剩下的没有了。
这时，“\w”规则会不宁愿地吐出一个字符，给“\d+”匹配。
同时，在吐出字符之前，记录一个点，这个点便是用于回溯的点。
然后“\d+”匹配y，创造不能匹配成功，此时会哀求“\w”再吐出一个字符；“\w”先记录一个回溯的点，再吐出一个字符。
这时，“\w”匹配结果只有copy200，已经吐出3y。
“\d+”再去匹配3，创造匹配成功，会关照引擎，并且直接显示出来。
以是，“(\d+)”的结果是3，而不是2003。

如果改为非贪婪模式呢？“\w?(\d+)”匹配的结果就该当是2003。
由于“\w?”是非贪婪，正则引擎会用表达式“\w?”每次仅匹配一个字符串，然后再将掌握权交给后面的“(\d+)”匹配下一个字符，同时记录一个点，用于匹配不堪利时，返回这里再次匹配。

只管即便以组为单位进行匹配，利用固话分组就能避免无休止的匹配。

四、谨慎用点号元字符，尽可能不用星号和加号这样的任意量词

只要能确定范围（eg.“\w”），就不要用点号；只要能够预测重复次数，就不要用量词。
假设一条微博的XML正文部分构造如下：

...

正文中无尖括号，写法如下：

[^<]{1,200}

或者：

.

上述第一种代码的思路要好于第二种，缘故原由如下：

1、利用“[^<]”，担保了文本的范围不会超过下一个小于号所在位置

2、明确长度范围{1,200}，依据是一条微博大致的字符长度范围是固定的，现在微博字数长度限定是140个字。