91久久精品国产91性色也,精品亚洲aⅴ在线观看,国产精品久久久久影院嫩草

先掃盲一下什么是正則表達式的貪婪，什么是非貪婪？或者說什么是匹配優先量詞，什么是忽略優先量詞？
好吧，我也不知道概念是什么，來舉個例子吧。
某同學想過濾之間的內容，那是這么寫正則以及程序的。

復制代碼代碼如下:

$str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪

看起來，好像沒什么問題，其實則不然。若

復制代碼代碼如下:

$str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;

那么經過上面的程序處理，其結果為

復制代碼代碼如下:

$str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
$str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪
print_r($str);
//$str 輸出為 <script>alert(document.cookie)</script>

仍然達不到他想要的效果。上面的就是非貪婪，也有的叫惰性。其標志非貪婪的標識為量數元字符后面加? ，比如 +?、*?、??(比較特殊，以后的BLOG中，我會寫到)等。即標識非貪婪，如果不寫?就是貪婪。比如

復制代碼代碼如下:

$str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
$str = preg_replace(‘%<script>.+</script>%i’,”,$str);//非貪婪
print_r($str);
//$str 輸出為 <script 只有這些了，好像還是不太合適，哈，您知道如何重寫那個正則嗎？

以上為貪婪，非貪婪的區別介紹。下面，聊下貪婪、非貪婪引起的回溯問題。先看個小例子。
正則表達式為w*(d+)，字符串為cfc456n，那么，這個正則匹配的$1是多少？？

如果您回答是 456,那么，恭喜你，回答錯了，其結果不是456，而是6，您知道為什么嗎？

CFC4N來解釋一下，當正則引擎用正則w*(d+)去匹配字符串cfc456n時，會先用w*去匹配字符串cfc456n，首先，w*會匹配字符串cfc456n的所有字符，然后再交給d+去匹配剩下的字符串，而剩下的沒了，這時，w*規則會不情愿的吐出一個字符，給d+去匹配，同時，在吐出字符之前，記錄一個點，這個點，就是用于回溯的點，然后d+去匹配n，發現并不能匹配成功，會再次要求w*再吐出一個字符，w*會先再次記錄一個回溯的點，再吐出一個字符。這時，w* 匹配的結果只有cfc45了，已經吐出6n了，d+再去匹配6，發現匹配成功，則會通知引擎，匹配成功了，就直接顯示出來了。所以，(d+)的結果是6，而不是456。

當上面的正則表達式改為 w*?(d+)（注意，此處為非貪婪），字符串仍然為cfc456n，那么，這時候，正則匹配的$1是多少？？
甲同學回答：結果是 456。
嗯，是的，正確，是456，CFC4N弱弱的問下，為什么是456 呢？
我在來解釋一下為什么是456
正則表達式有條規則，是量詞優先匹配，所以w*?會先去匹配字符串cfc456，由于w*?是非貪婪，正則引擎會用表達式w+?每次僅匹配一個字符串,然后再將控制權交給后面的d+去匹配下一個字符，同時，記錄一個點，用于在匹配不成功的時候，返回這里，再次匹配，也就是回溯點。由于w后面是量詞是*，*表示0到無數次，所以，首先是0次，也就是w*?匹配個空，記錄回溯點，將控制權交給d+,d+去匹配cfc456n的第一個字符c,然后，匹配失敗，于是乎，接著講控制權交給w*?去匹配cfc456n的c，w*?匹配c成功，由于是非貪婪，所以，他每次只匹配一個字符，記錄回溯點，然后再將控制權交給d+匹配f,接著，d+匹配f再失敗，再把控制權給w*?，w*?再匹配c,記錄回溯點（這時w*?匹配結果是cfc了），再把控制權給d+，d+去匹配4，匹配成功，然后，由于量詞是+，就是1到無數次，所以，接著往后匹配，再匹配5，成功，再接著，再匹配6，成功，再接著，繼續匹配操作，下一個字符是n，匹配失敗，這時，d+會吧控制權交出去。由于d+后面已經沒有正則表達式了，所以，整個正則表達式宣告匹配完成，其結果就是 cfc456, 其中第一組結果是456。親愛的同學，您明白剛剛的題目的結果，為什么是456了嗎？

好了，您是否從上面的例子了解了貪婪，非貪婪的匹配原理了？那您是否明白您在什么時候需要使用貪婪，非貪婪去處理您的字符串了？
鳥哥的文章里講到針對
表達式、程序為

復制代碼代碼如下:

$reg = “/<script>.*?</script>/is”;
$str = “<script>********</script>”; //長度大于100014
$ret = preg_repalce($reg, “”, $str); //返回NULL

其原因就是回溯太多了，直到造成耗盡棧空間爆棧。

再來看個例子。
字符串

復制代碼代碼如下:

$str = ‘<script>123456</script>’;

正則表達式為

復制代碼代碼如下:

$strRegex1 = ‘%<script>.+</script>%’;
$strRegex2 = ‘%<script>.+?</script>%’;
$strRegex3 = ‘%<script>(?:(?!</script>).)+</script>%’;

這三個正則，分別會造成幾次回溯呢？？

答案見下篇 PHP正則表達式的效率：回溯與固化分組

一	二	三	四	五	六	日
« 6月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

小議正則表達式效率貪婪、非貪婪與回溯

相關推薦

熱門標簽

近期文章