站長資訊網
        最全最豐富的資訊網站

        小議正則表達式效率 貪婪、非貪婪與回溯

        先掃盲一下什么是正則表達式的貪婪,什么是非貪婪?或者說什么是匹配優先量詞,什么是忽略優先量詞?
        好吧,我也不知道概念是什么,來舉個例子吧。
        某同學想過濾之間的內容,那是這么寫正則以及程序的。

        復制代碼 代碼如下:
        $str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪

        看起來,好像沒什么問題,其實則不然。若

        復制代碼 代碼如下:
        $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;

        那么經過上面的程序處理,其結果為

        復制代碼 代碼如下:
        $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
        $str = preg_replace(‘%<script>.+?</script>%i’,”,$str);//非貪婪
        print_r($str);
        //$str 輸出為 <script>alert(document.cookie)</script>

        仍然達不到他想要的效果。上面的就是非貪婪,也有的叫惰性。其標志非貪婪的標識為量數元字符后面加? ,比如 +?、*?、??(比較特殊,以后的BLOG中,我會寫到)等。即標識非貪婪,如果不寫?就是貪婪。比如

        復制代碼 代碼如下:
        $str = ‘<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>’;
        $str = preg_replace(‘%<script>.+</script>%i’,”,$str);//非貪婪
        print_r($str);
        //$str 輸出為 <script 只有這些了,好像還是不太合適,哈,您知道如何重寫那個正則嗎?

        以上為貪婪,非貪婪的區別介紹。下面,聊下貪婪、非貪婪引起的回溯問題。先看個小例子。
        正則表達式為w*(d+),字符串為cfc456n,那么,這個正則匹配的$1是多少??

        如果您回答是 456,那么,恭喜你,回答錯了,其結果不是456,而是6,您知道為什么嗎?

        CFC4N來解釋一下,當正則引擎用正則w*(d+)去匹配字符串cfc456n時,會先用w*去匹配字符串cfc456n,首先,w*會匹配字符串cfc456n的所有字符,然后再交給d+去匹配剩下的字符串,而剩下的沒了,這時,w*規則會不情愿的吐出一個字符,給d+去匹配,同時,在吐出字符之前,記錄一個點,這個點,就是用于回溯的點,然后d+去匹配n,發現并不能匹配成功,會再次要求w*再吐出一個字符,w*會先再次記錄一個回溯的點,再吐出一個字符。這時,w* 匹配的結果只有cfc45了,已經吐出6n了,d+再去匹配6,發現匹配成功,則會通知引擎,匹配成功了,就直接顯示出來了。所以,(d+)的結果是6,而不是456。

        當上面的正則表達式改為 w*?(d+)(注意,此處為非貪婪),字符串仍然為cfc456n,那么,這時候,正則匹配的$1是多少??
        甲同學回答:結果是 456。
        嗯,是的,正確,是456,CFC4N弱弱的問下,為什么是456 呢?
        我在來解釋一下 為什么是456
        正則表達式有條規則,是量詞優先匹配,所以w*?會先去匹配字符串cfc456,由于w*?是非貪婪,正則引擎會用表達式w+?每次僅匹配一個字符串,然后再將控制權交給后面的d+去匹配下一個字符,同時,記錄一個點,用于在匹配不成功的時候,返回這里,再次匹配,也就是回溯點。由于w后面是量詞是*,*表示0到無數次,所以,首先是0次,也就是w*?匹配個空,記錄回溯點,將控制權交給d+,d+去匹配cfc456n的第一個字符c,然后,匹配失敗,于是乎,接著講控制權交給w*?去匹配cfc456n的c,w*?匹配c成功,由于是非貪婪,所以,他每次只匹配一個字符,記錄回溯點,然后再將控制權交給d+匹配f,接著,d+匹配f再失敗,再把控制權給w*?,w*?再匹配c,記錄回溯點(這時w*?匹配結果是cfc了),再把控制權給d+,d+去匹配4,匹配成功,然后,由于量詞是+,就是1到無數次,所以,接著往后匹配,再匹配5,成功,再接著,再匹配6,成功,再接著,繼續匹配操作,下一個字符是n,匹配失敗,這時,d+會吧控制權交出去。由于d+后面已經沒有正則表達式了,所以,整個正則表達式宣告匹配完成,其結果就是 cfc456, 其中第一組結果是456。親愛的同學,您明白剛剛的題目的結果,為什么是456了嗎?

        好了,您是否從上面的例子了解了貪婪,非貪婪的匹配原理了?那您是否明白您在什么時候需要使用貪婪,非貪婪去處理您的字符串了?
        鳥哥的文章里講到針對
        表達式、程序為

        復制代碼 代碼如下:
        $reg = “/<script>.*?</script>/is”;
        $str = “<script>********</script>”; //長度大于100014
        $ret = preg_repalce($reg, “”, $str); //返回NULL

        其原因就是回溯太多了,直到造成耗盡棧空間爆棧。

        再來看個例子。
        字符串

        復制代碼 代碼如下:
        $str = ‘<script>123456</script>’;

        正則表達式為

        復制代碼 代碼如下:
        $strRegex1 = ‘%<script>.+</script>%’;
        $strRegex2 = ‘%<script>.+?</script>%’;
        $strRegex3 = ‘%<script>(?:(?!</script>).)+</script>%’;

        這三個正則,分別會造成幾次回溯呢??

        答案見下篇 PHP正則表達式的效率:回溯與固化分組

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 亚洲国产精品成人| 国产精品扒开腿做爽爽爽视频| 孩交VIDEOS精品乱子| 久久99精品久久久久久9蜜桃 | 精品久久久久久国产91| 无码人妻精品一区二区三区久久| 麻豆精品视频在线观看| 国产精品青草视频免费播放| 99精品无人区乱码在线观看| 久热这里只有精品视频6| 免费短视频软件精品一区二区| 国产伦精品一区二区三区视频猫咪 | 欧美黑人巨大videos精品| 国产精品国产高清国产专区| 久久精品国产亚洲欧美| 99久久精品毛片免费播放| 国产精品原创巨作av女教师| 精品无人区一区二区三区| 少妇人妻无码精品视频app| 亚洲AV永久无码精品一百度影院| 无码国模国产在线无码精品国产自在久国产| 国产精品国产三级在线高清观看| 91久久精品国产成人久久| 自怕偷自怕亚洲精品| 亚洲精品成人av在线| 四虎国产精品永久地址99新强 | 久久精品国产亚洲AV大全| 久久精品国产亚洲av麻豆色欲 | 香蕉依依精品视频在线播放| 亚洲高清国产拍精品青青草原| 日韩精品电影一区亚洲| 亚洲欧美日韩精品久久亚洲区| 亚洲欧美日韩国产精品| 亚洲国产精品无码久久一区二区| 日韩精品少妇无码受不了| 日韩精品无码一区二区三区不卡| 男人的天堂精品国产一区| 99久久精品国产高清一区二区| 国产精品久久99| 欧美大片日韩精品| 99热成人精品免费久久|