站長資訊網
        最全最豐富的資訊網站

        PHP中的遞歸正則使用說明

        之前一篇文章翻譯了Perl語言中的遞歸正則表達式. 其實不少語言中的正則都是支持遞歸的, 例如本文要介紹的PHP正則遞歸. 雖然, 工作中最常用的正則表達式都很”正則”, 只用最基本的語法就能解決85%以上的問題, 而且合理有效地使用普通正則來解決復雜問題也是一門技巧與學問; 但是高級一點的語法的確有它存的價值, 有時不用它還真辦不了事兒; 況且學習正則的樂趣也在于嘗試各種各樣的可能性, 滿足自己無窮無盡的好奇心.

        本文內容, 整理自網文Finer points of PHP regular expressions. 其分析過程剝繭抽絲, 絲絲入扣, 值得一讀. 該文系統地列出了PHP中正則表達式常見特性, 我只摘取其中遞歸部分翻譯整理出來.

        正文
        例子
        什么時候會用到遞歸正則表達式呢? 當然是待匹配的字串中遞歸地出現某種模式時(貌似廢話). 最經典的例子, 就是遞歸正則處理嵌套括號的問題了. 例子如下.

        假設你的文本中包含了正確配對的嵌套括號. 括號的深度可以是無限層. 你想捕獲這樣的括號組.

        恕我劇透, 標準答案是這樣的:

        復制代碼 代碼如下:
        <?php
        $string = “some text (a(b(c)d)e) more text”;
        if(preg_match(“/(([^()]+|(?R))*)/”,$string,$matches))
        {
        echo “<pre>”; print_r($matches); echo “</pre>”;
        }
        ?>

        其輸出結果是:

        復制代碼 代碼如下:
        Array
        (
        [0] => (a(b(c)d)e)
        [1] => e
        )

        可見, 我們所需要的文本, 已經捕獲到$matches[0]中了.

        原理
        現在思考原理.

        上面的正則表達式中的關鍵點是(?R). (?R)的作用就是遞歸地替換它所在的整條正則表達式. 在每次迭代時, PHP 語法分析器都會將(?R)替換為”(([^()]+|(?R))*)“.

        因此, 具體到上述的例子, 其正則表達式等價于:

        “/(([^()]+|(([^()]+|(([^()]+)*))*))*)/”

        但是上面的代碼只適合深度為3層的括號. 對于未知深度的括號嵌套, 就只好使用這種正則了:

        “/(([^()]+|(?R))*)/”

        它不但能夠匹配無限深度, 還簡化了正則表達式的語法. 功能強大, 語法簡潔.

        現在來細看一下”/(([^()]+|(?R))*)/”是怎樣匹配”(a(b(c)d)e)”的:

        “(c)”這部分被正則式 “(([^()]+)*)” 匹配. 請注意, (c) 其實就相當于整個遞歸的一個縮影, 麻雀雖小五臟俱全, 因此它用到了整個正則表達式.
        換言之, 下一步中的(c), 可以使用(?R) 來匹配.
        (b(c)d)的匹配過程為:
        “(“匹配”(“;
        “[^()]+”匹配”b”;
        (?R)匹配”(c)”;
        “[^()]+”匹配”d”;
        “)”匹配”)”.
        根據上面的匹配原理, 不難理解為什么數組的第2個元素$matches[1]與’e’等價. 子串’e’是在最后一次匹配迭代中被捕獲. 匹配過程中, 只有最后一次的捕獲結果才會保存到數組中.

        rex注: 關于這個特性, 可以自行嘗試一下, 看看使用正則式([a-z]+[0-9]+)+來匹配字串abc123xyz890, 其捕獲結果$1是什么. 注意, 其結果與 Left Longest 原理并不沖突.

        如果我們只需要捕獲 $matches[0], 可以這樣做:

        復制代碼 代碼如下:
        <?php
        $string = “some text (a(b(c)d)e) more text”;
        if(preg_match(“/((?:[^()]+|(?R))*)/”,$string,$matches))
        {
        echo “<pre>”; print_r($matches); echo “</pre>”;
        }
        ?>

        產生的結果相同:

        復制代碼 代碼如下:
        Array
        (
        [0] => (a(b(c)d)e)
        )

        所做的改動是捕獲括號()改為非捕獲捕獲括號(?:)了.

        還可以進一步完善為:

        復制代碼 代碼如下:
        <?php
        $string = “some text (a(b(c)d)e) more text”;
        if(preg_match(“/((?>[^()]+|(?R))*)/”,$string,$matches))
        {
        echo “<pre>”; print_r($matches); echo “</pre>”;
        }
        ?>

        這里我們用到了所謂的一次性模式(rex注: 余晟先生譯的《精通正則表達式v3.0》中, 謂之”固化分組”. 可參考該書.) PHP手冊也推薦只要條件允許, 就盡可能使用這種模式, 以便提升正則表達式的速度.

        一次性模式很簡單, 這里不再詳述. 如果感興趣, 可以參考PHP 官方手冊. 如果您想深入學習PERL兼容式正則表達式, 請參考文末鏈接.

      1. 原文: Finer points of PHP regular expressions
      2. Perl兼容正則表達式 官網 文檔
      3. PHP官網的PCRE正則文檔
      4. 贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 久草欧美精品在线观看| 日韩在线精品一二三区| 久久夜色撩人精品国产小说| 97久久精品国产精品青草| 午夜成人精品福利网站在线观看 | 国产亚洲精品国产| 人人妻人人澡人人爽精品日本| 久久九九久精品国产免费直播| 性色精品视频网站在线观看 | 四虎国产精品成人| 久久免费的精品国产V∧| 凹凸国产熟女精品视频app| 亚洲麻豆精品国偷自产在线91| 国产精品综合久成人| 奇米精品一区二区三区在线观看 | 91久久精品视频| 国产精品爽黄69天堂a| 国产成人精品电影在线观看 | 日韩精品人妻系列无码专区| 中文精品99久久国产 | 亚洲精品美女久久777777| 久久夜色精品国产| 国产乱人伦偷精品视频不卡| 91久久福利国产成人精品| 四虎国产精品永久地址99| 精品视频第一页| 国产精品九九九久久九九| 99久久久国产精品免费无卡顿 | 亚洲精品国产高清不卡在线| 久久er国产精品免费观看8| 国产手机在线精品| 国产精品国产AV片国产| 91热成人精品国产免费| 成人国内精品久久久久影院VR| 刺激无码在线观看精品视频| 99久久精品国产综合一区| 最新国产の精品合集| 99久久99久久精品国产片果冻| 51国偷自产精品一区在线视频| 中文字幕精品一区二区日本| 国产精品夜色视频一级区|