站長資訊網
        最全最豐富的資訊網站

        基于Python正則表達式提取搜索結果中的站點地址

        正則表達式對于Python來說并不是獨有的,最近在把google搜索的結果中所有的站點地址導出,于是想到用python正則表達式提取搜索結果中的站點地址。

        這其中涉及幾個需要解決的問題:

        1、獲取搜索的結果文本

        為了獲得更多的地址,我使用了Google的高級搜索功能,每個頁面顯示100條結果。

        獲得顯示的結果后,可以查看源碼,并保持成文本文件就有了搜索的結果文本

        2、分析如何提取站點信息

        首先需要分析獲取的頁面,查看以怎樣的方式可以提取出站點信息。

        我使用IE8自帶的開發工具(按F12就會彈出來)中的探查器功能查看自己要關心的內容有什么特殊的格式

        基于Python正則表達式提取搜索結果中的站點地址

        從上圖可以看出我需要的站點在標簽<cite></cite>中,所以我使用正則表達式提取這其中的文本是否就可以呢?

        3、編寫正則表達式來獲取站點地址

        接下來的就是寫表達式了,我使用Python3.2編寫的,方便好用(~_~)

        代碼如下,先把搜索結果頁面保持到e:/t3.txt中,在執行如下代碼

          import re  p = re.compile(r'<cite>([^<>/].+?)</cite>')  f = open("e:/t3.txt", encoding='utf-8')  content = f.read()  print ("n".join(p.findall(content)))

        運行如下:

        基于Python正則表達式提取搜索結果中的站點地址

        大家可以對照一下運行效果圖,看看所有的站點地址是不是都給獲取到了。

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 午夜欧美精品久久久久久久| 国产一精品一AV一免费| 亚洲国产精品一区二区久久hs| 久久久一本精品99久久精品66| 91亚洲精品自在在线观看| 久久久精品人妻一区二区三区四| 国产日韩久久久精品影院首页| 97久久超碰成人精品网站| 亚洲精品亚洲人成人网| 免费精品国产自产拍在线观看| 高清在线国产午夜精品| 51午夜精品免费视频| 老汉精品免费AV在线播放| 久久久久99精品成人片牛牛影视| 91po国产在线精品免费观看| 国产国拍亚洲精品mv在线观看| 亚洲国产精品无码久久一区二区| 老子影院午夜精品无码| 黑人巨茎精品欧美一区二区| 国产成人精品a视频一区| 99久久亚洲综合精品成人| 久久精品国产影库免费看| 99国产精品无码| 国产成人精品手机在线观看| 人人妻人人澡人人爽欧美精品| 一本久久精品一区二区| 中文字幕精品亚洲无线码二区| 欧美国产精品久久高清| 久久99精品国产麻豆不卡| 国产精品毛片a∨一区二区三区| 亚洲精品免费观看| 四虎国产精品免费入口| 亚洲精品国产成人99久久| 欧美日激情日韩精品| 亚洲国产精品线在线观看| 99久久精品免费观看国产| 99久久伊人精品综合观看| 国产2021久久精品| 国产精品免费一区二区三区| 国产一级精品高清一级毛片| 精品99又大又爽又硬少妇毛片 |