站長資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        基于Python正則表達式提取搜索結果中的站點地址

        正則表達式對于Python來說并不是獨有的,最近在把google搜索的結果中所有的站點地址導出,于是想到用python正則表達式提取搜索結果中的站點地址。

        這其中涉及幾個需要解決的問題:

        1、獲取搜索的結果文本

        為了獲得更多的地址,我使用了Google的高級搜索功能,每個頁面顯示100條結果。

        獲得顯示的結果后,可以查看源碼,并保持成文本文件就有了搜索的結果文本

        2、分析如何提取站點信息

        首先需要分析獲取的頁面,查看以怎樣的方式可以提取出站點信息。

        我使用IE8自帶的開發(fā)工具(按F12就會彈出來)中的探查器功能查看自己要關心的內(nèi)容有什么特殊的格式

        基于Python正則表達式提取搜索結果中的站點地址

        從上圖可以看出我需要的站點在標簽<cite></cite>中,所以我使用正則表達式提取這其中的文本是否就可以呢?

        3、編寫正則表達式來獲取站點地址

        接下來的就是寫表達式了,我使用Python3.2編寫的,方便好用(~_~)

        代碼如下,先把搜索結果頁面保持到e:/t3.txt中,在執(zhí)行如下代碼

          import re  p = re.compile(r'<cite>([^<>/].+?)</cite>')  f = open("e:/t3.txt", encoding='utf-8')  content = f.read()  print ("n".join(p.findall(content)))

        運行如下:

        基于Python正則表達式提取搜索結果中的站點地址

        大家可以對照一下運行效果圖,看看所有的站點地址是不是都給獲取到了。

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號
        主站蜘蛛池模板: 亚洲精品亚洲人成在线观看下载 | 亚洲无删减国产精品一区| 人妻少妇精品视中文字幕国语| 久久激情亚洲精品无码?V| 麻豆精品视频在线观看| 日本加勒比久久精品| 亚洲码国产精品高潮在线| 亚洲av成人无码久久精品| 精品无码国产污污污免费网站 | 欧美亚洲日本久久精品| 亚洲国产成人精品无码久久久久久综合| 久久精品国产一区二区| 亚洲愉拍99热成人精品热久久| 日本一卡精品视频免费| 99久久国语露脸精品国产| 99精品国产一区二区| 日韩视频中文字幕精品偷拍| 久久久一本精品99久久精品66 | 国产精品www| 久久精品国产亚洲7777| 亚洲av永久无码精品秋霞电影影院| 97精品伊人久久大香线蕉app| 囯产精品一区二区三区线| 无码精品国产VA在线观看DVD| 免费精品99久久国产综合精品| 精品少妇一区二区三区在线| 久久水蜜桃亚洲av无码精品麻豆| 91精品国产91久久久久久蜜臀| 亚洲AV无码成人精品区狼人影院| 精品久人妻去按摩店被黑人按中出| 国产精品1区2区| 在线观看91精品国产网站| 四虎永久在线精品国产免费| 亚洲线精品一区二区三区影音先锋| 精品视频一区二区三区免费| 一本一道精品欧美中文字幕| 国产香蕉国产精品偷在线| 精品一区二区三区免费| 久久久久99精品成人片直播| 精品国产综合区久久久久久 | 国产成人无码精品久久久免费 |