站長(zhǎng)資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        python統(tǒng)計(jì)單詞出現(xiàn)次數(shù)

        python統(tǒng)計(jì)單詞出現(xiàn)次數(shù)

        python統(tǒng)計(jì)單詞出現(xiàn)次數(shù)

        做單詞詞頻統(tǒng)計(jì),用字典無疑是最合適的數(shù)據(jù)類型,單詞作為字典的key, 單詞出現(xiàn)的次數(shù)作為字典的 value,很方便地就記錄好了每個(gè)單詞的頻率,字典很像我們的電話本,每個(gè)名字關(guān)聯(lián)一個(gè)電話號(hào)碼。

        下面是具體的實(shí)現(xiàn)代碼,實(shí)現(xiàn)了從importthis.txt文件讀取單詞,并統(tǒng)計(jì)出現(xiàn)次數(shù)最多的5個(gè)單詞。

        # -*- coding:utf-8 -*- import io import re  class Counter:     def __init__(self, path):         """         :param path: 文件路徑         """         self.mapping = dict()         with io.open(path, encoding="utf-8") as f:             data = f.read()             words = [s.lower() for s in re.findall("w+", data)]             for word in words:                 self.mapping[word] = self.mapping.get(word, 0) + 1      def most_common(self, n):         assert n > 0, "n should be large than 0"         return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]  if __name__ == '__main__':     most_common_5 = Counter("importthis.txt").most_common(5)     for item in most_common_5:         print(item)

        執(zhí)行效果:

        ('is', 10) ('better', 8) ('than', 8) ('the', 6) ('to', 5)

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)
        主站蜘蛛池模板: 国产精品午夜无码AV天美传媒| 国产精品免费久久久久电影网| 久久99国产精品久久久| 青春草无码精品视频在线观| 99久久精品免费看国产免费| 国产精品天干天干综合网| 亚洲精品国自产拍在线观看| 国产精品久久久99| 四虎永久在线精品国产免费| 国产99视频精品免视看7| 亚洲精品乱码久久久久久自慰| 国产精品夜色视频一级区| 青草青草久热精品视频在线网站| 国产精品日本一区二区在线播放| 亚洲精品二区国产综合野狼| 亚洲国产精品成人| 欧美日韩精品系列一区二区三区国产一区二区精品 | 精品一区二区久久| jiucao在线观看精品| 国产成人久久精品激情| 国内精品久久久久伊人av| 亚洲AV第一页国产精品| 在线精品视频播放| 国产精品户外野外| 国产69精品久久久久99尤物 | 亚洲2022国产成人精品无码区 | 亚洲高清专区日韩精品| 欧美久久久久久午夜精品| 久久久精品视频免费观看| 精品国产一区二区三区AV性色| 国产精品秘入口福利姬网站| 国产精品第1页| 精品国产日韩亚洲一区| 精品福利一区二区三区精品国产第一国产综合精品 | 亚洲精品无码久久久影院相关影片 | 亚洲电影日韩精品| 日韩欧美亚洲国产精品字幕久久久| 精品人妻少妇一区二区| 久久这里只有精品视频99| 欧美午夜精品一区二区三区91| 午夜精品一区二区三区在线观看|