站長資訊網
        最全最豐富的資訊網站

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        怎么用Node爬取網頁的數據并寫入Excel文件?下面本篇文章通過一個實例來講解一下用Node.js爬取網頁的數據并生成Excel文件的方法,希望對大家有所幫助!

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        UNI-APP開發(仿餓了么):進入學習

        相信寶可夢是很多90后的童年回憶,身為程序員不止一次的也想做一款寶可夢游戲,但是做之前應該先要整理一下有多少寶可夢,他們的編號,名字,屬性等信息整理出來,本期將用 Node.js 簡單的實現一個從寶可夢網頁數據的爬取,到把這些數據生成Excel文件,直至做接口讀取Excel訪問到這些數據。

        爬取數據

        既然是爬取數據,那我們先找一個有寶可夢圖鑒數據的網頁,如下圖:

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        這個網站是用PHP寫的,前后沒有做分離,所以我們不會讀接口來捕獲數據,我們使用 crawler 庫,來捕獲網頁中的元素從而得到數據。提前說明一下,用 crawler 庫,好處是你可以用 jQuery 的方式在Node環境中捕獲元素。

        安裝:

        yarn add crawler

        實現:

        const Crawler = require("crawler"); const fs = require("fs") const { resolve } = require("path")  let crawler = new Crawler({     timeout: 10000,     jQuery: true, });  let crawler = new Crawler({     timeout: 10000,     jQuery: true, });  function getPokemon() {     let uri = "" // 寶可夢圖鑒地址     let data = []     return new Promise((resolve, reject) => {         crawler.queue({             uri,             callback: (err, res, done) => {                 if (err) reject(err);                 let $ = res.$;                 try {                     let $tr = $(".roundy.eplist tr");                     $tr.each((i, el) => {                         let $td = $(el).find("td");                         let _code = $td.eq(1).text().split("n")[0]                         let _name = $td.eq(3).text().split("n")[0]                         let _attr = $td.eq(4).text().split("n")[0]                         let _other = $td.eq(5).text().split("n")[0]                         _attr = _other.indexOf("屬性") != -1 ? _attr : `${_attr}+${_other}`                         if (_code) {                             data.push([_code, _name, _attr])                         }                     })                     done();                     resolve(data)                 } catch (err) {                     done()                     reject(err)                 }              }         })     }) }

        在生成實例的時候,還需要開啟 jQuery 模式,然后,就可以使用 $ 符了。而以上代碼的中間部分的業務就是在捕獲元素爬取網頁中所需要的數據,使用起來和 jQuery API 一樣,這里就不再贅述了 。

        getPokemon().then(async data => {     console.log(data) })

        最后我們可以執行并打印一下傳過來的 data 數據,來驗證確實爬取到了格式也沒有錯誤。

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        寫入Excel

        既然剛才已經爬取到數據了,接下來,我們就將使用 node-xlsx 庫,來完成把數據寫入并生成一個 Excel 文件中。

        首先,我們先介紹一下,node-xlsx 是一個簡單的 excel 文件解析器和生成器。由 TS 構建的一個依靠 SheetJS xlsx 模塊來解析/構建 excel 工作表,所以,在一些參數配置上,兩者可以通用。

        安裝:

        yarn add node-xlsx

        實現:

        const xlsx = require("node-xlsx")  getPokemon().then(async data => {     let title = ["編號", "寶可夢", "屬性"]     let list = [{         name: "關都",         data: [             title,             ...data         ]     }];     const sheetOptions = { '!cols': [{ wch: 15 }, { wch: 20 }, { wch: 20 }] };     const buffer = await xlsx.build(list, { sheetOptions })     try {         await fs.writeFileSync(resolve(__dirname, "data/pokemon.xlsx"), buffer, "utf8")     } catch (error) { } })

        name 則是Excel文件中的欄目名,而其中的 data 類型是數組其也要傳入一個數組,構成二維數組,其表示從 ABCDE…. 列中開始排序傳入文本。同時,可以通過!cols來設置列寬。第一個對象wch:10 則表示 第一列寬度為10 個字符,還有很多參數可以設置,可以參照 xlsx 庫 來學習這些配置項。

        最后,我們通過 xlsx.build 方法來生成 buffer 數據,最后用 fs.writeFileSync 寫入或創建一個 Excel 文件中,為了方便查看,我這里存入了 名叫 data 的文件夾里,此時,我們在 data 文件夾 就會發現多出一個叫 pokemon.xlsx 的文件,打開它,數據還是那些,這樣把數據寫入到Excel的這步操作就完成了。

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        讀取Excel

        讀取Excel其實非常容易甚至不用寫 fs 的讀取, 用xlsx.parse 方法傳入文件地址就能直接讀取到。

        xlsx.parse(resolve(__dirname, "data/pokemon.xlsx"));

        當然,我們為了驗證準確無誤,直接寫一個接口,看看能不能訪問到數據。為了方便我直接用 express 框架來完成這件事。

        先來安裝一下:

        yarn add express

        然后,再創建 express 服務,我這里端口號就用3000了,就寫一個 GET 請求把讀取Excel文件的數據發送出去就好。

        const express = require("express") const app = express(); const listenPort = 3000;  app.get("/pokemon",(req,res)=>{     let data = xlsx.parse(resolve(__dirname, "data/pokemon.xlsx"));     res.send(data) })  app.listen(listenPort, () => {     console.log(`Server running at http://localhost:${listenPort}/`) })

        最后,我這里用 postman 訪問接口,就可以清楚的看到,我們從爬取到存入表格所有的寶可夢數據都接收到了。

        node爬取數據實例:抓取寶可夢圖鑒并生成Excel文件

        結語

        如你所見,本文以寶可夢為例,來去學習怎么用Node.js爬取網頁的數據,怎么把數據寫入Excel文件,以及怎么讀取到Excel文件的數據這三個問題,其實實現難度并不大,但有些時候蠻實用的,如果擔心忘記可以收藏起來喲~

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 久久精品麻豆日日躁夜夜躁| 欧美韩国精品另类综合| 动漫精品专区一区二区三区不卡| 国产精品视频一区二区三区不卡| 久久精品黄AA片一区二区三区| 国产乱码伦精品一区二区三区麻豆 | 久久精品男人影院| 亚洲欧美日韩精品专区| 国产亚洲精品免费视频播放| 精品国产欧美一区二区| 久久99热只有频精品8| 亚洲欧洲自拍拍偷精品 美利坚| 国产精品美女久久久网AV| 精品精品国产高清a毛片牛牛| 国产福利精品一区二区| 无码国产精品一区二区免费模式| 精品无码三级在线观看视频| 国产精品 视频一区 二区三区| 柠檬福利精品视频导航| 国产日韩一区在线精品欧美玲| 国产人妖乱国产精品人妖| 精品无码人妻一区二区三区| 久久99精品久久久久子伦| 久久精品国产亚洲AV香蕉| 青青草原精品国产亚洲av| 日韩精品一区二区三区中文| 亚洲2022国产成人精品无码区| 中文精品久久久久人妻不卡| 亚洲国产成人精品女人久久久 | 国产日韩欧美精品| 91麻豆精品国产| 99精品无人区乱码在线观看| 精品一区二区三区无码免费视频 | 777被窝午夜精品影院| 久久久91精品国产一区二区三区| 91麻豆精品国产自产在线观看一区| 精品深夜AV无码一区二区| 久久精品国产亚洲av日韩| 国产日韩精品欧美一区喷水| 国产精品宾馆在线精品酒店| 精品无人区麻豆乱码1区2区|