站長(zhǎng)資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        聊聊node中怎么借助第三方開源庫實(shí)現(xiàn)網(wǎng)站爬取功能

        本篇文章給大家介紹一下node中借助第三方開源庫輕松實(shí)現(xiàn)網(wǎng)站爬取功能的方法,希望對(duì)大家有所幫助!

        聊聊node中怎么借助第三方開源庫實(shí)現(xiàn)網(wǎng)站爬取功能

        nodejs實(shí)現(xiàn)網(wǎng)站爬取功能

        第三方庫介紹

        • request 對(duì)網(wǎng)絡(luò)請(qǐng)求的封裝

        • cheerio node 版本的 jQuery

        • mkdirp 創(chuàng)建多層的文件夾目錄

        實(shí)現(xiàn)思路

        • 通過request獲取指定 url 內(nèi)容

        • 通過cheerio找到頁面中跳轉(zhuǎn)的路徑(去重)

        • 通過mkdirp創(chuàng)建目錄

        • 通過fs創(chuàng)建文件,將讀取的內(nèi)容寫入

        • 拿到?jīng)]有訪問的路徑重復(fù)以上執(zhí)行步驟

        代碼實(shí)現(xiàn)

        const fs = require("fs"); const path = require("path"); const request = require("request"); const cheerio = require("cheerio"); const mkdirp = require("mkdirp"); // 定義入口url const homeUrl = "https://www.baidu.com"; // 定義set存儲(chǔ)已經(jīng)訪問過的路徑,避免重復(fù)訪問 const set = new Set([homeUrl]); function grab(url) {   // 校驗(yàn)url規(guī)范性   if (!url) return;   // 去空格   url = url.trim();   // 自動(dòng)補(bǔ)全url路徑   if (url.endsWith("/")) {     url += "index.html";   }   const chunks = [];   // url可能存在一些符號(hào)或者中文,可以通過encodeURI編碼   request(encodeURI(url))     .on("error", (e) => {       // 打印錯(cuò)誤信息       console.log(e);     })     .on("data", (chunk) => {       // 接收響應(yīng)內(nèi)容       chunks.push(chunk);     })     .on("end", () => {       // 將相應(yīng)內(nèi)容轉(zhuǎn)換成文本       const html = Buffer.concat(chunks).toString();       // 沒有獲取到內(nèi)容       if (!html) return;       // 解析url       let { host, origin, pathname } = new URL(url);       pathname = decodeURI(pathname);       // 通過cheerio解析html       const $ = cheerio.load(html);       // 將路徑作為目錄       const dir = path.dirname(pathname);       // 創(chuàng)建目錄       mkdirp.sync(path.join(__dirname, dir));       // 往文件寫入內(nèi)容       fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {         // 打印錯(cuò)誤信息         if (err) {           console.log(err);           return;         }         console.log(`[${url}]保存成功`);       });       // 獲取到頁面中所有a元素       const aTags = $("a");       Array.from(aTags).forEach((aTag) => {         // 獲取到a標(biāo)簽中的路徑         const href = $(aTag).attr("href");         // 此處可以校驗(yàn)href的合法或者控制爬去的網(wǎng)站范圍,比如必須都是某個(gè)域名下的         // 排除空標(biāo)簽         if (!href) return;         // 排除錨點(diǎn)連接         if (href.startsWith("#")) return;         if (href.startsWith("mailto:")) return;         // 如果不想要保存圖片可以過濾掉         // if (/.(jpg|jpeg|png|gif|bit)$/.test(href)) return;         // href必須是入口url域名         let reg = new RegExp(`^https?://${host}`);         if (/^https?:///.test(href) && !reg.test(href)) return;         // 可以根據(jù)情況增加

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)
        主站蜘蛛池模板: 精品国产粉嫩内射白浆内射双马尾 | 精品国产第一国产综合精品| 国产精品青草久久久久福利99| 国产成人亚洲精品青草天美| 亚洲精品视频免费观看| 国产99久久九九精品无码| 国产精品福利在线观看| 精品人妻大屁股白浆无码| 中文字幕日本精品一区二区三区| 国产在线精品福利大全| 日韩精品国产自在久久现线拍| 6一12呦女精品| 国产综合精品女在线观看| 亚洲国产精品va在线播放| 无码精品蜜桃一区二区三区WW| 精品人妻少妇一区二区三区不卡| 亚洲国产精品久久66| 国产精品素人搭讪在线播放| 国产精品午睡沙发系列| 日韩精品无码专区免费播放| 亚洲日韩欧美制服精品二区| 欧洲精品码一区二区三区免费看| 国产精品自产拍在线18禁| 99热热久久这里只有精品68| 久久九九青青国产精品| 九九在线精品视频专区| 999精品视频这里只有精品| 国产精品亲子乱子伦xxxx裸| 国产区精品一区二区不卡中文| 久久国产精品无码HDAV| 久久夜色精品国产噜噜亚洲AV| 欧洲成人午夜精品无码区久久 | 欧美激情精品久久久久久久九九九| 国产精品青草视频免费播放| 国产内地精品毛片视频| 国产高清精品在线| 国产精品无码素人福利不卡| 精品人妻少妇一区二区三区| 欧美成人精品一区二区综合| 亚洲AⅤ永久无码精品AA| 在线观看国产精品普通话对白精品 |