站長資訊網
        最全最豐富的資訊網站

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

          Hadoop作為部署數據湖最常用的技術,以其生態為核心的大數據框架已經十分成熟。隨著數據總量和形式的不斷增長,存算分離成了大數據架構發展的主流方向。

          此前,杉巖數據對Hadoop生態中HDFS當前存在的一些局限性作了分析,并介紹了基于杉巖數據高性能存儲引擎的大數據存算分離場景存儲解決方案。本文將進一步介紹在實際項目落地過程中,杉巖數據MOSFS存算分離方案處理新老架構更替的具體方法與操作步驟。

          場景分析:從存算一體到存算分離

          場景一:新建獨立計算平臺采用存算分離架構

          第一次建設大數據計算平臺就直接采用存算分離架構,同時在有新業務系統擴展時規劃搭建獨立的計算平臺場景。這是新大數據平臺搭建且獨立運作的場景,不涉及到老數據的使用,也是最簡單的存算分離落地場景。

          場景二:新建大數據平臺完全替換原有平臺

          直接新建更強的大數據計算平臺完全替換原有計算平臺,在計算平臺升級換代時采用存算分離架構。該場景下原有平臺的計算與存儲直接淘汰,但由于存在歷史數據,需要將原有的HDFS數據遷移到新的分離存儲中。

          場景三:獨立部署分離存儲擴容HDFS

          在實際數據湖建設項目中,更多是利舊場景,在新增獨立分離存儲外,將繼續使用原有的計算平臺,同時原有HDFS的存儲空間與數據需要保留,以實現HDFS空間的整體擴容。

          杉巖數據MOSFS實現存算分離平滑落地

          針對存在老HDFS數據的后兩種場景,杉巖數據推出大數據存算分離場景的存儲解決方案,可通過MOSFS支持的符號鏈接方式,實現對原有HDFS的納管與數據自動遷移,使用提供的自動化工具通過特定步驟操作即可便捷地完成。

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

        圖 MOSFS納管遷移HDFS實現存算分離

          步驟一:執行初始化,實現MOSFS到HDFS映射通路

          使用MOSFS遷移工具在HDFS的指定路徑(比如/name目錄)執行初始化命令,執行之后通過MOSFS的客戶端訪問mosfs://name/,就能完整訪問HDFS對應/name目錄里的內容,兩者是完全等價的。在完成初始化操作之后,MOSFS就具備了讀寫HDFS存儲空間的能力,該過程原有數據流程沒有更改,所以業務系統的運行完全無感。

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

          步驟二:計算平臺切換schema為mosfs

          將fs.hdfs.impl的配置修改為MOSFS的實現,此修改實現上層計算組件訪問存儲的schema切換為mosfs://。初始化已經完成了MOSFS到HDFS的通路建立,因此當完成配置修改并重啟計算組件后,各個組件便可通過mosfs://的方式來讀寫原有HDFS存儲的數據。該步驟的執行涉及到計算組件的重啟,但是業務受影響的時間很短。

          步驟三:同步目錄結構,實現讀寫分流

          完成上一步驟后,業務的數據讀寫還在原有的HDFS中執行,再使用自動化工具執行目錄同步。執行完成后,MOSFS的命名空間中會按照HDFS中相同的拓撲結構創建所有目錄及對應的文件,但文件依舊會以符號鏈接的方式映射到HDFS中的相同文件上。這時業務側讀數據時,依舊會通過符號鏈接方式直接讀取原有HDFS存儲中的對應文件,而寫操作則會在MOSFS的存儲空間中直接寫入新的文件。

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

          此步驟在實現新老數據讀寫分流的同時,對業務層無影響。

          執行完以上三個步驟,MOSFS對原有HDFS的納管操作就完成了場景三獨立部署分離存儲擴容HDFS中存算分離架構的實現。此過程沒有改變原有存儲空間的目錄結構,對業務應用系統無影響。

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

        圖 MOSFS納管HDFS實現讀寫分流

          在實踐中,現有HDFS也可通過ViewFS機制實現多HDFS集群的擴展,但ViewFS機制在應對已有老數據的目錄擴容時需要創建新的子目錄,如需使用老數據,則需要業務側做代碼的調整適配或將老數據遷移。MOSFS依靠符號鏈接方式實現多集群的數據讀寫分流,解決了HDFS通過ViewFS機制不能將多個存儲空間掛載到相同掛載點的情況,滿足了已有存儲目錄的擴容需求。

          步驟四:遷移數據

          在場景二新建大數據平臺完全替換原有平臺中,為了實現存算分離的落地,需要將原有HDFS集群中的數據完整地遷移到分離部署的MOSFS中。我們依舊使用遷移工具執行copy命令觸發數據的自動遷移,具體執行過程中還可以通過業務負載以及對應硬件資源來調整遷移任務的并發數,在不影響前端業務的情況下高效地完成數據的遷移。單個原有HDFS文件的符號鏈接在對應文件數據完成遷移后會執行刪除鏈接操作,在符號鏈接刪除前業務通過符號鏈接訪問HDFS數據,刪除后直接訪問MOSFS存儲中的文件數據。遷移完成的文件生效切換僅涉及一個元數據的更新操作,所以實際的數據遷移過程不影響業務層。

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

          在數據遷移過程中,MOSFS遷移工具支持通過反向遷移隨時回滾,撤銷遷移操作。如已有新增數據寫入到MOSFS中,也能把這些新增數據拷貝回原始的存儲系統。

          步驟五:刪除老數據

          執行完前4個步驟,所有的業務數據讀寫都已在新的分離部署存儲中,就可以刪除老數據或拆除原有的集群,實現新的存算分離架構對原有存算一體架構的升級改造。

          總結

        Hadoop大數據存算分離下,遷移HDFS如何做到業務無感?

        圖 MOSFS多源匯聚兼容多種存儲

          通過前面的介紹,可以看到,依靠MOSFS強大的符號鏈接特性與遷移工具,執行簡單的操作步驟即可完成對HDFS的納管與數據遷移,讓MOSFS具備多種場景下存算分離架構平滑落地的能力。在涉及老數據遷移的場景中,納管遷移對業務的影響也僅僅在于一次配置修改與計算組件重啟,對客戶的業務系統影響較小。同時,MOSFS的底座基于杉巖數據高性能存儲引擎,還具備更多場景的數據納管與連通能力。

        特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 亚洲av午夜福利精品一区人妖 | 精品久久久久久久久久久久久久久| 亚洲一区二区三区国产精品| 亚洲人成亚洲精品| 精品无码AV一区二区三区不卡| 日韩午夜高清福利片在线观看欧美亚洲精品suv | 久久夜色撩人精品国产小说| 精品国产欧美一区二区| 精品国产第一国产综合精品 | 国产精品∧v在线观看| 国产成人精品高清在线观看99 | 国产伦精品免编号公布| 久久久久人妻一区精品| 杨幂国产精品福利在线观看| 国产精品久久久久aaaa| 2021最新国产精品网站 | 无码人妻精品一区二区蜜桃AV| 国产精品无码久久四虎| 视频二区国产精品职场同事| 黑人精品videos亚洲人| 99精品视频在线观看| 国产精品伦一区二区三级视频 | 欧美亚洲日本久久精品| 久久99精品久久久久久不卡| 日本精品视频在线观看| 一本精品中文字幕在线| 国产精品黄页免费高清在线观看| 夜色www国产精品资源站| 亚洲国产精品久久久久网站| 久久99热狠狠色精品一区| 国产精品久久成人影院| 国产精品成人观看视频免费 | 亚洲国产精品VA在线看黑人| 亚洲av午夜精品一区二区三区| 蜜臀精品无码AV在线播放| 拍国产乱人伦偷精品视频| 亚洲国产精品尤物yw在线 | 日韩熟女精品一区二区三区| 亚洲av午夜成人片精品电影| 宅男在线国产精品无码| 亚洲国产第一站精品蜜芽|