人工智能與5G的飛速發展,讓各行各業對視頻的應用、體驗提出了更高的要求。5月13日,百度智能云“2021云智技術論壇-智能視頻專場”活動在京舉辦,百度智能云重磅發布了智能視頻云3.0全景圖,融合百度前沿的視頻云和AI技術能力矩陣,從云智技術一體化、產品平臺化、應用場景化三個層面全面賦能多場景的視頻應用。作為國內AI公有云服務市場第一的百度智能云,正以“云智一體”獨家優勢持續滲透市場中。
視頻具有“重”數據的特點,在海量數據的情況下,一方面對采集、存儲、傳輸和分發提出了極高的訴求,另一方面需要強大的智能化分析與處理能力。基于此,百度智能云“云智一體”的全場景視頻技術中,“云”的部分以云邊端一體、異構融合的基礎架構提供先進的云計算能力,“智”則以業界領先且全面的AI能力實現了對視頻語音、圖像、文字等多種信息的多模態智能分析、理解、生成等處理。
依托“云智一體”推出了視頻創作分發平臺和視聯網感知平臺。在消費類視頻方面,將采集到的各種結構化信息、知識信息通過智能視頻云的手段,轉化成多媒體的信息進行高效分發和傳播;而在產業類視頻方面,將采集到的視頻轉變為結構化信息,通過提取獲得的信息,來幫助業務進行高效的感知和決策。
“云智一體”的百度智能視頻云3.0究竟在技術上有什么獨到之處?

(智能視頻云3.0全景圖)
云:高效穩定的基礎技術架構,打造強有力的輸出載體
為了更好地應對已經來到的海量視頻業務需求,智能視頻云3.0以云邊端一體的基礎技術架構作為核心依托,進一步拓展算力邊界,端到端、強穩定、高性能的視頻云能力,幫助客戶快速實現應用的落地與交付。
百度智能視頻云3.0的云能力主要表現在智能編碼、智感超清、實時音視頻通訊、低延時直播、視頻分發加速CDN等五大方面:
智能編碼:基于百度AI深度學習技術,通過深度學習網絡來提取視頻的特征,結合BD265生成智能編碼技術。
算法方面,依靠百度多年積累的技術優勢,通過60+算法的優化,在質量和效率、速度上取得最優解。
效率方面,相比業界開源的X265編碼器,在編碼速度有2-4倍的提升,同時節省30%的編碼碼率。

(智能編碼)
智感超清:視頻體驗的優化是一項精細求精、永無止境的工作。百度智能視頻云3.0通過智能超分、智能畫質增強、智能插幀、智能修復、智能HDR生成等技術,在老片修復、真4K生成等典型應用場景上大幅提升畫質體驗、彌補超高清內容缺失,加速了超高清產業發展,相關技術在國際權威比賽中屢次奪冠,具體優勢體現在:
超分辨率:通過多層級聯的U型神經網絡架構,對視頻空間的分辨率進行從粗到細的提升。
畫面去噪:基于無監督去噪聲算法,擺脫了有監督神經網絡訓練對于成對的噪聲與干凈圖像的依賴;設計了可交互控制參數,支持用戶調節,增加了系統靈活性。
畫質增強:通過深度殘差神經網絡,將內容特征提取與重建,不僅可以優化畫質飽和度、還原壓縮視頻導致的失真,還能對ROI區域進行區域增強和碼率分配優化。
高幀率重制:依靠MEMC高幀率提升技術能力,通過對運動方向預判,據此進行插幀,提升畫面流暢度與觀屏舒適度。
超高清編碼:采用CPU+GPU+ASIC的異構加速計算框架,支持國產昆侖K200芯片,提升AI推理效率和超高清編碼效率,降低用戶成本,提升總體的生成效率。

(智感超清)
實時音視頻通訊:依靠核心自研的多個算法,實現通訊順暢的超低延時互動體驗,并分為如下幾個方面:
抗弱網支持方面:基于上/下行鏈路智能探測器,根據上下行網絡鏈路惡化程度因子,調整FEC、NACK、碼控、超清權重,選擇因子進行抗弱網抖動算法,使視頻抗弱網可達到60%,音頻80%。
AI能力方面:通過百度多年的AI技術積累,支持實時美顏、濾鏡、貼紙、AR特效,更多娛樂場景玩法,并提供人臉識別、語音識別等能力,適用于用于身份核驗、學生狀態監測等更多場景。
高質量音視頻通話方面:通過大量音視頻場景數據AI模型訓練,對音頻進行3A優化的同時,并能通過智感超清支撐超高清畫質,自動適配多分辨率,實現高質量音視頻消息聊天。
性能指標方面:為針對通信節點路由的選擇,優化混沌神經網絡算法規劃最短路徑、實現動態平衡路由選擇,可使端到端延時穩定收斂到200ms左右,并在單個節點故障時,能自動重建路由,保障server的可用性。依靠WHIP協議轉換裝置解決了傳統RTC通信server由于信令交互復雜、房間管理業務量大、數據庫操作頻繁等影響性能及大規模搞并發問題,可支撐每個房間在線人數達百萬級別。
端到端性能監控方面:通過各端大量數據收集,依托百度智能云大數據分析,能精準的定位問題,對潛在的不可靠服務提前預警,讓潛在風險在萌芽狀態被解決,保障音視頻實時通信服務的高可用。

(實時音視頻通訊)
低延時直播:采用了全鏈路SRT協議,可穩定支撐千萬級直播并發。關鍵特性包括:
卓越抗弱網:自研mpegts數據格式封裝、支持SRT協議推拉流,將網絡丟包的可能性降到最低,有效改善弱網環境下的推流及觀看體驗。
首屏秒開:CDN邊緣先將編碼參數信息發給播放器,播放器解析到編碼信息,待下個關鍵幀到達后即可快速播放。
協議兼容:實現多種視頻流協議的輸入與輸出, 基于SRT低延遲直播協議的上下行,能無縫接入LSS低延遲直播系統,與主流直播分發協議HTTP-FLV/RTMP/HLS結合,視頻轉發場景更加靈活。
規模并發:與HTTP-FLV支持的并發規模一致,支持千萬級規模并發。

(低延時直播)
視頻分發基礎設施CDN:擁有遍布全球1000+節點、100T帶寬儲備,以強大網絡基礎設施帶來極致視頻分發體驗和效率。其中具有這幾大能力:
資源儲備的擴展能力:通過云邊端一體,將資源的使用能力持續下沉,與邊緣計算的資源深度結合,做到流量加速的同時,也能做到算力的加速。
近似實時的智能調度能力:具備全網流量與質量的感知系統,能實現近似實時的智能調度。
分場景的協議調優能力:通過質量感知系統Bcats、節點多級緩存優化、分場景協議棧優化滿足客戶多場景的質量要求,節點間使用私有協議加速,提升加速體驗并保證數據安全。
快速便捷的可編程能力:通過易用的可編程邊緣運行環境EJS,用戶可自主實現個性化業務控制邏輯,應對業務變化的敏捷效率挑戰。

(視頻分發基礎設施CDN)
此外在全民拍攝、泛直播時代背景下,針對輕量化美顏、智能剪輯、低碼率高品質推流、沉浸式播放體驗等音視頻終端業務的基礎需求。百度智能云的視頻云終端能力矩陣,面向不同業務,提供豐富的SDK解決方案。
受益于終端工程化技術演進,視頻云終端框架正在經歷從模塊化向智能化演進,平臺接入層重點解決多SDK的復用和數據管線組合,提高內部協同效率同時,提升產品按需交付的靈活度。輔以橫貫模塊間的數據監控,運行質量一目了然。跨平臺層重點解決多終端數據處理一致性體驗,基于生產消費模型,在終端算力的不斷釋放的情況下,將自研算法抽象成獨立算子(例如PaddleLite的人臉算法),經過管線中不同處理節點,最終將數據消費成業務效果(如美顏等)。終端數據高效率的處理,離不開平臺引擎層提供的持續動力。終端并行計算技術讓CPU與GPU在時間和空間上得到更好的協同。

(All In One能力矩陣)
智:AI能力讓視頻變得更加“聰明”
伴隨著視頻智能化的大潮,AI技術在視頻行業轉型升級中作用日益凸顯。依托百度云智一體的獨特優勢,為滿足產業對場景的定制化應用需求,百度智能視頻云3.0全景圖的AI技術能力,基于百度自研業界最大包含了5500億海量知識的多元異構知識圖譜,在視頻的智能理解分析、視頻智能生產與智能交互生成等方面充當了平臺化與場景化的創新應用的技術基石,助力智能視頻從“刀耕火種”走向“精耕細作”。

(智能視頻云3.0全景圖的AI技術能力)
智能理解分析
通過圖像、聲音、場景、人物、文本描述等信息,進行視頻智能分析、內容智能審核、智能檢索。
視覺模態理解框架的升級:提出了一個“預訓練+小型化+定制化”新的框架。該框架基于飛槳提供的大規模分類框架、PaddleSlim等組件,有效應對理解任務的復雜性,解決場景數據的稀缺性。在人臉任務上,全場景下識別相對錯誤率下降40%。在其他一些垂類任務上,訓練的標注量可以減少40%以上。
知識增強的視頻理解:基于知識的視頻語義理解技術,充分利用豐富而全面的知識圖譜提升視頻理解效果。該技術通過對視覺、語音、文本的多模態內容進行解析與融合,再利用知識關聯技術建立與視頻理解知識圖譜的連接,并根據背景知識以及知識計算與推理技術,實現對視頻的深度語義理解。這項技術打破了在傳統技術中,視頻內容分析基于感知的局限性,實現對視頻的深度結構化語義理解,大幅提升視頻理解的效果。

(智能理解分析)
視頻智能生產
通過圖文資訊、數據、圖集等多種內容載體,進行智能編輯與智能創作。
視覺模態創新豐富的能力:可將多種內容載體向視頻形式進行自動轉換,提升傳播效率。目前百度智能云支持多種視頻生產方式,包括圖文,數據,圖集等轉視頻,長視頻拆短視頻及Video-in等生產形式。
知識增強的視頻生產:基于知識圖譜的視頻生產技術是百度智能云視頻生產的亮點技術。
其中,借助知識圖譜的海量事實,可生產關于實體屬性、關系的各種知識類、趣味性的盤點視頻;通過對影視劇的多模語義理解,可將某一類場景鏡頭進行聚合,呈現作品的精彩片段。

(脈絡視頻生產)
事件脈絡生成則是基于知識圖譜中一項核心技術能力。基于多輪問答技術,可達到事件監測和事件論元抽取的能力;再通過事件識別、聚類、歸一等技術總體構建事件脈絡生成技術,可以實現對客觀事件的動態理解。基于事件脈絡能力,可生成關于熱點事件來龍去脈的報道視頻。
視頻交互與生成
智能視頻云擁有豐富的技術能力,全新構建了交互與生成AI能力矩陣,從AR特效等技術到新型的驅動特效,風格特效等,再到多模態生成,支持各種各樣的泛娛樂場景的視頻交互與生成需求。

(視頻交互與生成)
視覺模態的任意風格化:基于元學習、多風格Adaptation技術、Few-shot Learning等技術,可根據需求快速定制不同風格的高質量視頻。
多模態生成的數字人:通過多模態技術,結合虛擬數字人形象與語音合成、唇動等生成技術,可低成本制作形象豐富靈動、線上線下多端覆蓋的的數字人,不僅交互自然、聲音動聽,還能夠適配多種業務場景需求。
目前數字人的應用載體較為廣泛,除了PC端以及手持移動設備以外,百度智能云自研了智能云屏、智能云席等數字人的新載體。為了更好的模擬真人交互,在云屏、云席等數字人載體上集成定制攝像頭以檢測面部動態,設置了的扇形拾音區域采集實音,這樣可以更好的識別主說話人,從而解決“雞尾酒會問題”。
今年兩會期間百度智能云與央視網合作推出虛擬數字人小C,進行“兩會C+真探”的虛擬記者采訪項目,一時收到市場廣泛關注。

(虛擬數字人小C)
雙平臺:便捷、高效、面向全場景的應用平臺
基于云智一體,百度智能視頻云3.0的視頻創作分發平臺和視聯網感知平臺面向不同場景應用提供一站式服務和平臺化支撐。
視頻創作分發平臺面向泛互聯網、泛媒體行業,聚焦工作流和媒介資源管理,覆蓋視頻接入、生產、處理、審核分析和個性化推薦分發全流程。核心是媒資管理和工作流,通過媒資結構化處理和多摸精準搜索,媒資利用率可提升40%,盤活媒資,最大發揮內容價值。與傳統采編發管理軟件的區別在于,利用AI能力對數據進行分析和理解,實現盤活數據,加快數據流動,提高媒資數據的利用率;工作流則提供了可視化控制臺,用戶可以通過簡單靈活的配置編排視頻的處理流程,更靈活的應對個性化業務需求,并適配移動化、多終端、多形態業務場景。

(視頻創作分發平臺)
視聯網感知平臺面向傳統產業,對視頻端設備和泛視頻數據流進行統一連接、分析和管理,實現通用的面向生產、控制和治理等場景的鏈接、鏈感、鏈管的基礎平臺。核心是對泛視頻設備和泛視頻數據流的統一連接、分析和管理,在企業生產、園區管理、城市和社會治理方面能發揮重要價值。

(視聯網感知平臺)
三大場景:云智一體智能視頻云的訴求
為了更好聚焦產業應用中的痛點與難點,為技術深入產業智能化轉型升級發揮更大價值。在百度智能視頻云的這張全景圖3.0,通過基于云智一體的兩大平臺,打造泛互聯網、泛媒體和泛產業方向的智能視頻方案與應用案例,覆蓋互動娛樂、內容生產、智能分析、遠程實時通訊、生產管理、安全管理等場景。
泛媒體場景:百度智能視頻技術通過媒體大腦平臺,賦能產業三大升級,打造智媒產業互聯網生態圈。智能視頻云將云智一體的視頻技術和媒介中臺里的媒體AI中臺、媒體知識中臺、媒體經營中臺相結合,從智能媒資管理、智能內容生產、智慧媒體經營三個層面解決智能視頻云技術在多種場景下的需求。
媒體AI中臺:通過智能內容匯聚、智能內容生產、智能媒資一體,全面覆蓋媒體內容產出的測、采、編、審、發全流程。
媒體知識中臺:通過多元知識圖譜,把內容資產知識化、資產化。將媒體自研和采購產生大量媒體資源,做標簽索引,形成一種資源。
媒體經營中臺:所有內容生產都是為了消費,都是為了觸達用戶,實現傳播的效果,或者商業的變現,百度有多元的媒體內容經營分發這樣的經驗,我們也形成媒體的智能經營的一套中臺體系。

(百度智能云泛媒體產品和解決方案全景圖)
泛互聯網場景:內容和用戶是互聯網企業增長核心要素,百度智能視頻技術助力優秀內容創作者,深入垂類賽道,用AI技術幫助客戶降低碼率提升畫質,以低成本分發的方式,精準觸達到目標受眾群,形成裂變增長。
智能小視頻一站式解決方案:提供全套智能視頻拍攝工具,在拍攝器上提供100+的AR技術拍攝編輯玩法;通過一站式工作流,直接將拍攝到的視頻傳輸至存儲系統,后臺流式處理視頻、審核發布并做分發加速;開放APP樣本及服務端部分代碼給客戶,用戶可通過自身需求定制開發,實現快速打造視頻應用。
全鏈路編解碼優化解決方案:基于采集端的BD265方案,支持兼容軟硬編碼的能力,相比硬編265,節省了50%碼率。在服務端,結合BD265以及智感超清AI能力,提升畫質降低碼率,節省用戶的傳輸的帶寬和存儲的成本。在分發端,提供實時視頻增強的SDK技術,只需下發低碼率視頻,就可以將整個視頻的畫質優化提升。
新零售的直播SaaS解決方案:通過一鍵式的導購直播能力,提升客戶的觸達率,實現線上的營銷變現,裂變引流,得到更多的轉化;并提供了分銷系統,實現訂單的追蹤,保證用戶的歸屬和轉化;同時具有數據分析能力,幫助客戶做出直播決策。
在線社交解決方案:支持IM聊天,實時音視頻通話,以及虛擬AI技術,通過三位一體的技術支撐,幫助用戶打造文字、語音、視頻內容等社交的屬性。并且可以使用動畫制作功能,讓用戶去打造獨一無二的虛擬形象,通過真人實時驅動,構造定制化IP。

(百度智能云泛互聯網產品和解決方案全景圖)
泛產業場景:百度智能視頻云以云邊端一體為基礎架構,平臺+數據主導,解決業務對接系統和數據平臺化的需求。
智能技術:通過百度全棧式自主人工智能平臺,提供多場景的智能視覺應用,核心為識別常見的人臉、人體、車輛等具有豐富的特征值信息,同時提供豐富的庫內的查詢能力。在各類業務場景中,覆蓋比如交通、政府、能源、城市治理和農林等場景,此外還具有視頻修復能力,對提升整個視頻的理解能力有著極大的幫助。
云邊端架構:在端側,為快捷獲取數據,部署了主要的算力和算子。邊側,通過閉環的能力,可以實現快速的邊緣的業務場景的整個閉環。云側,通過關鍵信息、關鍵數據傳送到云端,通過數據匯集,加強云計算和平臺的能力,為業務提供服務,實現更多的業務場景的應用。
開放能力:在端側,開放端云協同的SDK和AI的SDK,實現統一管理,同時在公網環境下,實現低延時效果;平臺側,開放所有模塊,實現SaaS和PaaS的結構,用戶可以更快捷的利用業務需求,利用PaaS能力快速迭代,提升整個SaaS的開發效率。應用方面,推出智能全感知系統,利用云邊端一體的技術架構,可以快速實現業務層的開發。
憑借“云智一體”的獨特優勢,除智能視頻方向以外,百度智能云已在智能制造、智慧金融、智慧城市、智慧能源、智慧醫療等領域擁有領先產品、技術和解決方案,與多家行業翹楚合作推進企業數字化、智能化升級。百度將持續以深耕多年的AI技術能力深入各行各業,夯實智能化基礎,助力產業智能化升級實現新突破。
特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。