站長資訊網
        最全最豐富的資訊網站

        百度語音識別技術突破,巨頭崛起,傳統沒落?

          語音識別行業正面臨新一輪的洗牌。

          早在兩年前,大家的普遍認識是語音識別領域將會催生出巨頭公司。所以當蘋果、Google、百度、三星和微軟提出要收購當時全球語音領域的老大Nuance的時候,Nuance CEO Paul Ricci一口回絕。

          但隨之不久,蘋果、Google和微軟都選擇了擺脫Nuance的依賴,自建團隊開發語音業務。在那之后,Nuance的市場份額節節下跌,2014年還高達60%的市場份額,一年時間縮水一半只剩31.1%(Source:Research and Markets)。相比之下,Google語音識別的市場份額增長明顯。

          在英語領域,我們看到的趨勢是作為搜索巨頭的Google逐漸占據行業的主導權。那對于中文領域的市場,是否會重現在英語領域語音識別發生的歷史呢?當百度重兵布局語音領域,是否會成為中國語音識別領域標準的制定者,占據行業主導權呢?

          我們從多個角度分析。

          1.語音識別新架構:用做圖像的方法做語音

          近些年來,我們發現在圖像領域有一個明顯的發展趨勢:越來越深的卷積神經網絡層級(CNN),從最初的8層,到19層、22層、乃至152層的網絡結構。而隨著網絡結構的加深,ImageNet競賽的錯誤率也從2012年的16.4%逐步下降到3.57%。

        百度語音識別技術突破,巨頭崛起,傳統沒落?

        ImageNet競賽中,越來越深的CNN不斷刷新著其性能

          那么,深度學習在圖像領域的進展,是否能夠在語音識別上有所突破呢?

          通常情況下,語音識別是基于時頻分析后的語音譜完成的。如果將卷積神經網絡的思想應用在語音識別的聲學建模上,我們就可以把時頻譜當作一張圖像來處理。而由于卷積神經網絡的局部連接和權重共享的特點,它具有很好的平移不變性,所以可以將它應用在語音識別中,而且還能克服語音信號本身的多樣性(說話人自身、以及說話人間、環境等)。

        百度語音識別技術突破,巨頭崛起,傳統沒落?

        Deep CNN語音識別的建模過程

          但這里遇到一個問題,雖然在ImageNet競賽中得到廣泛關注的Deep CNN結構能夠顯著提高性能,但由于無法實現實時的計算,其很難在產品模型中得到實際的應用。

          一個解決方案是借鑒Residual連接的思想,訓練一個數十層的包含Residual連接的 Deep CNN,以用于工業產品中。

          百度對此做了對比實驗,最終發現Deep CNN架構不僅能夠顯著提升HMM語音識別系統的性能,而且也能提升CTC語音識別系統的性能。在此同時,百度也嘗試了將LSTM或GRU的循環隱層和CNN結合,這是相對較好的選擇。

          這也推導出了百度發布的新型語音識別架構:Deep CNN + LSTM + CTC。

          模型結構采用:Deep CNN + Deep LSTM。

          建模方式:基于CTC的端對端建模。

          通過創新的架構,百度大幅提升了語音識別產品的性能,相對于工業界現有的CLDNN 結構,錯誤率相對降低了10%以上。

          2.新架構推動語音大規模產業化

          從歷史來看,產品和系統真正的大規模使用和推廣,一般都來自于基礎性的變革和突破。

          對于語音識別來說,真正能夠實現大規模使用的系統,一定要滿足:在不同場景、方言下的穩定性,大規模的訓練能力,極短的訓練時間,大大降低的機器耗費。這好比 Android 一樣,穩定、支持海量應用和場景開發、開發時間短、開發成本低。

          而Deep CNN和LSTM、CTC結合的架構,在以下幾個方面有顯著的優勢:

          1)更強的通用性。使用一個單獨的算法完成從任務輸入端到輸出端的所有過程。

          2)大規模訓練的能力。能夠在約10萬小時的精準標注語音數據中完成訓練。

          3)大大降低服務成本。以CTC為例,它能夠讓語音識別解碼的計算量降下來,光這部分成本就能降低近1倍。

          4)適合工業界。據百度Deep Speech中文研發負責人李先剛介紹,百度不僅能達到近十萬級的數據規模,而且能夠支持高性能計算,這可以讓優秀的模型直接移植到產品線中。

          5)性能更優秀。以往語音系統將訓練過程拆解,人為干預多,但效果不一定好。端對端模型減少了人為干預,直接從輸入端到輸出端,一般性能會更好。

          6)層數越深,效果越好。引入了深層CNN的概念,語音識別的性能得到顯著的提升,正如李先剛博士所言:‘The Deeper , The Better’。

          李先剛博士特意提到了百度語音的研發側重點。與學術研究不同,百度語音聚焦于技術的實際應用,技術難度和實現程度更高。針對語音識別產品而言,首先要具備在大規模語音數據庫上體現性能提升,其次就是具有適合語音在線識別產品運行的模型。

          正是基于以上這些優勢,讓百度語音識別真正成為大規模產業化的基礎,帶來真正的人機交互變革。

          3.語音識別以量取勝的同時,也以質取勝

          語音識別技術經歷了長達60年的發展。2006年Hinton提出了深度置信網絡,掀起了深度學習的熱潮。2009年,Hinton以及他的學生D. Mohamed將深度神經網絡應用于語音的聲學建模,在小詞匯量連續語音識別數據庫TIMIT上獲得成功。從2010年開始,微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別,隨后逐漸成為了主流。

          而在以深度學習的發展脈絡下,語音識別的準確率和通用性,本質就在于:

          數據量的多少,這很大程度來自于搜索量、使用量的規模;

          算法的優劣,頂級人才在這方面有極其重要的作用;

          計算能力的水平,尤其是在大規模產業化和成本因素下,FPGA等專業硬件的發展水平也非常重要。

          而在這三方面的比拼中,巨頭公司將會占據極大的優勢,因為它們擁有最多的數據,最頂級的人才以及最強大的計算能力水平。所以當Google開放語音識別API 后,在英語語音識別的市場中,Google將比Nuance有更大的優勢。

          而在中文市場中,百度也將扮演著和Google在英語市場相似的角色。

          4.傳統專利池受到挑戰,競爭回歸技術

          語音識別的模型算法每年都有很大的變化。就以百度自己的語音識別技術來說,2013 年語音識別技術主要還是基于美爾子帶CNN模型,2014年發展出了Sequence Discriminative Training(區分度模型),2015年初發展出基于LSTM –HMM的語音識別,年底發展出基于LSTM-CTC的端對端語音識別系統,而現在把Deep CNN模型和 LSTM、CTC結合了起來。

        百度語音識別技術突破,巨頭崛起,傳統沒落?

        百度語音識別技術每年迭代算法模型

          在快速發展的技術下,很多公司選擇了采取組建知識產權產業聯盟的方法。2015年 11月,百度開放了上百項智能語音專利,和海爾、京東、中興通訊、中國普天等 20 多家單位組建了智能語音知識產權產業聯盟。

          這種開放式創新和開放式知識產權許可的結合,也許會成為智能語音未來的產業核心模式。這也意味著傳統語音的專利池,在快速發展、迭代的語音技術下,在更開放的語音聯盟下,會失去過去的保護作用。

          所以智能語音的未來發展,關鍵還是在于核心技術的突破,這也就來到了數據、算法和計算能力的比拼,這方面百度會有很大優勢。

          5.人工智能技術生態的重要作用

          當Google發布了語音開放API,其對Nuance的打擊是致命的。這不僅僅是因為Google在產品、技術上的優勢,而且也來自于Google強大的人工智能技術生態,例如以TensorFlow為代表的深度學習引擎,因為大量的一線工作人員使用,其對語音識別領域的開發選擇有強大的影響力。

          當語音技術逐漸往大規模產業化發展時,公司的技術生態會非常重要。對于百度來說,9月份開源的PaddlePaddle,1月份開源的Warp-CTC,都對產業界有深遠的影響。

          基于上面的分析,我們認為語音識別將進入大規模產業化的時代。而在核心技術和能力的比拼下,語音識別也將進入巨頭崛起,傳統語音公司稍顯沒落的時代。

        特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 99久久国产综合精品五月天喷水 | 欧美精品亚洲精品日韩精品| 久久99精品久久只有精品| 精品欧美一区二区在线看片| 精品国产欧美一区二区| 久久久久成人精品无码中文字幕 | 日本欧美韩国日本精品| 精品一区二区三区免费毛片爱 | 中文字幕精品视频在线| 国产午夜精品一区二区三区小说| 精品乱人伦一区二区三区| 国产伦精品免编号公布| 少妇人妻精品一区二区三区| 亚洲福利精品电影在线观看| 久久久精品国产Sm最大网站| 国产精品乱伦| 国产成人精品一区二三区在线观看 | 欧美日韩国产成人高清视频,欧美日韩在线精品一 | 精品久久久久久久久中文字幕| 国产亚洲精品无码成人| 亚洲av成人无码久久精品| 网友偷拍日韩精品| 午夜成人精品福利网站在线观看| 精品国产青草久久久久福利| 国产午夜精品理论片| 国产一在线精品一区在线观看| MM1313亚洲精品无码| 3级黄性日本午夜精品| 久久国产免费观看精品| 国产精品久久久久9999| 国产精品久久自在自线观看| 99爱在线精品免费观看| 成人精品视频一区二区三区| 国产AV无码专区亚洲精品| 91麻豆精品国产自产在线观看亚洲| 国产成人精品2021| 国产成人精品天堂| 久久最新精品国产| 成人午夜精品久久久久久久小说| 亚洲欧美精品伊人久久| 国产啪亚洲国产精品无码 |