站長資訊網(wǎng)
        最全最豐富的資訊網(wǎng)站

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          最近,F(xiàn)acebook 開源了目前世界上最大的多語言語音數(shù)據(jù)集,VoxPopuli:

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          這一數(shù)據(jù)集共涵蓋了 23 種語言,時長超過 40 萬小時。

          其中,每種語言都有 9000 到 18000 小時的無標(biāo)簽語音數(shù)據(jù)。

          此外,還包括了共 1800 小時,16 種語言的轉(zhuǎn)錄語音數(shù)據(jù),以及 17300 小時,15 種目標(biāo)語言的口譯語音數(shù)據(jù)。

          國外網(wǎng)友很快為這一行為點贊:

          顯然,如果數(shù)據(jù)集已經(jīng)存在,那么它應(yīng)該被利用,并以一種道德的方式來改善人類社會。

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          這一數(shù)據(jù)集龐大的無標(biāo)簽數(shù)據(jù)量和廣泛的語言覆蓋率,對改進自監(jiān)督模型有著很大的幫助。

          而 Facebook 也希望能夠幫助提高語音數(shù)據(jù)集的質(zhì)量和魯棒性,使訓(xùn)練語音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)更加可靠。

          最終加速新的 NLP 系統(tǒng)的開發(fā),使 AI 翻譯的效果越來越好。

          而數(shù)據(jù)集的名字,VoxPopuli 的直譯“人民的心聲”也表示了其原始數(shù)據(jù)的來源 ——

          即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。

          來自 10 年歐會的語料庫

          在歐洲議會的各自活動,如全體會議、委員會會議和其他活動上,發(fā)言者都會以不同的歐盟語言輪流發(fā)表演講。

          Facebook 就是從歐會官網(wǎng)上抓取了每個演講的文字記錄、演講者信息、開始/結(jié)束時間戳。

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          然后,將所有的原始演講數(shù)據(jù)進行處理,大致分為以下 3 類:

          共 40 萬小時,23 種語言的無標(biāo)簽語音數(shù)據(jù)

          每種語言都有 8 千到 2 萬多的原始語音數(shù)據(jù)。

          因此,F(xiàn)acebook 基于能量的語音激活檢測(VAD)算法,將完整音頻分割成 15-30 秒的短片段。

          最終得到?jīng)]有太多的數(shù)據(jù)不平衡,也不需要調(diào)整數(shù)據(jù)采樣策略的數(shù)據(jù)集。

          因此非常適合多語言模型的訓(xùn)練。

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          而上表中除了無標(biāo)簽數(shù)據(jù),也有轉(zhuǎn)錄的語音數(shù)據(jù),這也就是第二種:

          共 1800 小時,16 種語言的轉(zhuǎn)錄語音數(shù)據(jù)。

          歐會官方的時間戳雖然可以用來在會議中定義演講者,但常常會被截斷,或混合前后演講的片段,因此并不完全準確。

          所以 Facebook 對全會話音頻采用了聲紋分割聚類(SD)。

          這時的語音段落平均時長為 197 秒,再利用語音識別(ASR)系統(tǒng),將其細分為 20 秒左右的短片段。

          觀察上表,可以看到最終得到的數(shù)據(jù)中,有包括各語言的持續(xù)時間、發(fā)言人數(shù)量、女性發(fā)言人百分比、標(biāo)記數(shù)量等多種屬性。

          17300 小時的 15 種目標(biāo)語言的口譯語音數(shù)據(jù):

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          每個原始語音都有相對應(yīng)的同聲傳譯,并互相關(guān)聯(lián)。

          但要使這個數(shù)據(jù)集可用,必須經(jīng)過大量的預(yù)處理和過濾。

          因此,F(xiàn)acebook 使用了語音識別(ASR)系統(tǒng)在句子層面上對齊源語音和目標(biāo)語音。

          在域外環(huán)境的半監(jiān)督學(xué)習(xí)下具有通用性

          那么這一數(shù)據(jù)集用起來到底怎么樣?

          首先,是使用包含了域外語言(out-of-domain out-of-language)的無監(jiān)督預(yù)訓(xùn)練,進行少樣本的語音識別:

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          可以從表中看到,VP-Mono5K 在 5 種 VoxPopuli 語言上,都優(yōu)于 XLSR-Mono 和 XLSR-10。

          而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現(xiàn)更好。

          并且,雖然 XLSR-53 涵蓋了 Zh 語言,但與 VP-100K(Large)在 Zh 上的表現(xiàn)相距甚遠。

          這表明 VP-100K 所學(xué)的語音表征具有高度的通用性。

          然后是使用 VoxPopuli 數(shù)據(jù)集進行自我訓(xùn)練或弱監(jiān)督的語言翻譯(ST)和語音識別(ASR):

        世界最大的多語言語音數(shù)據(jù)集現(xiàn)已開源:超 40 萬小時,共 23 種語言

          從表中可以看到,不管是對于域內(nèi)語言還是域外語言,對 VoxPopuli 的自我訓(xùn)練在大多數(shù)時候都能夠提高性能。

          而在翻譯上,也不用再增加昂貴的標(biāo)簽數(shù)據(jù)。

          通過自我訓(xùn)練,就能夠縮小端到端模型和級聯(lián)模型之間的差距。

          論文地址:

          https://arxiv.org/abs/2101.00390

          下載:

          https://github.com/facebookresearch/voxpopuli

          參考鏈接:

          [1]https://www.reddit.com/r/MachineLearning/comments/owll7g/n_facebook_ai_releases_voxpopuli_a_largescale/

          [2]https://www.marktechpost.com/2021/08/02/facebook-ai-releases-voxpopuli-a-large-scale-open-multilingual-speech-corpus-for-ai-translations-in-nlp-systems/

        特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。

        贊(0)
        分享到: 更多 (0)
        網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號
        主站蜘蛛池模板: 精品日韩在线视频一区二区三区| 亚欧无码精品无码有性视频| 人人妻人人澡人人爽精品欧美 | 国产精品99久久99久久久| 精品国产婷婷久久久| 国产精品666| 日产精品久久久一区二区| 天天爽夜夜爽8888视频精品| 国产精品永久久久久久久久久| 久久伊人精品青青草原高清| 久久综合久久自在自线精品自| 亚洲av无码成人精品区在线播放 | 无码日韩精品一区二区免费暖暖 | 久久狠狠一本精品综合网| 欧美一区二区精品| 国产福利视精品永久免费| 国产精品美女久久久m| 久久国产精品无码HDAV| 日韩精品无码一区二区三区免费| 日韩一区二区三区在线精品| 国产网红主播无码精品| 国产精品部在线观看| 2023国产精品自拍| 亚洲国产精品成| 亚洲国产综合91精品麻豆| 精品亚洲永久免费精品| 国产精品久久久久影院嫩草| 国产91久久精品一区二区| 91精品国产色综合久久| 99re6这里有精品热视频| 国产精品一久久香蕉国产线看观看| 久久99精品久久只有精品| 精品久久久久久国产潘金莲| 一本一本久久A久久综合精品| 亚洲麻豆精品国偷自产在线91| 久久精品亚洲乱码伦伦中文| 久久久精品无码专区不卡| 四虎国产精品永久在线无码| 伊人精品久久久久7777| 亚洲国产精品一区二区第一页| 亚洲国产精品VA在线观看麻豆|