(相關(guān)資料圖)
近日,2023年國(guó)際頂級(jí)語(yǔ)音會(huì)議ASRU(IEEE Automatic Speech Recognition and Understanding,自動(dòng)語(yǔ)音識(shí)別與理解)的多通道多方會(huì)議轉(zhuǎn)錄挑戰(zhàn)賽(M2MeT2.0)圓滿結(jié)束,喜馬拉雅珠峰實(shí)驗(yàn)室取得了卓越成績(jī),榮獲冠軍殊榮。
ASRU研討會(huì)是IEEE語(yǔ)音和語(yǔ)言處理技術(shù)委員會(huì)(SLTC)的旗艦技術(shù)活動(dòng),每?jī)赡昱e辦一次,匯集了來(lái)自學(xué)術(shù)界和工業(yè)界的頂級(jí)專家和研究人員,共同探討廣泛的語(yǔ)音識(shí)別與理解問(wèn)題。本次M2MeT2.0挑戰(zhàn)賽是ASRU 2023年的重要賽事,旨在解決離線會(huì)議室中語(yǔ)音重疊的轉(zhuǎn)錄難題。會(huì)議場(chǎng)景作為典型的多人自由交談的"雞尾酒會(huì)場(chǎng)景"一直是語(yǔ)音識(shí)別領(lǐng)域的難點(diǎn)和關(guān)注焦點(diǎn),對(duì)于開(kāi)發(fā)會(huì)議場(chǎng)景的語(yǔ)音人工智能和探索相關(guān)問(wèn)題的工業(yè)級(jí)解決方案具有重要意義。
值得一提的是,喜馬拉雅并非首次參加ASRU的M2MeT挑戰(zhàn)賽。在首屆M2MeT挑戰(zhàn)賽中,喜馬拉雅與中國(guó)科學(xué)技術(shù)大學(xué)合作,在說(shuō)話人日志賽道中榮獲第三名,并且取得了僅有4.05%的日志錯(cuò)誤率。首屆挑戰(zhàn)賽的評(píng)估指標(biāo)是字符錯(cuò)誤率(CER),只轉(zhuǎn)錄音頻對(duì)應(yīng)的文本,不考慮說(shuō)話人標(biāo)簽?;谑讓玫某晒Γ琈2MeT2.0挑戰(zhàn)賽將著重于說(shuō)話人相關(guān)的評(píng)估,推動(dòng)多說(shuō)話人語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化,并設(shè)立了限定數(shù)據(jù)和不限定數(shù)據(jù)兩個(gè)子賽道。
為了應(yīng)對(duì)這一挑戰(zhàn),喜馬拉雅珠峰實(shí)驗(yàn)室從語(yǔ)音識(shí)別基礎(chǔ)框架出發(fā),展開(kāi)了混疊語(yǔ)音檢測(cè)技術(shù)和說(shuō)話人日志技術(shù)等方面的技術(shù)探索。在本次M2MeT2.0挑戰(zhàn)賽中,喜馬拉雅在限定數(shù)據(jù)集和開(kāi)放數(shù)據(jù)集兩個(gè)子賽道上均取得了第一名的出色成績(jī)。
今年的M2MeT2.0挑戰(zhàn)賽數(shù)據(jù)集包含了真實(shí)、多場(chǎng)景、多模態(tài)的大規(guī)模數(shù)據(jù),涵蓋了不同規(guī)模和布局的多種會(huì)議室,模擬了各種家具、不同主題的例會(huì)以及各種室內(nèi)噪音。其中包括人聲、電視聲、風(fēng)扇空調(diào)聲、鍵盤聲、開(kāi)門/關(guān)門聲、氣泡聲等重疊交錯(cuò)的聲音,為比賽增添了挑戰(zhàn)性。通過(guò)使用麥克風(fēng)陣列記錄遠(yuǎn)場(chǎng)音頻和耳機(jī)麥克風(fēng)記錄近場(chǎng)音頻,確保了對(duì)應(yīng)說(shuō)話人的語(yǔ)音準(zhǔn)確轉(zhuǎn)錄。這一數(shù)據(jù)集對(duì)于多說(shuō)話人語(yǔ)音識(shí)別和語(yǔ)音重疊問(wèn)題的研究具有重要的學(xué)術(shù)意義,并為尋找工業(yè)級(jí)解決方案提供了真實(shí)且多樣化的數(shù)據(jù)資源。
M2MeT2.0挑戰(zhàn)賽數(shù)據(jù)集中所有說(shuō)話人的母語(yǔ)均為漢語(yǔ),喜馬拉雅通過(guò)產(chǎn)學(xué)研相結(jié)合的方式積極參與其中,致力于為中國(guó)本土語(yǔ)音識(shí)別技術(shù)的發(fā)展作出貢獻(xiàn)。在M2MeT2.0挑戰(zhàn)賽中,喜馬拉雅展示了出色的說(shuō)話人和語(yǔ)音識(shí)別技術(shù)(ASR)展現(xiàn)出了卓越的性能,其珠峰實(shí)驗(yàn)室團(tuán)隊(duì)通過(guò)自研的說(shuō)話人識(shí)別、語(yǔ)音增強(qiáng)和語(yǔ)音識(shí)別等模塊的優(yōu)化和經(jīng)驗(yàn),在語(yǔ)音重疊和多說(shuō)話人環(huán)境下取得了顯著突破。借助深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型的結(jié)合,喜馬拉雅珠峰實(shí)驗(yàn)室能夠準(zhǔn)確識(shí)別和分離多個(gè)說(shuō)話人的語(yǔ)音,并實(shí)時(shí)轉(zhuǎn)錄。
喜馬拉雅相關(guān)技術(shù)不僅在ASRU 2023年M2MeT2.0挑戰(zhàn)賽中得到驗(yàn)證,還已應(yīng)用賦能于喜馬拉雅AIGC內(nèi)容生產(chǎn)中。目前,喜馬拉雅自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)已廣泛應(yīng)用到了喜馬拉雅App的AI文稿功能,對(duì)喜馬拉雅平臺(tái)中無(wú)文稿的聲音內(nèi)容進(jìn)行語(yǔ)音轉(zhuǎn)寫(xiě),并輸出相應(yīng)的文字,從而便于聽(tīng)眾更好地理解聲音內(nèi)容。同時(shí),對(duì)于已有原始文稿的聲音內(nèi)容,喜馬拉雅的AI文稿功能通過(guò)超長(zhǎng)音頻與文本的對(duì)齊技術(shù),將聲音與文稿進(jìn)行時(shí)間戳對(duì)軌,實(shí)現(xiàn)聲音播放與相應(yīng)文字的同步高亮,讓用戶能夠更便捷地享受邊聽(tīng)邊看的內(nèi)容消費(fèi)體驗(yàn)。
除了ASR技術(shù),喜馬拉雅的TTS(語(yǔ)音合成)技術(shù)也處于行業(yè)前列,并已經(jīng)廣泛被運(yùn)用于評(píng)書(shū)、新聞、小說(shuō)等多種內(nèi)容的制作中,喜馬拉雅通過(guò)將自主設(shè)計(jì)單獨(dú)的韻律提取模塊融入到HiTTS 技術(shù)框架,完美復(fù)現(xiàn)了單田芳的“聲音”。據(jù)悉,喜馬拉雅已用單田芳的AI合成音上線了超過(guò)100多張專輯,總播放量超過(guò)1億。
多年來(lái),喜馬拉雅一直在AI語(yǔ)音技術(shù)領(lǐng)域進(jìn)行深入研究,其珠峰實(shí)驗(yàn)室長(zhǎng)期專注于語(yǔ)音合成、情感分析、語(yǔ)音識(shí)別等領(lǐng)域的研究和創(chuàng)新。通過(guò)參與ASRU 2023年M2MeT2.0挑戰(zhàn)賽并獲得冠軍,喜馬拉雅進(jìn)一步鞏固了在語(yǔ)音技術(shù)領(lǐng)域的領(lǐng)先地位,并展示了在解決復(fù)雜語(yǔ)音場(chǎng)景下的出色能力。
作為備受用戶喜愛(ài)的在線音頻平臺(tái),喜馬拉雅一直秉持著以科技賦能文化的理念,不斷將技術(shù)與創(chuàng)作者、用戶相結(jié)合,提升內(nèi)容生產(chǎn)效率并提供卓越的內(nèi)容體驗(yàn)。喜馬拉雅也將持續(xù)通過(guò)科技賦能和產(chǎn)學(xué)研相結(jié)合的方式,將先進(jìn)而智能的語(yǔ)音技術(shù)與聲音相結(jié)合,為用戶提供卓越的語(yǔ)音技術(shù)產(chǎn)品和服務(wù)。