語音自古以來就是人際交流最基本的方式,在使用不同語言的人與人之間實現(xiàn)無障礙語音交流一直是世界各國人民的愿望。語音翻譯,通過計算機技術實現(xiàn)語音到語音的翻譯(S2ST)或語音到文本的翻譯(AST),是實現(xiàn)跨語言人際交流的重要工具。
傳統(tǒng)的語音翻譯系統(tǒng)采用級聯(lián)方式,語音到文本翻譯由自動語音識別(ASR)模塊和機器翻譯(MT)模塊兩級級聯(lián)實現(xiàn),語音到語音翻譯由ASR、MT和語音合成模塊(TTS)三級級聯(lián)實現(xiàn),通過單獨訓練和調整每個模塊提升整體性能。隨著語音識別、機器翻譯和語音合成技術的日趨成熟,級聯(lián)方式語音翻譯的整體性能較高,但也存在一些固有的問題,如只有語音沒有文字的語言的語音翻譯問題
[1],因系統(tǒng)級聯(lián)而產生的誤差傳播問題
[2]等。為了解決這些問題,端到端模型
[3]成為近年來的研究熱點。研究表明,當有足夠多的數(shù)據(jù)可用時,端到端模型的性能優(yōu)于級聯(lián)方式,但在低數(shù)據(jù)情況下表現(xiàn)不佳
[4]。與現(xiàn)有的語音識別、機器翻譯和語音合成數(shù)據(jù)集相比,語音到語音翻譯和語音到文本翻譯均面臨嚴重的數(shù)據(jù)稀缺問題,尤其是低資源小語種語音翻譯數(shù)據(jù)集非常匱乏
[5]。
針對語音翻譯數(shù)據(jù)稀缺問題,數(shù)據(jù)集建設成為當前語音翻譯的研究方向之一。在語音到文本翻譯數(shù)據(jù)集建設方面,國內外研究者目前廣泛采用的方法是在現(xiàn)有公開數(shù)據(jù)集基礎上,利用機器翻譯得到數(shù)據(jù)集。根據(jù)構建方式不同,這種方法又可分為兩類,一類是利用ASR數(shù)據(jù),將源文本翻譯成目標語言文本,生成AST數(shù)據(jù)集;另一類是利用MT數(shù)據(jù),將某一語言的文字進行語音合成,生成AST數(shù)據(jù)集
[6]。
BéRARD A以LibriSpeech公開數(shù)據(jù)集為基礎,對該數(shù)據(jù)集進行法語對齊與谷歌翻譯,生成語音翻譯數(shù)據(jù)集
[7],該數(shù)據(jù)集已被LIU Y用于基于知識蒸餾的端到端語音翻譯研究
[8]。KANO T通過英日機器翻譯語料庫,通過語音合成的方式生成語音數(shù)據(jù),進行端到端的英語日語語音翻譯研究
[9]。PINO J利用機器翻譯模型,將英文文本翻譯成法語和羅馬尼亞語和利用語音合成技術將WMT14進行語音合成生成音頻增強數(shù)據(jù)
[6]。KANO T使用BTEC英語日語平行語料庫,并使用谷歌語音合成技術生成語音語料庫研究遠距離語言對的端到端語音翻譯
[1]。TU M使用IWSLT2019提供的由并行數(shù)據(jù)和機器翻譯生成的合成語料庫研究端到端語音翻譯
[10]。PINO J證明了兩類語音到文本翻譯數(shù)據(jù)集,并證明利用ASR生成AST數(shù)據(jù)集比利用MT生成AST數(shù)據(jù)集效果更好
[6]。
由于目前國內語音翻譯相關數(shù)據(jù)集幾乎是空白,國際數(shù)據(jù)集多集中在英語方面,在漢語方面僅僅開展了英漢領域的研究,蒙古語、維吾爾語研究工作由于缺少相關數(shù)據(jù)集支撐而無法開展。本研究在現(xiàn)有公開數(shù)據(jù)集AISHELL
[11]、THUYG-20
[12]基礎上,利用機器翻譯和人工校對相結合,構建了兩種語音到文字翻譯數(shù)據(jù)集:中文語音到蒙文文字數(shù)據(jù)集和維語語音到中文文字數(shù)據(jù)集,可用于端到端語音翻譯模型的研究,開展?jié)h語方面的語音翻譯相關研究。本數(shù)據(jù)集內容涵蓋智能家居、無人駕駛、工業(yè)生產、新聞等多方面,覆蓋面廣,可用于多種場景。數(shù)據(jù)集生成方法較國際公開方法,增加了人工校對步驟,更加科學可靠地保證了數(shù)據(jù)質量。