<button id="yg2go"><code id="yg2go"></code></button>
  • <cite id="yg2go"></cite>
  • <abbr id="yg2go"><dl id="yg2go"></dl></abbr>
  • 亚洲欧美日韩精品久久久,夜色福利一区二区三区,视频日韩p影院永久免费,成人免费视频国产

    多語種智能信息處理數(shù)據(jù)集專刊 II 區(qū)論文(已發(fā)表) ? 版本 ZH3 Vol 7 (2) 2022
    下載
    機器翻譯輔助的中蒙、維漢語音翻譯數(shù)據(jù)集子集
    A subset of Chinese-Mongolian and Uyghur-Chinese speech translation dataset aided by machine translation
    ?>>
    : 2021 - 12 - 31
    : 2022 - 05 - 17
    : 2022 - 02 - 08
    : 2022 - 06 - 29
    5124 17 0
    摘要&關鍵詞
    摘要:目前,語音翻譯的公開數(shù)據(jù)集稀少,中文與其他低資源語言的雙向語音翻譯數(shù)據(jù)集尤其匱乏,阻礙了相關語言端到端語音翻譯研究的推進。本文參考國際語音翻譯數(shù)據(jù)集研究思想,將公開的語音識別數(shù)據(jù)集(AISHELL、THUYG-20)通過機器翻譯,轉換成語音翻譯數(shù)據(jù)集,進行數(shù)據(jù)處理后交由專家審核、校驗,從而得到高質量語音翻譯數(shù)據(jù)集。本數(shù)據(jù)集包括中蒙語音翻譯數(shù)據(jù)集和維漢語音翻譯數(shù)據(jù)集兩部分,音頻采樣率是16 kHz。中蒙語音翻譯數(shù)據(jù)集包含樣本1919條,大小為238 MB。維漢語音翻譯數(shù)據(jù)集包含樣本3692條,大小為652 MB。本數(shù)據(jù)集可用于端到端語音翻譯的研究,為探索中文與少數(shù)民族語言的語音翻譯提供數(shù)據(jù)支撐,也可結合語音識別數(shù)據(jù)集用于研究機器翻譯。
    關鍵詞:語音翻譯;中蒙;維漢;低資源
    Abstract & Keywords
    Abstract:?At present, there are few public datasets for speech translation, especially those between Chinese and other low-resource languages. The development of end-to-end speech translation is limited by resources. In light of the research idea of international speech translation datasets, in this paper, we used the public speech recognition datasets (AISHELL and THUYG-20) to convert them into speech translation datasets through machine translation. After data processing, they were reviewed and verified by experts, so as to obtain high-quality speech translation datasets. The dataset includes Chinese-Mongolian speech translation dataset and Uygur-Chinese speech translation dataset, and the audio sampling rate is 16 kHz. The Chinese-Mongolian speech translation subset contains 1,919 items with a size of 238 MB. The Uygur-Chinese speech translation subset contains 3,692 samples with a size of 652 MB. This dataset can be used for the research on end-to-end speech translation, and provide data support for exploring the speech translation between Chinese and minority languages. As the dataset has been reviewed and verified by experts, it can also be combined with speech recognition dataset to study machine translation.
    Keywords:?speech translation;?Chinese-Mongolian;?Uyghur-Chinese;?low resource
    數(shù)據(jù)庫(集)基本信息簡介
    數(shù)據(jù)庫(集)名稱中-蒙和維-漢語音翻譯數(shù)據(jù)集
    數(shù)據(jù)作者朱麗平,李寧
    數(shù)據(jù)通信作者朱麗平(2007014@muc.edu.cn)
    數(shù)據(jù)時間范圍2021年
    地理區(qū)域內蒙古自治區(qū),新疆維吾爾自治區(qū)
    數(shù)據(jù)量890 MB(壓縮前)
    數(shù)據(jù)格式*.wav, *.txt
    數(shù)據(jù)服務系統(tǒng)網(wǎng)址http://www.doi.org/10.11922/sciencedb.j00001.00356
    基金項目國家社科基金項目(17BGL199)
    數(shù)據(jù)庫(集)組成數(shù)據(jù)集包含中蒙語音翻譯數(shù)據(jù)集和維漢語音翻譯數(shù)據(jù)集兩部分。數(shù)據(jù)包括音頻文件以及對應翻譯文本,音頻文件格式為wav格式,采樣率是16 kHz,文本文件格式是txt文本。中蒙語音翻譯數(shù)據(jù)集包含樣本1919條,大小為238 MB。維漢語音翻譯數(shù)據(jù)集包含樣本3692條,大小為652 MB。
    Dataset Profile
    TitleA subset of Chinese-Mongolian and Uyghur-Chinese speech translation dataset aided by machine translation
    Data corresponding authorZHU Liping (2007014@muc.edu.cn)
    Data authorsZHU LiPing, LI Ning
    Time range2021
    Geographical scopeInner Mongolia Autonomous Region, Xinjiang Uygur Autonomous Region
    Data volume890 MB
    Data format*.wav, *.txt
    Data service system<http://www.doi.org/10.11922/sciencedb.j00001.00356>
    Source of fundingNational Social Science Foundation of China (17BGL199)
    Dataset compositionThe dataset is composed of two parts: Chinese-Mongolian speech translation subset and Uygur-Chinese speech translation subset, including audio files and corresponding translated texts. The audio file format is “wav”; the sampling rate is 16 kHz, and the text file format is “tex” text. The Chinese-Mongolian speech translation subset contains 1,919 samples with a size of 238 MB. The Uygur-Chinese speech translation subset contains 3,692 samples with a size of 652 MB.
    引 言
    語音自古以來就是人際交流最基本的方式,在使用不同語言的人與人之間實現(xiàn)無障礙語音交流一直是世界各國人民的愿望。語音翻譯,通過計算機技術實現(xiàn)語音到語音的翻譯(S2ST)或語音到文本的翻譯(AST),是實現(xiàn)跨語言人際交流的重要工具。
    傳統(tǒng)的語音翻譯系統(tǒng)采用級聯(lián)方式,語音到文本翻譯由自動語音識別(ASR)模塊和機器翻譯(MT)模塊兩級級聯(lián)實現(xiàn),語音到語音翻譯由ASR、MT和語音合成模塊(TTS)三級級聯(lián)實現(xiàn),通過單獨訓練和調整每個模塊提升整體性能。隨著語音識別、機器翻譯和語音合成技術的日趨成熟,級聯(lián)方式語音翻譯的整體性能較高,但也存在一些固有的問題,如只有語音沒有文字的語言的語音翻譯問題[1],因系統(tǒng)級聯(lián)而產生的誤差傳播問題[2]等。為了解決這些問題,端到端模型[3]成為近年來的研究熱點。研究表明,當有足夠多的數(shù)據(jù)可用時,端到端模型的性能優(yōu)于級聯(lián)方式,但在低數(shù)據(jù)情況下表現(xiàn)不佳[4]。與現(xiàn)有的語音識別、機器翻譯和語音合成數(shù)據(jù)集相比,語音到語音翻譯和語音到文本翻譯均面臨嚴重的數(shù)據(jù)稀缺問題,尤其是低資源小語種語音翻譯數(shù)據(jù)集非常匱乏[5]
    針對語音翻譯數(shù)據(jù)稀缺問題,數(shù)據(jù)集建設成為當前語音翻譯的研究方向之一。在語音到文本翻譯數(shù)據(jù)集建設方面,國內外研究者目前廣泛采用的方法是在現(xiàn)有公開數(shù)據(jù)集基礎上,利用機器翻譯得到數(shù)據(jù)集。根據(jù)構建方式不同,這種方法又可分為兩類,一類是利用ASR數(shù)據(jù),將源文本翻譯成目標語言文本,生成AST數(shù)據(jù)集;另一類是利用MT數(shù)據(jù),將某一語言的文字進行語音合成,生成AST數(shù)據(jù)集[6]
    BéRARD A以LibriSpeech公開數(shù)據(jù)集為基礎,對該數(shù)據(jù)集進行法語對齊與谷歌翻譯,生成語音翻譯數(shù)據(jù)集[7],該數(shù)據(jù)集已被LIU Y用于基于知識蒸餾的端到端語音翻譯研究[8]。KANO T通過英日機器翻譯語料庫,通過語音合成的方式生成語音數(shù)據(jù),進行端到端的英語日語語音翻譯研究[9]。PINO J利用機器翻譯模型,將英文文本翻譯成法語和羅馬尼亞語和利用語音合成技術將WMT14進行語音合成生成音頻增強數(shù)據(jù)[6]。KANO T使用BTEC英語日語平行語料庫,并使用谷歌語音合成技術生成語音語料庫研究遠距離語言對的端到端語音翻譯[1]。TU M使用IWSLT2019提供的由并行數(shù)據(jù)和機器翻譯生成的合成語料庫研究端到端語音翻譯[10]。PINO J證明了兩類語音到文本翻譯數(shù)據(jù)集,并證明利用ASR生成AST數(shù)據(jù)集比利用MT生成AST數(shù)據(jù)集效果更好[6]
    由于目前國內語音翻譯相關數(shù)據(jù)集幾乎是空白,國際數(shù)據(jù)集多集中在英語方面,在漢語方面僅僅開展了英漢領域的研究,蒙古語、維吾爾語研究工作由于缺少相關數(shù)據(jù)集支撐而無法開展。本研究在現(xiàn)有公開數(shù)據(jù)集AISHELL[11]、THUYG-20[12]基礎上,利用機器翻譯和人工校對相結合,構建了兩種語音到文字翻譯數(shù)據(jù)集:中文語音到蒙文文字數(shù)據(jù)集和維語語音到中文文字數(shù)據(jù)集,可用于端到端語音翻譯模型的研究,開展?jié)h語方面的語音翻譯相關研究。本數(shù)據(jù)集內容涵蓋智能家居、無人駕駛、工業(yè)生產、新聞等多方面,覆蓋面廣,可用于多種場景。數(shù)據(jù)集生成方法較國際公開方法,增加了人工校對步驟,更加科學可靠地保證了數(shù)據(jù)質量。
    1 ? 數(shù)據(jù)采集和處理方法
    本數(shù)據(jù)集包含兩部分,由中文語音蒙文文字語音翻譯數(shù)據(jù)集和維語語音中文文字語音翻譯數(shù)據(jù)集組成。中蒙語音翻譯數(shù)據(jù)集包含1919條中文語音,以及中文語音翻譯對應的蒙古文文字。維漢音數(shù)據(jù)集包含3692條維吾爾語語音,以及維吾爾語語音翻譯對應的中文文字。
    1.1 ? 中蒙語音翻譯數(shù)據(jù)集
    中文語音蒙文文字語音翻譯數(shù)據(jù)集的中文語音語料直接取自于AISHELL語音識別數(shù)據(jù)集[11],對應的蒙文文本原始語料由AISHELL數(shù)據(jù)集中的中文文本經過預處理、機器翻譯和后處理得到。用中文語音和原始蒙文文本訓練語音翻譯模型,從訓練結果中篩選出準確(Bilingual Evaulation Understudy,即BLEU值為1)的中蒙語音翻譯數(shù)據(jù)共計25842條,得到形成中蒙語音翻譯數(shù)據(jù)集原型。再采用隨機抽樣的方式,從數(shù)據(jù)集中隨機抽取2000條數(shù)據(jù),經過專家審核、校對、刪除和更新,得到最終的中蒙語音翻譯數(shù)據(jù)集。數(shù)據(jù)處理方案如圖1所示。


    圖1 ? 蒙文文本數(shù)據(jù)處理流程
    Figure 1 Data processing flow of Mongolian text
    具體處理步驟如下:
    1)預處理:將AISHELL數(shù)據(jù)集中帶空格的中文文本數(shù)據(jù)去空格。
    2)機器翻譯:把中文文本翻譯成蒙文文本。
    3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過濾蒙文語句中的特殊符號,比如書名號,雙引號等,以及用計算機輔助方法對蒙古語中的不可見字符,如蒙古元音分隔符等進行批處理,消除不可見字符造成的蒙古文變形現(xiàn)象。
    4)語音翻譯模型篩選數(shù)據(jù):采用編碼器解碼器結構的端到端語音翻譯模型,將文本正確,BLEU值為1的蒙文翻譯文本篩選出來。
    5)抽樣校驗:利用隨機抽樣,從抽樣數(shù)據(jù)集中抽出部分數(shù)據(jù),由專家審核,挑選出存在偏差的數(shù)據(jù),交由后續(xù)專家人工校對,糾正文中的錯詞、錯字及語義不清的文本,形成最終數(shù)據(jù)集。
    1.2 ? 維漢語音翻譯數(shù)據(jù)集
    維漢數(shù)據(jù)集中的維語語音語料取自于清華大學和新疆大學發(fā)布的THUYG-20語音識別數(shù)據(jù)集[12],對應的中文文本原始語料由THUYG-20數(shù)據(jù)集中拉丁化的維文文本數(shù)據(jù)經過預處理、機器翻譯、后處理、專家校驗、最終整合得到,如圖2所示。


    圖2 ? 維文文本數(shù)據(jù)處理流程
    Figure 2 Data processing flow of Uyghur text
    具體處理步驟如下:
    1)預處理:將THUYG-20數(shù)據(jù)集,利用THUYG-20官方提供的工具包解碼拉丁化,得到維吾爾文字。
    2)機器翻譯:把維吾爾語文本翻譯成中文文本。
    3)后處理:數(shù)據(jù)清洗,處理特殊字符,包括過濾維文語句中的特殊符號,比如書名號,雙引號等,以及一些機器翻譯無法識別的語句。
    4)專家校驗:通過隨機抽樣,從數(shù)據(jù)集中抽出部分數(shù)據(jù),由專家審核、校對。
    5)整合處理:將專家校對后的數(shù)據(jù)整理、去除標記,形成最終數(shù)據(jù)集。
    2 ? 數(shù)據(jù)樣本描述
    本數(shù)據(jù)集包含中蒙語音翻譯數(shù)據(jù)集和維漢語音翻譯數(shù)據(jù)集兩部分。數(shù)據(jù)包括音頻文件以及對應翻譯文本,音頻文件格式為wav格式,采樣率是16 kHz,文本文件格式是txt文本。中蒙語音翻譯數(shù)據(jù)集包含樣本1919條,大小為238 MB。維漢語音翻譯數(shù)據(jù)集包含樣本3692條,大小為652MB。
    如圖3,每個數(shù)據(jù)集包括wav文件夾和doc文件夾兩個文件夾,其中doc文件夾中存放的是翻譯文本,wav文件夾中存放音頻文件,如下圖4所示。


    圖3 ? 數(shù)據(jù)集包含文件夾
    Figure 3 Dataset Contains Folders


    圖4 ? 中蒙語音翻譯數(shù)據(jù)集音頻文件
    Figure 4 Audio files of Chinese-Mongolian speech translation dataset
    圖5是中蒙語音翻譯數(shù)據(jù)集中的蒙文文本,第一列是音頻文件名,對應wav文件夾中的音頻文件,中間采用水平制表符“\t”分隔,第二列是音頻對應的蒙文文本。音頻文件名中的第7–11個字符,比如BAC009S0113W0155中的S0113代表是由用戶idS0113所錄制,中間用戶id不同,代表音頻錄制人不同。


    圖5 ? 中蒙語音翻譯數(shù)據(jù)集蒙文文本
    Figure 5 Mongolian text of Chinese-Mongolian speech translation dataset
    3 ? 數(shù)據(jù)質量控制和評估
    本數(shù)據(jù)通過機器翻譯將源語言文本翻譯成目標語言文本,從而得到了語音翻譯數(shù)據(jù)集,但機器翻譯的結果存在一定偏差,故后續(xù)邀請蒙語、維語語言專家進行打分評價,人工校驗數(shù)據(jù)集,將數(shù)據(jù)質量高的數(shù)據(jù)整理成為最終的語音翻譯數(shù)據(jù)。
    如圖6是蒙語專家對中蒙機器翻譯數(shù)據(jù)審核的結果,蒙語專家將根據(jù)偶數(shù)行的中文數(shù)據(jù)審核、判斷蒙文數(shù)據(jù)是否存在差錯,以及存在怎樣的差錯。


    圖6 ? 蒙漢文本審核圖
    Figure 6 Review of Mongolian-Chinese text
    圖7、圖8給出了蒙文專家校正的文本數(shù)據(jù)對比圖,圖中左列均為音頻文件名,右列是音頻文件所對應的中文文本和蒙文文本,圖7為專家校驗之前的機器翻譯原文,圖8是專家校正之后的結果。


    圖7 ? 蒙漢文本原圖
    Figure 7 Original Mongolian-Chinese Text


    圖8 ? 蒙漢文本校正圖
    Figure 8 Correction of Mongolian-Chinese Text
    圖9是維文專家校正的文本數(shù)據(jù)對比圖,每一行從左至右依次為文本所屬音頻編號,機器翻譯的中文文本,翻譯檢驗標記。其中,0代表翻譯不準確,其后為翻譯的問題,如漏翻或翻錯,以及改正后的中文翻譯結果;1代表翻譯正確。
    通過專家審核、校驗,改善機器翻譯產生的偏差,進一步提高數(shù)據(jù)質量,使得數(shù)據(jù)更加真實、可靠。


    圖9 ? 維漢文本校正圖
    Figure 9 Uyghur Chinese Text Correction Map
    4 ? 數(shù)據(jù)價值
    現(xiàn)在語音翻譯數(shù)據(jù)稀少,國際英語相關的數(shù)據(jù)比較多,但國內研究較少,中蒙數(shù)據(jù)和維漢數(shù)據(jù)填補了中文相關語音翻譯的稀缺數(shù)據(jù)。本文提供的語音翻譯數(shù)據(jù)可以直接用于語音翻譯的相關研究。本數(shù)據(jù)是由AISHELL、THUYG20數(shù)據(jù)集處理加工而來,便于使用AISHELL、THUYG20數(shù)據(jù)集的科研工作人員快速開始訓練,同時還便于將AISHELL、THUYG20的模型遷移到本數(shù)據(jù)集上。科研人員也可根據(jù)本數(shù)據(jù)集與AISHELL、THUYG20數(shù)據(jù)集音頻命名規(guī)則一致,便于修改預處理流程,快速開展相應實驗,用于機器翻譯的相關研究。
    致 謝
    感謝中央民族大學中國少數(shù)民族語言研究院高娃教授,中國社會科學院民族學與人類學研究所哈斯其木格研究員,中國政法大學戚肖克博士對蒙文機器翻譯質量評估給出的寶貴建議,感謝呼和浩特民族學院包烏歌德勒博士,九原區(qū)蒙古族學校娜日娜老師,中央民族大學趙美麗、都樂根、媛媛對蒙文數(shù)據(jù)的審校。
    [1]
    KANO T, SAKTI S, NAKAMURA S. End-to-end speech translation with transcoding by multi-task learning for distant language pairs[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 1342–1355. DOI:10.1109/TASLP.2020.2986886.
    [2]
    楊政. 基于Seq2Seq模型的俄漢**語音翻譯關鍵問題研究[D]. 戰(zhàn)略支援**信息工程大學, 2019. [YANG Z. Research on Key Problems of Russian Chinese Military Speech Translation Based on Seq2Seq Model[D].Strategic Support Force Information Engineering University,2019.]
    [3]
    JIA Y, JOHNSON M, MACHEREY W, et al. Leveraging weakly supervised data to improve end-to-end speech-to-text translation[C]//ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, UK. IEEE, 2019: 7180–7184. DOI:10.1109/ICASSP.2019.8683343.
    [4]
    SPERBER M, NEUBIG G, NIEHUES J, et al. Attention-passing models for robust and data-efficient end-to-end speech translation[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 313–325. DOI:10.1162/tacl_a_00270.
    [5]
    中國中文信息學會. 中文信息處理發(fā)展報告(2021)[EB/OL]. (2021-12) [2021–12]. http://www.cipsc.org.cn/download.php?file=cips2021.pdf. [Chinese Information Society. Chinese Information Processing Development Report(2021) [EB/OL]. (2021-12) [2021–12]. http://www.cipsc.org.cn/download.php?file=cips2021.pdf.]
    [6]
    PINO J, PUZON L, GU J, et al. Harnessing Indirect Training Data for End-to-End Automatic Speech Translation: Tricks of the Trade[EB/OL]. Computer Science, 2019. (2019-09-14). https://www.semanticscholar.org/paper/6399cfc9e04cdc9f38bb50ab2288fc9180a08bea.
    [7]
    BéRARD A, BESACIER L, KOCABIYIKOGLU A C, et al. End-to-end automatic speech translation of audiobooks[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada. IEEE, 2018: 6224–6228. DOI:10.1109/ICASSP.2018.8461690.
    [8]
    LIU Y C, XIONG H, ZHANG J J, et al. End-to-end speech translation with knowledge distillation[C]//Interspeech 2019. ISCA: ISCA, 2019: 1904. DOI:10.21437/interspeech.2019-2582.
    [9]
    KANO T, SAKTI S, NAKAMURA S. Structured-based curriculum learning for end-to-end English-Japanese speech translation[C]//Interspeech 2017. ISCA: ISCA, 2017. DOI:10.21437/interspeech.2017-944.
    [10]
    TU M, ZHANG F, LIU W. End-to-end speech translation with self-contained vocabulary manipulation[C]//ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, Spain. IEEE, 2020: 7929–7933. DOI:10.1109/ICASSP40776.2020.9053431.
    [11]
    BU H, DU J Y, NA X Y, et al. AISHELL-1: an open-source Mandarin speech corpus and a speech recognition baseline[C]//2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA). Seoul, Korea (South). IEEE, 2017: 1–5. DOI:10.1109/ICSDA.2017.8384449.
    [12]
    艾斯卡爾·肉孜, 殷實, 張之勇, 等. THUYG-20: 免費的維吾爾語語音數(shù)據(jù)庫[J]. 清華大學學報(自然科學版), 2017, 57(2): 182–187. DOI:10.16511/j.cnki.qhdxxb.2017.22.012.[Aisikaer Rouzi, YIN S, ZHANG Z Y, et al. THUYG-20: a free Uyghur speech database[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(2): 182–187. DOI:10.16511/j.cnki.qhdxxb.2017.22.012.]
    數(shù)據(jù)引用格式
    朱麗平, 李寧. 中-蒙和維-漢語音翻譯數(shù)據(jù)集[DS/OL]. Science Data Bank, 2022. (2022-06-27). DOI: 10.11922/sciencedb.j00001.00356.
    稿件與作者信息
    論文引用格式
    李寧, 朱麗平, 趙小兵, 等. 機器翻譯輔助的中蒙、維漢語音翻譯數(shù)據(jù)集子集[J/OL]. 中國科學數(shù)據(jù), 2022, 7(2). (2022-06-27). DOI: 10.11922/11-6035.csd.2021.0105.zh.
    李寧
    LI Ning
    主要承擔工作:數(shù)據(jù)集的預處理和整合、論文撰寫。
    (1996—),男,山東省泰安市人,碩士研究生,研究方向為語音翻譯。
    朱麗平
    ZHU LiPing
    主要承擔工作:總體質量管控,機器翻譯結果審校組織、協(xié)調與管理,論文指導與修改。
    2007014@muc.edu.cn
    (1970—),女,湖南省株洲市人,博士,教授,研究方向為語音翻譯。
    趙小兵
    ZHAO XiaoBing
    主要承擔工作:數(shù)據(jù)質量控制與綜合管理。
    (1967—),女,內蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向為自然語言處理。
    木尼熱·艾爾肯
    MUNIRA
    主要承擔工作:維語數(shù)據(jù)質量控制。
    (1999—),女,新疆省葉城縣人,本科,研究方向為自然語言處理。
    國家社科基金項目(17BGL199)
    National Social Science Foundation of China (17BGL199)
    出版歷史
    I區(qū)發(fā)布時間:2022年2月8日 ( 版本ZH2
    II區(qū)出版時間:2022年6月29日 ( 版本ZH3
    參考文獻列表中查看
    中國科學數(shù)據(jù)
    csdata