<button id="yg2go"><code id="yg2go"></code></button>
  • <cite id="yg2go"></cite>
  • <abbr id="yg2go"><dl id="yg2go"></dl></abbr>
  • 亚洲欧美日韩精品久久久,夜色福利一区二区三区,视频日韩p影院永久免费,成人免费视频国产

    多語種智能信息處理數(shù)據(jù)集專刊 I 區(qū)論文(評審中) ? 版本 ZH2
    下載
    蒙漢語音翻譯數(shù)據(jù)集
    A dataset of Mongolian-Chinese speech translation
    ?>>
    : 2021 - 12 - 21
    : 2022 - 01 - 28
    : 2022 - 01 - 28
    4652 12 0
    摘要&關鍵詞
    摘要:由于缺乏公開數(shù)據(jù)集,目前面向少數(shù)民族語言語音翻譯的研究較少。為此,本文構建并公開了蒙語語音到漢語文本語音翻譯數(shù)據(jù)集。該數(shù)據(jù)集來源于年齡在20–25歲之間的36位蒙古族人員,通過手機錄制蒙語語音,并由專業(yè)人員標注了對應的漢語文本。經(jīng)過整合和預處理后,共得到25小時的可靠數(shù)據(jù)。本數(shù)據(jù)集的建立為探索面向少數(shù)民族語言的語音翻譯提供了一定的數(shù)據(jù)基礎。另外,本數(shù)據(jù)集還可以用于蒙語語音識別、蒙漢機器翻譯、蒙語語音合成、說話人識別等多個領域。
    關鍵詞:語音翻譯;蒙漢;少數(shù)民族語言;低資源;數(shù)據(jù)集
    Abstract & Keywords
    Abstract:?The dataset is the basis for studying speech translation. Due to the lack of public datasets, few researches focus on speech translation in minority languages. To this end, this paper constructs a dataset of Mongolian-Chinese speech translation, involved in Mongolian speech and Chinese text. The dataset is obtained from 36 Mongols aged between 20 and 25. They recorded on their mobile phones and annotated the corresponding Chinese texts by professionals. After integration and preprocessing, a total of 25 hours of reliable data was obtained. The establishment of this dataset allows researchers access to speech translation for minority languages. In addition, this dataset can also be used in Mongolian speech recognition, Mongolian-Chinese machine translation, Mongolian speech synthesis, speaker recognition and other fields.
    Keywords:?speech translation;?Mongolian-Chinese;?minority languages;?low resource;?dataset
    數(shù)據(jù)庫(集)基本信息簡介
    數(shù)據(jù)庫(集)名稱蒙漢語音翻譯數(shù)據(jù)集
    數(shù)據(jù)作者國家語言資源監(jiān)測與研究少數(shù)民族語言中心,中央民族大學
    數(shù)據(jù)通信作者趙小兵(nmzxb_cn@163.com)
    數(shù)據(jù)時間范圍2020年
    地理區(qū)域內(nèi)蒙古自治區(qū)呼和浩特市
    數(shù)據(jù)量1.95 GB
    數(shù)據(jù)格式*.wav, *.txt
    數(shù)據(jù)服務系統(tǒng)網(wǎng)址http://www.doi.org/10.11922/sciencedb.j00001.00345
    基金項目國家語委重點項目(ZDI135-118)
    數(shù)據(jù)庫(集)組成數(shù)據(jù)集共包括2個數(shù)據(jù)文件,其中,(1) wav.zip 是語音數(shù)據(jù),包含21478個音頻文件,總時長為25小時,數(shù)據(jù)量為1.95 GB;(2) text.txt 是文本數(shù)據(jù),數(shù)據(jù)量為3.37 MB。
    Dataset Profile
    TitleA dataset of Mongolian-Chinese speech translation
    Data corresponding authorXiaobing Zhao (nmzxb_cn@163.com)
    Data author(s)National Language Resource Monitoring & Research Center of Minority Languages, Minzu University of China
    Time range2020
    Geographical scopeHohhot, Inner Mongolia
    Data volume1.95GB
    Data format.zip (.wav), .txt
    Data service system<http://www.doi.org/10.11922/sciencedb.j00001.00345>
    Source(s) of fundingNational Language Commission Project (ZDI135-118)
    Dataset compositionThe dataset consists of 2 subsets in total. The subsets are recorded as wav.zip and text.txt: wav.zip is made up of audio data, with the number of 21478 files and a total of 25 hours, and with a data volume of 1.95GB; text.txt is made up of text data, with a data volume of 3.37MB.
    引 言
    語音翻譯 (Speech Translation, ST),又稱為口語翻譯 (Spoken Language Translation, SLT),它的任務是將一種語言的語音轉換為另一種語言的文本[1]。語音翻譯是打破人類交流語言壁障的一項關鍵技術,應用較為廣泛,如電影字幕、國際會議、旅游輔助等。
    語音翻譯技術建立在自動語音識別 (Automatic Speech Recognition, ASR) 和機器翻譯 (Machine Translation, MT) 技術之上。近年來,隨著計算機算力的提升、端到端神經(jīng)網(wǎng)絡方法的提出、數(shù)據(jù)的劇增等,ASR和MT領域都有了顯著的進展,語音翻譯也成為語音信號處理及自然語言處理領域的一個研究熱點。
    然而,受公開的數(shù)據(jù)集限制,目前ST方向的研究大多針對中英[2]、英德[3]、英法[4]、英日[5]等語言之間的翻譯,較少機構研究面向少數(shù)民族語言的語音翻譯。為了緩解這一問題,本文采集了年齡在20–25歲之間的36位蒙古族人員的語音,并由蒙漢專業(yè)人員標注了每個音頻對應的漢語文本。經(jīng)整合和預處理后,共得到25小時的有效蒙語語音數(shù)據(jù),形成了蒙漢語音翻譯數(shù)據(jù)集。本數(shù)據(jù)集不僅可供ST領域研究使用,還可用于ASR、MT、蒙語語音合成、說話人識別等方向的研究。
    1 ? 數(shù)據(jù)采集和處理方法
    1.1 ? 數(shù)據(jù)采集方法
    蒙漢語音翻譯數(shù)據(jù)集包含語音和文本兩部分數(shù)據(jù)。語音數(shù)據(jù)由36位年齡在20–25歲之間的蒙古族說話人通過錄制得到,這些說話人均來自于我國內(nèi)蒙古自治區(qū)呼和浩特市。首先,準備蒙語文本,每位錄音人員在安靜的環(huán)境下,通過手機朗讀文本的句子,進行錄音,朗讀的每句保存為一個wav格式的語音文件,文件名為朗讀文本中的句序號,每個說話人的音頻放在一個單獨文件夾中。之后,由既懂蒙語又懂漢語的專業(yè)人員對每個語音文件標注對應的漢語文本。然后,整合語音和文本文件,并對其進行預處理(如第1.2節(jié)所示),最終得到蒙語語音翻譯數(shù)據(jù)集。
    1.2 ? 數(shù)據(jù)預處理
    從36位錄音人員處收集數(shù)據(jù),數(shù)據(jù)的形式為每位說話人一個單獨文件夾,文件夾內(nèi)為以句序號命名的wav文件及對應的以句序號命名的蒙文和漢語文本。將此數(shù)據(jù)集稱為原始蒙漢語音翻譯數(shù)據(jù)集,對此數(shù)據(jù)集進行預處理,經(jīng)過六個步驟后,可以得到最終的蒙語語音翻譯數(shù)據(jù)集,如圖1所示。具體的預處理步驟為:


    圖1 ? 數(shù)據(jù)的預處理過程
    第一步,去除空文件。由于說話人在錄制過程中,存在誤觸、錄制失敗等問題,導致空語音文件的產(chǎn)生。因此,預處理首先要去除無語音數(shù)據(jù)的文件。方法為:設置一個閾值,當語音音頻時長小于閾值時,認為該文件內(nèi)不含有意義的語音數(shù)據(jù),因此將從數(shù)據(jù)集中刪除該音頻文件。在本數(shù)據(jù)集中,設置閾值為0.2秒。
    第二步,去除非蒙語存在的音頻。在錄制的蒙文文本中,存在非蒙文詞,如2020、King? K Item? IMike? M Uncle?? U Roger 等。由于數(shù)量較少,在預處理時簡單地將這類文本數(shù)據(jù)及對應的語音數(shù)據(jù)從數(shù)據(jù)集中刪除。
    第三步,重采樣。由于36位說話人在不同的時間不同的設備上錄制語音,使得數(shù)據(jù)集中不同的音頻文件采樣率存在區(qū)別,如存在個別音頻的采樣率為44.1kHz。為解決這一問題,對所有音頻,重采樣至16kHz。
    第四步,歸一化。由于說話人錄音時音量高低不一致,導致不同音頻信號間強弱差異較大。本文采用歸一化將語音數(shù)據(jù)歸于[-1,1]范圍內(nèi),即對每個音頻內(nèi)的值 ,計算幅度最大值 ,則歸一化后的音頻信號為
    第五步,按照一定格式重命名音頻,具體格式描述如章節(jié)2所示。
    第六步,文本文件重組。原始蒙漢語音翻譯數(shù)據(jù)集中每個音頻都對應一個文本文件,不利于數(shù)據(jù)的處理。因此,將所有音頻的文本加入音頻名稱作為文本標記,全部整合入一個文本中,形成最終的文本文件。
    2 ? 數(shù)據(jù)樣本描述
    本數(shù)據(jù)集為蒙漢語音翻譯數(shù)據(jù)集,數(shù)據(jù)集中包含1個zip壓縮包和1個文本文件。其中,壓縮包內(nèi)有一個名為wav的文件夾,大小為1.61GB,未壓縮時大小為2.68GB。wav文件夾內(nèi)包含36個子文件夾,每個子文件夾對應一位錄音人員的語音數(shù)據(jù),命名規(guī)則為錄音人員的“姓名拼音”與“錄制的音頻的總時長(以分鐘為單位)”。例如,子文件夾“ahei40”表示該文件夾下的音頻均為“阿黑”錄制,錄制的語音總時長約為40分鐘(由于預處理過程中去除了一部分無效語音,因此最終有效時長略小于此處標記的值)。子文件夾下為多個音頻文件,每個文件的命名格式為“該音頻所在的子文件夾名稱-音頻序號.wav”,如“ahei40-0001.wav”、“ahei40-0002.wav”等。對本數(shù)據(jù)集中36位錄音人員的錄制的音頻文件數(shù)目和音頻總有效時長(以分鐘為單位)進行統(tǒng)計,結果如表1所示。每位錄音人員平均錄制597句,平均有效時長41.7分鐘。整個蒙漢語音翻譯數(shù)據(jù)集中共包含21478個音頻文件,有效時長為25小時。
    表1 ? 36位錄音人員的音頻數(shù)據(jù)統(tǒng)計表
    音頻文件夾名稱音頻文件數(shù)目時長(分鐘)音頻文件夾名稱音頻文件數(shù)目時長(分鐘)
    ahei4058938.8qigen4658944.6
    aliya4058938.8qilemuge5659755
    aliya4258941.1sarinuo4460042.1
    aoga5559553.1sulanga4258941.5
    arigunuo4459643.4tenggeerwurixi4761146.1
    arunuo5459552.2tugusi4958948.5
    ayilahu3760036.2tuoya5959757.5
    ayisi3959638.3wenduer4961147.9
    batueerdun3760936.4wulijitu4659644.5
    bayaliga3959638.3wuniritu3860937.9
    erimujiletu3858736.8wurigumule3661035.1
    hairihan3558734.4wuyihan3260030.9
    hasihu2658825.2wuyundalai3858837.2
    honggeerdelehei3859436.9wuyunqimuge4961048.3
    hudeer3259331yirigui4359942.4
    huriwa4959548.1zhagunuo4061139.1
    jigeqi5558953.5zhalegamuji3961138
    nandibilige4658644.2zhurihentala3858837.1
    數(shù)據(jù)集中的文本文件名為text.txt,大小為3.37MB。文件內(nèi)每行的數(shù)據(jù)格式為:“本行文本對應的音頻文件名 音頻對應的蒙文文本 蒙文對應的漢語文本”,一些示例如表2所示。
    表2 ? 文本文件text.txt中的若干行示例
    音頻文件名稱對應的蒙文文本對應的漢語文本
    ahei40-0001?????? ???????? ?????? ??????? ???在門廳下面
    ahei40-0002?? ??? ????? ???? ?????? ???? ????????我這就給您拿一些
    ahei40-0003????? ?? ???? ????? ??????????? ??????? ?????? ?????? ??????如果您還有什么需要 盡管告訴我
    ahei40-0004??????? ??????? ?????? ????? ????不用擔心那個
    ahei40-0005?? ?????? ???????? ?????? ?? ?????? ?????? ????? ????我要買它 你不需要把它包起來
    ahei40-0006?? ?????? ???????? ??你可以改改嗎
    ahei40-0007?????? ??????? ???? ?? ??????紅綠燈是紅的
    ahei40-0008???? ?????? ???????? ?????? ???? ??????? ???我們想要張靠窗戶的桌子
    ahei40-0009????? ??? ???????????? ???????? ?????? ??????? ???在那邊 就在游客信息的前面
    ahei40-0010?? ???? ??????? ??????? ?????? ????????我打網(wǎng)球時扭傷的
    ………………
    wuyihan32-3063?????? ???????? ????? ?????????把他們放進籃里好嗎
    wuyihan32-3064?? ?????? ????? ???????? ??? ??? ????? ??? ???? ?????????我可以從我的外套拿錢包嗎
    wuyihan32-3065??? ??????????? ????????? ?????????有潛水學校嗎
    wuyihan32-3066?? ????????? ??????? ??? ?? ???? ????? ?? ???? ????????你能在早上七點把我的包拿下來嗎
    wuyihan32-3067???? ???????? ???????? ????? ???????????我們需要付飲料費嗎
    wuyihan32-3068?? ?????? ???????我愛戈雅
    wuyihan32-3069?? ????? ??? ???????? ?? ???????我渴望見到它們
    wuyihan32-3070????? ?????? ?????? ????????? ???????? ?????????有好的賣皮革制品的商店嗎
    wuyihan32-3071???? ?????? ??????? ???? ???? ???我的褲子上有條口子
    ………………
    3 ? 數(shù)據(jù)質量控制和評估
    本蒙漢語音翻譯數(shù)據(jù)集由36位蒙古族人員在安靜環(huán)境中錄音的音頻文件、對應的蒙語文本以及漢語文本組成,在預處理階段對音頻和文本進行了質量控制,去除了無效的音頻、非蒙文的句子等,確保數(shù)據(jù)的可靠性。對音頻時長區(qū)間的分布進行分析,如圖2所示,圖中的柱狀圖表示不同音頻時長區(qū)間在所有音頻中的占比,折線圖為不同音頻時長區(qū)間在所有音頻中的累積占比。從圖中可以看出,50.7%的音頻時長在2–4秒,97.8%的音頻時長在8秒以內(nèi)。同時,通過計算可以得出,本數(shù)據(jù)集中音頻的平均時長為4.2秒。


    圖2 ? 音頻時長區(qū)間分布圖
    4 ? 數(shù)據(jù)價值
    蒙漢語音翻譯數(shù)據(jù)集中的語音來源于36位蒙古族人員,年齡在20–25歲之間,采用手機錄制,文本由專門的人員標注,經(jīng)過整合和預處理后得到25小時的可靠數(shù)據(jù)。本數(shù)據(jù)可為蒙漢語音翻譯研究提供數(shù)據(jù)基礎。此外,本數(shù)據(jù)集還可用于其他多個任務。例如,蒙語語音和蒙文文本可用于蒙語語音識別的研究。蒙文文本與漢語文本作為一對平行語料,可用于蒙漢機器翻譯。每個說話人平均錄制了600句的音頻,可用于研究蒙語語音合成或多說話人蒙語語音合成。語音數(shù)據(jù)按照說話人分別存儲在不同的文件夾下,因此,本數(shù)據(jù)集也可用于說話人識別。
    致 謝
    獲取本數(shù)據(jù)集得到呼和浩特民族學院包烏格德勒、斯日古楞的大力支持,在此表示感謝。
    [1]
    SPERBER M, PAULIK M. Speech translation and the end-to-end promise: taking stock of where we are[C]/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020. DOI:10.18653/v1/2020.acl-main.661.
    [2]
    ZHANG R, WANG X, ZHANG C, et al. BSTC: A large-scale Chinese-English speech translation dataset[J]. arXiv preprint arXiv:2104.03575, 2021.
    [3]
    CATTONI R, DI GANGI M A, BENTIVOGLI L, et al. MuST-C: a multilingual corpus for end-to-end speech translation[J]. Computer Speech & Language, 2021, 66: 101155. DOI: 10.1016/j.csl.2020.101155.
    [4]
    KOCABIYIKOGLU A C, BESACIER L, KRAIF O. Augmenting librispeech with French translations: a multimodal corpus for direct speech translation evaluation[EB/OL]. 2018: arXiv: 1802.03142[cs.CL]. https://arxiv.org/abs/1802.03142.
    [5]
    TOHYAMA H, MATSUBARA S, KAWAGUCHI N, et al. Construction and utilization of bilingual speech corpus for simultaneous machine interpretation research[C]/Interspeech 2005. ISCA: ISCA, 2005. DOI:10.21437/interspeech.2005-463.
    數(shù)據(jù)引用格式
    國家語言資源監(jiān)測與研究少數(shù)民族語言中心, 中央民族大學. 蒙漢語音翻譯數(shù)據(jù)集[DB/OL]. 中國科學數(shù)據(jù), 2022. (2022-01-28). DOI: 10.11922/sciencedb.j00001.00345.
    稿件與作者信息
    論文引用格式
    戚肖克, 特尼格爾, 孫媛, 等. 蒙漢語音翻譯數(shù)據(jù)集[J/OL]. 中國科學數(shù)據(jù), 2021. (2021-12-21). DOI: 10.11922/11-6035.csd.2021.0093.zh.
    戚肖克
    Xiaoke Qi
    主要承擔工作:數(shù)據(jù)集的預處理和整合、論文撰寫。
    (1985—),女,山東省菏澤市人,博士,副教授,研究方向為語音信號處理、自然語言處理。
    特尼格爾
    Borjigin B.Teniger
    主要承擔工作:數(shù)據(jù)采集與質量控制。
    (1990—),男,內(nèi)蒙古自治區(qū)呼和浩特市人,博士研究生,研究方向為計算語言學。
    孫媛
    Yuan Sun
    主要承擔工作:數(shù)據(jù)集前期整合。
    (1979—),女,山東省濱州市人,博士,副教授,研究方向為自然語言處理。
    趙小兵
    Zhao Xiaobing
    主要承擔工作:數(shù)據(jù)質量控制與綜合管理。
    nmzxb_cn@163.com
    (1967—),女,內(nèi)蒙古自治區(qū)呼和浩特市人,博士,教授,研究方向為自然語言處理。
    國家語委重點項目(ZDI135-118)
    National Language Commission Project (ZDI135-118)
    出版歷史
    I區(qū)發(fā)布時間:2022年1月28日 ( 版本ZH2
    II區(qū)出版時間:2022年6月28日 ( 版本ZH3
    參考文獻列表中查看
    中國科學數(shù)據(jù)
    csdata