從36位錄音人員處收集數(shù)據(jù),數(shù)據(jù)的形式為每位說話人一個單獨文件夾,文件夾內(nèi)為以句序號命名的wav文件及對應的以句序號命名的蒙文和漢語文本。將此數(shù)據(jù)集稱為原始蒙漢語音翻譯數(shù)據(jù)集,對此數(shù)據(jù)集進行預處理,經(jīng)過六個步驟后,可以得到最終的蒙語語音翻譯數(shù)據(jù)集,如圖1所示。具體的預處理步驟為:
第一步,去除空文件。由于說話人在錄制過程中,存在誤觸、錄制失敗等問題,導致空語音文件的產(chǎn)生。因此,預處理首先要去除無語音數(shù)據(jù)的文件。方法為:設置一個閾值,當語音音頻時長小于閾值時,認為該文件內(nèi)不含有意義的語音數(shù)據(jù),因此將從數(shù)據(jù)集中刪除該音頻文件。在本數(shù)據(jù)集中,設置閾值為0.2秒。
第二步,去除非蒙語存在的音頻。在錄制的蒙文文本中,存在非蒙文詞,如2020、King? K Item? IMike? M Uncle?? U Roger 等。由于數(shù)量較少,在預處理時簡單地將這類文本數(shù)據(jù)及對應的語音數(shù)據(jù)從數(shù)據(jù)集中刪除。
第三步,重采樣。由于36位說話人在不同的時間不同的設備上錄制語音,使得數(shù)據(jù)集中不同的音頻文件采樣率存在區(qū)別,如存在個別音頻的采樣率為44.1kHz。為解決這一問題,對所有音頻,重采樣至16kHz。
第四步,歸一化。由于說話人錄音時音量高低不一致,導致不同音頻信號間強弱差異較大。本文采用歸一化將語音數(shù)據(jù)歸于[-1,1]范圍內(nèi),即對每個音頻內(nèi)的值
,計算幅度最大值
,則歸一化后的音頻信號為
。
第五步,按照一定格式重命名音頻,具體格式描述如章節(jié)2所示。
第六步,文本文件重組。原始蒙漢語音翻譯數(shù)據(jù)集中每個音頻都對應一個文本文件,不利于數(shù)據(jù)的處理。因此,將所有音頻的文本加入音頻名稱作為文本標記,全部整合入一個文本中,形成最終的文本文件。