<button id="yg2go"><code id="yg2go"></code></button>
  • <cite id="yg2go"></cite>
  • <abbr id="yg2go"><dl id="yg2go"></dl></abbr>
  • 亚洲欧美日韩精品久久久,夜色福利一区二区三区,视频日韩p影院永久免费,成人免费视频国产

    發(fā)表時(shí)間:
    論文狀態(tài):
    論文類(lèi)型:
    欄目分類(lèi):
    學(xué)科分類(lèi):

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月30日 第7卷,第2期 5043 27

    少數民族語(yǔ)言分詞技術(shù)評測數據集MLWS2021

    趙小兵,高璐,高定國,等
    關(guān)鍵詞: 少數民族語(yǔ)言;分詞標注;評測數據集;分詞標準規范
    doi:10.11922/11-6035.csd.2021.0091.zh

    摘要:依據蒙古文、藏文和維吾爾文詞匯的構詞規律和特點(diǎn),制定適合計算機信息處理的蒙古文、藏文和維吾爾文分詞評測標準,構建蒙古文、藏文和維吾爾文的分詞標注語(yǔ)料,形成標準評測數據集(MLWS2021),為解決自動(dòng)分詞、詞性標注、信息檢索、語(yǔ)料庫構建等研究課題提供依據。MLWS2021共包含2.5萬(wàn)句藏文、6.5萬(wàn)句蒙古文、6.5萬(wàn)句維吾爾文。本評測數據集將面向社會(huì ),提供免費評測服務(wù),逐步建成權威的少數民族語(yǔ)言分詞技術(shù)評測平臺,推動(dòng)少數民族語(yǔ)言信息處理技術(shù)的發(fā)展。

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月30日 第7卷,第2期 4466 30

    藏文文本摘要數據集

    閆曉東,王羿欽,黃碩,等
    關(guān)鍵詞: 文本摘要;數據集;藏文;低資源
    doi:10.11922/11-6035.csd.2021.0098.zh

    摘要:自動(dòng)文本摘要是自然語(yǔ)言處理中的一個(gè)關(guān)鍵任務(wù),高質(zhì)量的數據集能有效推動(dòng)摘要的研究。深度學(xué)習算法模型在中英開(kāi)源數據集上都取得了顯著(zhù)的成績(jì),甚至超過(guò)了人類(lèi)的表現。然而,公開(kāi)的、高質(zhì)量的大規模摘要數據集仍然非常稀少,且不容易人工構建。目前在藏文文本摘要任務(wù)中,由于公開(kāi)數據集較少,藏文文本摘要任務(wù)還處于起步階段。為了推動(dòng)藏文信息化發(fā)展,本文人工構建了一個(gè)小型藏文多文本摘要數據集Ti-SUM,由1000篇真實(shí)藏文新聞組成,每一篇新聞都給出了簡(jiǎn)短的摘要。此外我們還針對每篇新聞構建了超...

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月30日 第7卷,第2期 4459 24

    蒙古文日常問(wèn)答語(yǔ)料數據集

    特日格勒呼,王斯日古楞,韓永順,等
    關(guān)鍵詞: 蒙古文;問(wèn)答語(yǔ)料;語(yǔ)料庫構建;語(yǔ)料校正
    doi:10.11922/11-6035.csd.2021.0095.zh

    摘要:蒙古文自動(dòng)問(wèn)答研究發(fā)展緩慢,其中問(wèn)答語(yǔ)料的稀缺是重要的原因之一。本研究通過(guò)對現有中文問(wèn)答語(yǔ)料進(jìn)行收集后通過(guò)規則篩選、漢蒙翻譯、人工校正構建了5萬(wàn)對蒙古文問(wèn)答語(yǔ)料。通過(guò)自動(dòng)評價(jià)發(fā)現,該語(yǔ)料的問(wèn)句和答復句具有較好的多樣性,人工評價(jià)結果顯示97%的語(yǔ)料符合日常問(wèn)答邏輯。該語(yǔ)料范圍主要是開(kāi)放領(lǐng)域的日常對話(huà),可應用在端到端的一問(wèn)一答形式問(wèn)答模型中,在蒙古文自動(dòng)問(wèn)答的研究中具有重要的使用價(jià)值。

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月30日 第7卷,第2期 2276 5

    《多語(yǔ)種智能信息處理專(zhuān)題》卷首語(yǔ)

    趙小兵,孫媛,李琳
    doi:10.11922/11-6035.csd.2022.0046.zh

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月29日 第7卷,第2期 4736 16

    機器翻譯輔助的中蒙、維漢語(yǔ)音翻譯數據集子集

    李寧,朱麗平,趙小兵,等
    關(guān)鍵詞: 語(yǔ)音翻譯;中蒙;維漢;低資源
    doi:10.11922/11-6035.csd.2021.0105.zh

    摘要:目前,語(yǔ)音翻譯的公開(kāi)數據集稀少,中文與其他低資源語(yǔ)言的雙向語(yǔ)音翻譯數據集尤其匱乏,阻礙了相關(guān)語(yǔ)言端到端語(yǔ)音翻譯研究的推進(jìn)。本文參考國際語(yǔ)音翻譯數據集研究思想,將公開(kāi)的語(yǔ)音識別數據集(AISHELL、THUYG-20)通過(guò)機器翻譯,轉換成語(yǔ)音翻譯數據集,進(jìn)行數據處理后交由專(zhuān)家審核、校驗,從而得到高質(zhì)量語(yǔ)音翻譯數據集。本數據集包括中蒙語(yǔ)音翻譯數據集和維漢語(yǔ)音翻譯數據集兩部分,音頻采樣率是16 kHz。中蒙語(yǔ)音翻譯數據集包含樣本1919條,大小為238 MB。維漢語(yǔ)音翻譯數據...

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月29日 第7卷,第2期 5108 23

    IMUT-MC:一個(gè)針對蒙古語(yǔ)語(yǔ)音識別的語(yǔ)音語(yǔ)料庫

    劉志強,馬志強,張曉旭,等
    關(guān)鍵詞: 蒙古語(yǔ);語(yǔ)音識別;語(yǔ)音語(yǔ)料庫;閱讀語(yǔ)音
    doi:10.11922/11-6035.csd.2021.0096.zh

    摘要:蒙古語(yǔ)作為少數民族語(yǔ)言,其使用人群分布遼闊,收集標注語(yǔ)音數據困難,導致沒(méi)有公開(kāi)的大規模蒙古語(yǔ)語(yǔ)音語(yǔ)料庫為廣大研究人員提供實(shí)驗支撐,阻礙了蒙古語(yǔ)語(yǔ)音識別的進(jìn)一步發(fā)展。本課題組構建了一個(gè)針對蒙古語(yǔ)語(yǔ)音識別任務(wù)的語(yǔ)音語(yǔ)料庫IMUT-MC,包含417位說(shuō)話(huà)人錄制的約212小時(shí)的閱讀語(yǔ)音,致力于推進(jìn)蒙古語(yǔ)語(yǔ)音識別研究。課題組分別在傳統語(yǔ)音識別模型和端到端語(yǔ)音識別模型上使用IMUT-MC進(jìn)行基線(xiàn)語(yǔ)音識別實(shí)驗,基于GMM-HMM、DNN-HMM和Transformer的語(yǔ)音識別模型在...

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月29日 第7卷,第2期 3342 6

    藏漢跨語(yǔ)言文本剽竊檢測數據集

    鮑薇,董建,徐洋,等
    關(guān)鍵詞: 文本剽竊檢測;藏漢跨語(yǔ)言;跨語(yǔ)言語(yǔ)料庫;低資源
    doi:10.11922/11-6035.csd.2021.0100.zh

    摘要:本研究從少數民族語(yǔ)言信息處理的實(shí)際需要出發(fā),針對藏漢跨語(yǔ)言文本剽竊檢測缺少語(yǔ)料問(wèn)題,基于SemEval 2014年英語(yǔ)評測語(yǔ)料,使用數據增強方法,建立了包含15萬(wàn)句對的藏漢跨語(yǔ)言文本剽竊檢測語(yǔ)料庫。本數據集為藏漢跨語(yǔ)言文本剽竊檢測研究提供數據基礎,也可用于藏漢語(yǔ)義計算等其他自然語(yǔ)言處理任務(wù)中。此外,數據集建立過(guò)程中的數據增強方法,為其他低資源語(yǔ)言自然語(yǔ)言處理任務(wù)語(yǔ)料缺少問(wèn)題提供了解決思路。

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月29日 第7卷,第2期 4048 21

    面向機器閱讀理解的藏文數據集TibetanQA

    孫媛,旦正錯,劉思思,等
    關(guān)鍵詞: 機器閱讀理解;藏文;少數民族語(yǔ)言;低資源;數據集
    doi:10.11922/11-6035.csd.2021.0099.zh

    摘要:機器閱讀理解是自然語(yǔ)言處理的關(guān)鍵任務(wù),旨在考察機器是否具有理解自然語(yǔ)言的能力。目前,中英文領(lǐng)域的機器閱讀理解取得了很大的進(jìn)展,模型的性能已經(jīng)超過(guò)了人類(lèi)的水平,其中公開(kāi)數據集起到了非常重要的作用,如斯坦福大學(xué)的SQuAD數據集。而對于低資源語(yǔ)言,如藏文,由于缺乏大規模公開(kāi)的數據集,機器閱讀理解的相關(guān)研究還處于起步階段。因此,本文構建了面向藏文機器閱讀理解的數據集,數據集包含631篇文章,903個(gè)段落,形式為excel文件。其中,第一列為當前文章ID,第二列為文本標題,第三...

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月28日 第7卷,第2期 4485 12

    蒙漢語(yǔ)音翻譯數據集

    戚肖克,特尼格爾,孫媛,等
    關(guān)鍵詞: 語(yǔ)音翻譯;蒙漢;少數民族語(yǔ)言;低資源;數據集
    doi:10.11922/11-6035.csd.2021.0093.zh

    摘要:目前,由于缺乏公開(kāi)數據集,面向少數民族語(yǔ)言的語(yǔ)音翻譯的研究較少。為此,本文構建并公開(kāi)了蒙語(yǔ)語(yǔ)音到漢語(yǔ)文本語(yǔ)音翻譯數據集 (NMLR-Mon2Chs ST)。本數據集包含36位年齡在20–25歲之間的蒙古人通過(guò)手機錄制的蒙語(yǔ)語(yǔ)音,以及由專(zhuān)業(yè)人員標注的蒙語(yǔ)和漢語(yǔ)的文本。為保證數據質(zhì)量,對數據進(jìn)行了預處理,如去除空語(yǔ)音文件、重采樣、歸一化后,最終得到25小時(shí)的高質(zhì)量數據,數據集中音頻的平均時(shí)長(cháng)為4.2秒。本數據集的建立為探索面向少數民族語(yǔ)言的語(yǔ)音翻譯技術(shù)提供了一定的數據基礎。

    【多語(yǔ)種智能信息處理數據集專(zhuān)刊】出版時(shí)間:2022年6月27日 第7卷,第2期 4082 20

    蒙漢機器翻譯校正數據集

    申影利,包烏格德勒,趙小兵
    關(guān)鍵詞: 機器翻譯;傳統蒙古文;文本校正;數據集
    doi:10.11922/11-6035.csd.2021.0102.zh

    摘要:機器翻譯數據集的精確度對翻譯模型的性能起決定性作用。傳統蒙古語(yǔ)由于字符編碼的特殊性,拼寫(xiě)錯誤十分普遍,網(wǎng)絡(luò )開(kāi)放資源字符編碼準確性不足20%,這給其文本智能處理造成重大障礙。本文以第十七屆全國機器翻譯大會(huì )(CCMT 2021)蒙漢雙語(yǔ)公開(kāi)評測數據集作為原始語(yǔ)料,進(jìn)行蒙文文本自動(dòng)校正,構建面向機器翻譯的高質(zhì)量蒙漢句對校正數據集。在CWMT2017測試集上的實(shí)驗結果表明,經(jīng)過(guò)蒙文文本校正后的蒙漢雙語(yǔ)平行句對在蒙漢、漢蒙兩個(gè)方向上均優(yōu)于原始評測數據的翻譯效果,驗證了蒙文校正文本...