摘要:蒙古文自動問答研究發(fā)展緩慢,其中問答語料的稀缺是重要的原因之一。本研究通過對現(xiàn)有中文問答語料進行收集后通過規(guī)則篩選、漢蒙翻譯、人工校正構建了5萬對蒙古文問答語料。該語料范圍主要是開放領域的日常對話,可應用在端到端的一問一答形式問答模型中,在蒙古文自動問答的研究中具有重要的使用價值。
關鍵詞:蒙古文;問答語料;語料庫構建;語料校正
數(shù)據(jù)庫(集)名稱 | 蒙古文日常問答語料數(shù)據(jù)集 |
數(shù)據(jù)作者 | 特日格勒呼、王斯日古楞、韓永順、愛麗雅、娜何雅 |
數(shù)據(jù)通信作者 | 王斯日古楞(siriguleng@inmu.edu.cn) |
數(shù)據(jù)時間范圍 | 2019–2021年 |
地理區(qū)域 | 世界各地 |
數(shù)據(jù)量 | 4.47 MB |
數(shù)據(jù)格式 | *.xlsx |
數(shù)據(jù)服務系統(tǒng)網(wǎng)址 | http://www.doi.org/10.11922/sciencedb.j00001.00347 |
基金項目 | 內蒙古自治區(qū)科技計劃項目(2021GG0139);國家自然科學基金資助項目(61762072)。 |
數(shù)據(jù)庫(集)組成 | 數(shù)據(jù)集共包括1個數(shù)據(jù)文件,表中有4列數(shù)據(jù),分別是中文問句、中文答復、蒙古文問句和蒙古文答復,共計200000句。 |
Title | Mongolian daily question and answer corpus dataset |
Data corresponding author | Siriguleng Wang (siriguleng@inmu.edu.cn) |
Data author(s) | Terigelehu, Siriguleng Wang, Yongshun Han, Ailiya, Naheya |
Time range | 2019 – 2021 |
Geographical scope | All over the world |
Data volume | 4.47 MB |
Data format | *.xlsx |
Data service system | <http://www.doi.org/10.11922/sciencedb.j00001.00347> |
Sources of funding | Project of Inner Mongolia Autonomous Region Science and Technology Plan (No.2021GG0139). The National Natural Science Foundation of China under Grant (No.61762072), |
Dataset composition | The data set consists of 1 data file, in which there are four columns of data, namely Chinese question, Chinese answering, Mongolian question and Mongolian answering, totaling 200,000 sentences. |
處理前: | 處理后: |
---|---|
是 呀 ' ' ' 能 吃 能 睡!!! | 是 呀 , 能 吃 能 睡! |
很 社會 , ,, 我 都 不 喝酒 | 很 社會 , 我 都 不 喝酒 |
情人節(jié) 快樂 啦 ~~~~ | 情人節(jié) 快樂 啦 |
我 懷疑 你 大腦 有 問題 2333333 | 我 懷疑 你 大腦 有 問題 |
正在 追 「 暖 愛 」 | 正在 追 暖 愛 |
【 旁友 能 把 你們 大陸 表情 包 發(fā)給 我 嗎 】 | 旁友 能 把 你們 大陸 表情 包 發(fā)給 我 嗎 |
不 … 興 … 奮 … 啊 … | 不興 奮 啊 |
你 知道 為了 秀 , 我 手肘 磕青 了 么 · · · · | 你 知道 為了 秀 , 我 手肘 磕青 了 么 |
我 小腿 真的 瘦 了 ~ ⊙ ▽ ⊙ | 我 小腿 真的 瘦 了 |
? ? ? ? 多久 生 的 二胎 ? ? ? | 多久 生 的 二胎 ? |