日韩高清视频在线,国产精品ⅴ视频免费观看,男女猛烈无遮掩免费视频

多語種智能信息處理數(shù)據(jù)集專刊 II 區(qū)論文（已發(fā)表） ? 版本 ZH3 Vol 7 (2) 2022

蒙古文日常問答語料數(shù)據(jù)集

A dataset of Mongolian daily question and answer corpus

特日格勒呼，王斯日古楞，韓永順，愛麗雅，娜何雅

Terigelehu, WANG Siriguleng, HAN Yongshun, Ailiya, Naheya

?>>

DOI:? 10.11922/11-6035.csd.2021.0095.zh
PID:? 21.86101.1/11-6035.csd.2021.0095.zh
:? 10.11922/sciencedb.j00001.00347
?

： 2021 - 12 - 24

： 2022 - 06 - 15

： 2022 - 01 - 28

： 2022 - 06 - 30

4961 26 0

摘要&關(guān)鍵詞

摘要：蒙古文自動問答研究發(fā)展緩慢，其中問答語料的稀缺是重要的原因之一。本研究通過對現(xiàn)有中文問答語料進行收集后通過規(guī)則篩選、漢蒙翻譯、人工校正構(gòu)建了5萬對蒙古文問答語料。通過自動評價發(fā)現(xiàn)，該語料的問句和答復(fù)句具有較好的多樣性，人工評價結(jié)果顯示97%的語料符合日常問答邏輯。該語料范圍主要是開放領(lǐng)域的日常對話，可應(yīng)用在端到端的一問一答形式問答模型中，在蒙古文自動問答的研究中具有重要的使用價值。

關(guān)鍵詞：蒙古文；問答語料；語料庫構(gòu)建；語料校正

Abstract & Keywords

Abstract:?One of the important reasons of the slow pace of the Mongolian question and answer research lies in the scarcity of question and answer corpus. In this paper, we constructed a dataset containing 50,000 pairs of Mongolian question and answer corpus through rule selection, Chinese-Mongolian translation and manual correction after collecting the existing Chinese question answering corpus. The automatic evaluation shows that the corpus has a good diversity of question and answer sentences, and the manual evaluation results show that 97% of the corpus conforms to the daily question and answer logic. The entries in the corpus are mainly from daily conversations in various field. The corpus can used in the end-to-end question and answer model. It is of great values in the practice of Mongolian automatic question and answer research.

Keywords:?Mongolian;?question and answer corpus;?corpus construction;?corpus correction

數(shù)據(jù)庫（集）基本信息簡介

數(shù)據(jù)庫（集）名稱	蒙古文日常問答語料數(shù)據(jù)集
數(shù)據(jù)作者	特日格勒呼、王斯日古楞
數(shù)據(jù)通信作者	王斯日古楞（siriguleng@inmu.edu.cn）
數(shù)據(jù)時間范圍	2019–2021年
地理區(qū)域	世界各地
數(shù)據(jù)量	4.47 MB
數(shù)據(jù)格式	*.xlsx
數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址	http://www.doi.org/10.11922/sciencedb.j00001.00347
基金項目	內(nèi)蒙古自治區(qū)科技計劃項目(2021GG0139)；國家自然科學(xué)基金資助項目(61762072)。
數(shù)據(jù)庫（集）組成	數(shù)據(jù)集共包括1個數(shù)據(jù)文件，表中有2列數(shù)據(jù)，分別是蒙古文問句和蒙古文答句，共計100000句。

Dataset Profile

Title	A dataset of Mongolian daily question and answer corpus
Data corresponding author	Siriguleng Wang (siriguleng@inmu.edu.cn)
Data author(s)	Terigelehu, WANG Siriguleng
Time range	2019 – 2021
Geographical scope	All over the world
Data volume	4.47 MB
Data format	*.xlsx
Data service system	<http://www.doi.org/10.11922/sciencedb.j00001.00347>
Sources of funding	Project of Inner Mongolia Autonomous Region Science and Technology Plan (No.2021GG0139). The National Natural Science Foundation of China under Grant (No.61762072).
Dataset composition	The dataset consists of one data file with two columns of data, namely Mongolian question and Mongolian answer, totaling 100,000 sentences.

引言

問答系統(tǒng)是人工智能領(lǐng)域的重要研究方向，它作為人與機器交互的溝通橋梁，具有重大的研究意義和發(fā)展前景。在當(dāng)代老齡化嚴(yán)重的社會背景下，智能問答系統(tǒng)可以陪伴老人，同時也能減輕年輕人的工作壓力和困擾。問答系統(tǒng)主要分為任務(wù)型和非任務(wù)型，其中非任務(wù)型問答系統(tǒng)是面向開放領(lǐng)域，與用戶進行閑聊對話，而任務(wù)型問答系統(tǒng)是為了完成用戶提出的某個特定任務(wù)工作。

隨著互聯(lián)網(wǎng)數(shù)據(jù)的暴漲、深度學(xué)習(xí)技術(shù)的崛起以及硬件設(shè)備性能的提高，越來越多的智能交互設(shè)備融入到我們?nèi)粘Ｉ钪小５侵髁鞯漠a(chǎn)品或模型主要以中文、英文等高資源語言為主，而蒙古文問答系統(tǒng)發(fā)展緩慢。蒙古文信息處理研究中，機器翻譯、語音識別、語音合成等方向的研究已經(jīng)取得了較好的成果。但是，蒙古文自動問答領(lǐng)域的研究處于起步階段，內(nèi)蒙古大學(xué)常澤暉^[1]研究了面向開放領(lǐng)域的蒙古語語音交互系統(tǒng)，其中問答系統(tǒng)部分是在約2萬條問答語料上使用序列到序列（Sequence to Sequence，Seq2Seq）框架實現(xiàn)的。譚銘言^[2]利用構(gòu)建的蒙古文知識圖譜以及命名實體識別系統(tǒng)和關(guān)系抽取系統(tǒng)，搭建了面向旅游領(lǐng)域的蒙古文問答系統(tǒng)。王光義^[3]構(gòu)建了32156條紀(jì)檢監(jiān)察領(lǐng)域的蒙古文問答語料，并通過問句意圖識別和問答匹配兩個模塊實現(xiàn)了蒙古文問答系統(tǒng)。

問答語料資源的稀缺是影響蒙古文自動問答技術(shù)發(fā)展的重要因素之一。因此，本文通過獲取開源中文問答語料庫并通過篩選、翻譯、校正等方法構(gòu)建了5萬句對蒙古文問答語料，相比，其他蒙古文自動問答研究使用的語料具有更大的數(shù)據(jù)量和更貼切的內(nèi)容。蒙古文問答語料庫的建設(shè)可以有效促進蒙古文信息處理的研究，對促進民族之間的交流與合作具有十分重要的意義。

1 ? 數(shù)據(jù)采集和處理方法

蒙古文問答語料來源是中文公開數(shù)據(jù)集，通過對其進行規(guī)則篩選、漢蒙機器翻譯、人工校正等步驟構(gòu)建了蒙古文問答語料，其構(gòu)建流程如圖1所示。

圖1 ? 蒙古文問答語料構(gòu)建流程

Figure 1 Flow chart of Mongolian question and answer corpus construction

1.1 ? 數(shù)據(jù)采集方法

語料庫的質(zhì)量和規(guī)模對問答系統(tǒng)的研究發(fā)展有直接的影響，因此語料的正確選擇和處理非常重要。關(guān)于蒙古文問答的研究較少，更沒有公開可用的蒙古文問答語料庫。

本研究首要任務(wù)是構(gòu)建適當(dāng)規(guī)模的蒙古文問答語料庫。使用的問答語料來源是2020年清華大學(xué)公開的中文問答數(shù)據(jù)集LCCC^[4]中的LCCC-base。該數(shù)據(jù)集的原始對話數(shù)據(jù)來自微博對話，這一數(shù)據(jù)過濾流程包括一系列手工規(guī)則以及若干基于機器學(xué)習(xí)算法所構(gòu)建的分類器，已經(jīng)對臟字臟詞、特殊字符、顏表情、語法不通的語句、上下文不相關(guān)的對話等噪聲進行了初步過濾。與“小黃雞”“青云”等公開的同類數(shù)據(jù)集相比，具有更好的內(nèi)容質(zhì)量和更大的數(shù)量。

1.2 ? 數(shù)據(jù)預(yù)處理

源語料是由單輪和多輪問答交替組成的json文件，語料樣例如表1所示。首先，從源語料中篩選了100萬對單輪問答語料，為了獲取更高質(zhì)量的問答對，通過編寫以“？”“嗎”“么”“嘛”“了”等常用的疑問句結(jié)尾字以及多種自定義的規(guī)則設(shè)定為約束條件進行篩選獲得了10萬對問答語料。

表1 ? 中文原始語料樣例

[
"我餓了。",
"去相機家里吃 … …",
"相機今年木有回去 T . T"
],
[
"網(wǎng) 絡(luò) 大實話里說的是也許你能在網(wǎng) 絡(luò) 里找到你想要的友情但永遠不會找到你想要的愛情",
"你過來我們什么關(guān) 系"
],
[
"老鐵家好吃賈三不好吃",
"我不挑食"
],
[
"你有翹臀啊！！！！你的臉還不夠小啊？？？？？",
"死魚皮真會安慰人那不是翹臀是肥肉不！是贅肉！"
],

通過分析發(fā)現(xiàn)，句子仍然包含連續(xù)重復(fù)多次的問號、感嘆號、逗號和含有一些“\、'、～、「」”等不規(guī)則符號等，因此把句末和句中的問句、感嘆號和逗號替換為單個符號，對不規(guī)則符號和句首的符號進行過濾，并且去除了長度超過100個字的句子。表2列舉了幾種代表性的語料清洗樣例。

表2 ? 中文原始語料清洗樣例

處理前	處理后
是呀 ' ' ' 能吃能睡！！！	是呀，能吃能睡！
很社會，，，我都不喝酒	很社會，我都不喝酒
情人節(jié) 快樂啦～～～～	情人節(jié) 快樂啦
我懷疑你大腦有問題 2333333	我懷疑你大腦有問題
正在追「暖愛」	正在追暖愛
【旁友能把你們大陸表情包發(fā)給我嗎】	旁友能把你們大陸表情包發(fā)給我嗎
不 … 興 … 奮 … 啊 …	不興奮啊
你知道為了秀，我手肘磕青了么 · · · ·	你知道為了秀，我手肘磕青了么
我小腿真的瘦了～ ⊙ ▽ ⊙	我小腿真的瘦了
？？？？多久生的二胎？？？	多久生的二胎？

1.3 ? 漢蒙機器翻譯與語料校正

將預(yù)處理后的中文問答語料經(jīng)過本實驗室現(xiàn)有的漢蒙機器翻譯模型從中文翻譯成蒙古文。由于中文問答語料內(nèi)容存在一些噪聲，以及翻譯后的蒙古文譯文中有語序錯誤和錯別字等問題，最后，我們對蒙古文語料進行校正。

本文對漢蒙機器翻譯過后的蒙古文問答語料內(nèi)容采用了自動校正和人工校對相結(jié)合的方法。自動校正是針對蒙古文語料中存在的編碼錯誤和名詞格附加成分使用不當(dāng)?shù)绕磳戝e誤，使用自動校對工具進行修正。

人工校正是一項費時費力的工作，同時，我們開發(fā)了一款語料管理及修改的平臺，該平臺支持多人在線校正雙語平行語料，并且可以自由地分配任務(wù)，也支持實時監(jiān)督和統(tǒng)計任務(wù)進度，可以提高工作效率，平臺展示如圖2所示。

圖2 ? 蒙古文問答語料校正平臺

Figure 2 The correction platform of Mongolian question and answer corpus

校正平臺將修改的內(nèi)容展示成四列，中文問答句為修改蒙古文問答句提供參考。通過平臺可以對語料進行一一校正，校正的主要工作內(nèi)容有：

（1）拋棄中文問題和答案不匹配、質(zhì)量較差、句子邏輯有誤的句子，相反保留質(zhì)量很好的蒙古文問答對，不需要其進行改動。

（2）對中文問答語料質(zhì)量較好，但翻譯后的蒙古文句子不通順、不完整情況進行補充修正，構(gòu)成符合蒙古文語法的句子。校正過程中遇到的部分典型例子如表3所示。

表3 ? 蒙古文問答語料校正樣例

中文問句	中文答復(fù)句	蒙古文問句	蒙古文答復(fù)句	蒙古文問句（修改）	蒙古文答復(fù)句（修改）
你在干什么	打球
這飲料好喝嗎	不知道我沒喝
回新疆了？	記得找我玩

表中藍色字體表示保持原文，紅色字體表示對原文進行了修改。

第一行中，現(xiàn)在將來事態(tài)形動詞“

”“

”，以該形動詞結(jié)尾的詞一般不能當(dāng)作句子結(jié)尾。所以應(yīng)當(dāng)根據(jù)問句的事態(tài)和人稱對句子進行修改，補充助動詞構(gòu)成完整正確的蒙古文句子。

第二行中，由于中文問答語料缺少停頓標(biāo)點符號，導(dǎo)致翻譯的蒙古文句子含義發(fā)生了變化。

第三行中，中文源句中的句子是祈使句或者感嘆句，導(dǎo)致翻譯后的蒙古文句子含有“《》”“

”、“

”等詞的情況。

校正后的語料由問題和答案組成，屬于開放領(lǐng)域的單輪日常問答語料。

2 ? 數(shù)據(jù)樣本描述

本文公開的語料包含通過人工校正后的蒙古文問答語料，由5萬句對一一對應(yīng)的問題和答復(fù)組成，詞表大小為20927字，問答句平均長度為6.94個字。圖3展示了10行蒙古文問答語料樣例，第一列是蒙古文問句，第二列為所對應(yīng)的回復(fù)句。圖4根據(jù)問答句的長度分布進行了繪制。

圖3 ? 蒙古文問答語料樣例展示

Figure 3 Sample display of Mongolian question and answer corpus

圖4 ? 句子長度分布圖

Figure 4 Sentence length distribution

從圖4中可以看蒙古文問句長度主要分布在6–10字，而大量答復(fù)句長度在2–5字之間。

通過統(tǒng)計分析問答語料中的詞頻，并且去除符號、格附加成分、連詞后對主要出現(xiàn)的詞使用WordArt（https://wordart.com/）平臺進行了詞云繪制，如圖5所示。

圖5 ? 問答語料中詞云展示圖

Figure 5 Word cloud display in question and answer corpus

該詞云根據(jù)問答語料中的詞頻高低繪制而成，詞頻越高顯示得越大。從圖5中可以看出，疑問代詞出現(xiàn)的概率較高，例如“

”譯為“為什么”、“

”譯為“怎么”、“

”譯為“什么”等。還有一些生活中交流的常用名詞，例如“

”譯為“學(xué)校”、“

”譯為“朋友”、“

”譯為“飯”等。說明符合日常對話邏輯。

3 ? 數(shù)據(jù)質(zhì)量控制和評估

為了驗證問答語料的質(zhì)量，我們使用了人工評價和自動評價兩種方式。

首先通過Distinct-N^[5]對構(gòu)建的5萬句對語料進行了評價，Distinct-N主要衡量問答系統(tǒng)中句子的多樣性，避免出現(xiàn)一些“我不知道”等萬能回復(fù)。Distinct-1、Distinct-2分別由不同的一元詞和二元詞數(shù)量與生成單詞總數(shù)相除得到，蒙古文問答語料多樣性評測結(jié)果如表4所示，指標(biāo)越高表示句子越好。

表4 ? 蒙古文問答句多樣性評測

蒙古文語料	Distinct-1	Distinct-2
問句	0.976	0.8573
回復(fù)句	0.977	0.7054

自動評價只能從客觀的層面對語料進行評估，當(dāng)數(shù)據(jù)量較大的情況下比較合適，可以考慮全局信息，但是無法從語義層面進行理解。因此，本文采用了三分制的人工評分方法，從語料庫中隨機抽樣500個問答對，并邀請5位具有語料校正經(jīng)歷的人員對這些問答對進行打分，主要針對問答和答案的內(nèi)容貼切度、句子流暢性、以及是否存在蒙古文語法錯誤等。打分標(biāo)準(zhǔn)如表5所示。

表5 ? 蒙古文問答語料打分標(biāo)準(zhǔn)

分數(shù)	回答標(biāo)準(zhǔn)
1	問題與回答內(nèi)容不匹配，具有語法錯誤或錯別字
2	問題與回答符合邏輯，但是提供的價值不高
3	問題與答案相關(guān)性很高、句子流暢

表6展示了蒙古文問答語料質(zhì)量評價結(jié)果。

表6 ? 人工評價結(jié)果

分數(shù)	得分
1	3%
2	20.6%
3	76.4%

評價結(jié)果顯示，問題與回答內(nèi)容不匹配，含有語法錯誤或錯別字的問答對只占3%；由于中文語料質(zhì)量的限制，20.6%的回答提供的價值不高，但并沒有邏輯錯誤；而剩余76.4%的問答對句子流暢問題與答案相關(guān)性較高。評價結(jié)果證明了問答語料的質(zhì)量以及有效性。

4 ? 數(shù)據(jù)價值

目前，國內(nèi)未見公開可用的蒙古文問答語料，本數(shù)據(jù)集的公開是蒙古文自動問答領(lǐng)域中的一次重要嘗試，可以為蒙古文問答系統(tǒng)的發(fā)展提供重要的數(shù)據(jù)支撐，還可以用于訓(xùn)練生成式蒙古文問答模型、微調(diào)預(yù)訓(xùn)練模型和遷移學(xué)習(xí)等具體任務(wù)，從而獲得更好的效果。本數(shù)據(jù)集具有廣泛的科研價值和較高的社會應(yīng)用價值。

同時，希望同行能夠分享更多蒙古文問答數(shù)據(jù)集，促進蒙古文自動問答研究的開放與發(fā)展。

5 ? 數(shù)據(jù)使用方法和建議

本數(shù)據(jù)集以xlsx文件為存儲格式，使用者可以根據(jù)自身需求將文件改為txt或者所需要的格式進行使用。任何組織和個人可以以非商業(yè)目的使用本數(shù)據(jù)集。

[1]

常澤暉. 面向智能機器人的蒙古語語音交互系統(tǒng)的研發(fā)[D]. 呼和浩特市: 內(nèi)蒙古大學(xué), 2019. [CHANG Z H. Research and development of Mongolian speech interaction System for intelligent robot [D]. Hohhot: Inner Mongolia University, 2019.]

+?CSCD?·?Baidu Scholar

[2]

譚銘言. 面向旅游領(lǐng)域的蒙古文自動問答系統(tǒng)研究[D]. 呼和浩特市: 內(nèi)蒙古大學(xué), 2020. [TAN M Y. Research on Mongolian Automatic Question Answering System for Tourism [D]. Hohhot: Inner Mongolia University, 2020.]

+?CSCD?·?Baidu Scholar

[3]

王廣義. 面向紀(jì)檢監(jiān)察領(lǐng)域的蒙古文自動問答系統(tǒng)研究[D]. 呼和浩特市: 內(nèi)蒙古大學(xué),2021. [WANG G Y. Research on Mongolian Automatic Question answering System for Discipline Inspection and Supervision [D]. Hohhot: Inner Mongolia University,2021.]

+?CSCD?·?Baidu Scholar

[4]

WANG Y, KE P, ZHENG Y, et al. A Large-Scale Chinese Short-Text Conversation Dataset[J].international conference natural language processing,2020: 91-103.

+?CSCD?·?Baidu Scholar

[5]

LI J W, GALLEY M, BROCKETT C, et al. A diversity-promoting objective function for neural conversation models[J]. Computer Science, 2016: 110-119.

+?CSCD?·?Baidu Scholar

數(shù)據(jù)引用格式

特日格勒呼, 王斯日古楞. 蒙古文日常問答語料數(shù)據(jù)集[DS/OL]. Science Data Bank, 2022. (2022-01-28). DOI: 10.11922/sciencedb.j00001.00347.

稿件與作者信息

論文引用格式

特日格勒呼, 王斯日古楞, 韓永順, 等. 蒙古文日常問答語料數(shù)據(jù)集[J/OL]. 中國科學(xué)數(shù)據(jù), 2022, 7(2). (2022-06-23). DOI: 10.11922/11-6035.csd.2021.0095.zh.

特日格勒呼

Terigelehu

主要擔(dān)任工作：數(shù)據(jù)采集與管理，平臺搭建與文章撰寫。

（1997—），男，內(nèi)蒙古赤峰人，研究生在讀，研究方向為自然語言信息處理、問答系統(tǒng)。

王斯日古楞

WANG Siriguleng

主要擔(dān)任工作：提供研究思路、指導(dǎo)論文框架、修改文章內(nèi)容。

siriguleng@inmu.edu.cn

（1970—），女，內(nèi)蒙古呼和浩特人，博士，教授，研究方向為自然語言信息處理、機器翻譯。

韓永順

HAN Yongshun

主要擔(dān)任工作：數(shù)據(jù)采集與校正處理。

（1997—），男，內(nèi)蒙古呼倫貝爾人，研究生在讀，研究方向為自然語言信息處理。

愛麗雅

Ailiya

主要擔(dān)任工作：數(shù)據(jù)采集與校正處理。

（1998—），女，內(nèi)蒙古呼倫貝爾人，研究生在讀，研究方向為自然語言信息處理。

娜何雅

Naheya

主要擔(dān)任工作：數(shù)據(jù)采集與校正處理。

（1998—），女，內(nèi)蒙古通遼人，研究生在讀，研究方向為自然語言信息處理。

內(nèi)蒙古自治區(qū)科技計劃項目(2021GG0139)；國家自然科學(xué)基金資助項目(61762072)。

Project of Inner Mongolia Autonomous Region Science and Technology Plan (No.2021GG0139). The National Natural Science Foundation of China under Grant (No.61762072).

出版歷史

I區(qū)發(fā)布時間：2022年1月28日（版本ZH2）

II區(qū)出版時間：2022年6月30日（版本ZH3）

亚洲欧美日韩精品久久久,夜色福利一区二区三区,视频日韩p影院永久免费,成人免费视频国产