THUUyMorph: 维吾尔语形态切分语料库

目录

项目介绍

THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus )由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料。原始语料为从2016年的天山网下载,包含新闻,法律,生活等。语料库包含10596个文档,69200个句子。语料库构建步骤分为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分、人工校对形态切分、加入语音和谐变化现象、反复校对。

标注规范

详细标注规范: 下载

数据格式

1.句子级

按照从天山网爬虫格式发布。格式为:

مەملىكەت :Class
قار ئەجدىھاسى» 140 نەپەر تەكشۈرگۈچىنى ئېلىپ جەنۇبىي قۇتۇپ جۇڭسەن بېكىتىدىن ئايرىلدى :Title
2016-03-07 09:44:42 :Time 
506128 :ArticleID 
   «قار ئەجدىھاسى» ناملىق قۇتۇپ رايونى ئىلمىي تەكشۈرۈش پاراخوتى 5-مارت جۇڭسەن بېكىتى ئەتراپىدىكى پرىز قولتۇقىدىن يولغا چىقىپ، يازلىق ۋەزىپىنى تاماملىغان 140 نەپەر تەكشۈرگۈچىنى ئېلىپ جۇڭسەن بېكىتىدىن ئايرىلدى. «قار ئەجدىھاسى» ئايرىلغاندىن كېيىن، جۇڭسەن بېكىتىدە يەنە 19 نەپەر خادىم قىشنى ئۆتكۈزۈش ئۈچۈن قالدى. كېلەر قېتىملىق جەنۇبىي قۇتۇپتىكى قىش پەسلىدە، ئۇلار قۇتۇپ كېچىسى، قاتتىق سوغۇق، شىۋىرغان قاتارلىق تۈرلۈك سىناقلاردىن ئۆتۈپ ھاۋارايىنى كونا تەرتىپ بويىچە كۈزىتىش، ئېگىز ھاۋا بوشلۇقىدىكى ئاتموسفېرانى فىزىكىلىق كۈزىتىش، ئاستىرونومىيەلىك كۈزىتىش، يەرشارى پىرېلىۋى ۋە يەر ماگىنتىنى كۈزىتىش قاتارلىق ئىلمىي تەكشۈرۈش ۋەزىپىسى ۋە پونكىت قوغداش خىزمىتىنى ئېلىپ بارىدىكەن. قىشتىن ئۆتىدىغان خادىملار جۇڭسەن بېكىتىدە 2016-يىلىنىڭ ئاخىرىغىچە تۇرۇپ، «قار ئەجدىھاسى» نىڭ يەنە بىر قېتىم كېلىشىنى ساقلايدىكەن. :Content

带语音变化的形态切分后的格式为:

ﻡەﻢﻟﻰﻛەﺕ :Class
«قار ئەجدىھا`#سى» 140 نەپەر تەكشۈرگۈچى`نى ئېل`$ئال#ىپ جەنۇبىي قۇتۇپ جۇڭسەن بېكىت`$بېكەت#ى#دىن ئايرى`#ل#دى :Title 
2016-03-07 09:44:42 :Time
506128 :ArticleID
«قار ئەجدىھا`#سى» ناملىق قۇتۇپ رايون`#ى ئىلمىي تەكشۈر`#ۈش پاراخوت`#ى 5-مارت جۇڭسەن بېكىت`$بېكەت#ى ئەتراپ`#ى#دىكى پرىز قولتۇق`#ى#دىن يول`#غا چىق`#ىپ، يازلىق ۋەزىپى`$ۋەزىپە#نى تاماملى`$تاماملا#غان 140 نەپەر تەكشۈرگۈچى`نى ئېل`$ئال#ىپ جۇڭسەن بېكىت`$بېكەت#ى#دىن ئايرى`#ل#دى. <:Content
«قار ئەجدىھا`#سى» ئايرى`#ل#غان#دىن كېيىن، جۇڭسەن بېكىت`$بېكەت#ى#دە يەنە 19 نەپەر خادىم قىش`#نى ئۆت`#كۈز#ۈش ئۈچۈن قال`#دى. 
كېلەر قېتىملىق جەنۇبىي قۇتۇپ`#تىكى قىش پەسل`$پەسىل#ى#دە، ئۇ`#لار قۇتۇپ كېچى`$كېچە#سى، قاتتىق سوغۇق، شىۋىرغان قاتارلىق تۈرلۈك سىناق`#لار#دىن ئۆت`#ۈپ ھاۋارايى`#نى كونا تەرتىپ بويىچە كۈزىت`$كۆزەت#ىش، ئېگىز ھاۋا بوشلۇق`#ى#دىكى ئاتموسفېرا`#نى فىزىكىلىق كۈزىت`$كۆزەت#ىش ، ئاستىرونومىيەلىك كۈزىت`$كۆزەت$#ىش ، يەرشارى پىرېلىۋ`#ى ۋە يەر ماگىنت`#ى#نى كۈزىت`$كۆزەت#ىش قاتارلىق ئىلمىي تەكشۈر`#ۈش ۋەزىپى`$ۋەزىپە#سى ۋە پونكىت قوغدا`#ش خىزمىت`$خىزمەت#ى#نى ئېل`$ئال#ىپ بار`#ىدىكەن.
 قىش`#تىن ئۆت`#ىدىغان خادىم`#لار جۇڭسەن بېكىت`$بېكەت#ى#دە 2016- يىل`#ى#نىڭ ئاخىرى`#غىچە تۇر`#ۇپ، «قار ئەجدىھا`#سى» #نىڭ يەنە بىر قېتىم كېل`$كەل#ىش#ى#نى ساقلا`#ي#دىكەن. 

2.词级

未带语音变化:

  
ئائىلىدىكى     ئائىلى دىكى  
ئائىلىدىكىلەر   ئائىلى دىكى لەر  
ئائىلىدىن   ئائىلى دىن  
ئائىلىدە     ئائىلى دە  
ئائىلىسى     ئائىلى سى  
ئائىلىسىدىكىلەر   ئائىلى سى دىكى لەر  
ئائىلىسىدىكىلەرنىڭ     ئائىلى سى دىكى لەر نىڭ  

带语音变化:

 
ائىلىدىكى      ئائىلە دىكى  
ئائىلىدىكىلەر      ئائىلە دىكى لەر  
ئائىلىدىن      ئائىلە دىن  
ئائىلىدە      ئائىلە دە  
ئائىلىسى      ئائىلە سى  
ئائىلىسىدىكىلەر      ئائىلە سى دىكى لەر  
ئائىلىسىدىكىلەرنىڭ      ئائىلە سى دىكى لەر نىڭ  

测试结果

获取链接

Source Description Size Data
THUUyMonolingual.zip 天山网原始语料(V0.1) 12MB 2017-09-15
THUUyMorph.zip 句子级形态切分语料(V0.1) 15MB 2017-09-15
THUUyMorphList.txt 形态切分词表(V0.1) 0.5MB 2017-09-15

开源协议

  1. THUUyMorph面向国内外大学、研究所、企业以及个人研究者免费开放源。
  2. 如有机构或个人拟将THUUyMorph用于商业目的,请发邮件至thunlp@gmail.com洽谈技术许可协议。
  3. 欢迎对该语料的任何宝贵意见和建议,请发邮件至thunlp@gmail.com。
  4. 如果您在THUUyMorph基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THUUyMorph”,并引用相关论文。

相关论文

作者

孙茂松(导师,清华大学),刘洋(指导老师,清华大学),哈里旦木·阿布都克里木(博士生,清华大学),阿卜杜哈力克·阿卜杜瓦伊提(原中央民族大学学生),阿布都克力木·阿布力孜(博士生,清华大学).

使用者如有任何问题、建议和意见,欢迎发邮件至 thunlp@gmail.com 。

版权所有:清华大学自然语言处理与社会人文计算实验室
Copyright:Natural Language Processing and Computational Social Science Lab, Tsinghua University