THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus )由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料。原始语料为从2016年的天山网下载,包含新闻,法律,生活等。语料库包含10596个文档,69200个句子。语料库构建步骤分为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分、人工校对形态切分、加入语音和谐变化现象、反复校对。
详细标注规范: 下载
按照从天山网爬虫格式发布。格式为:
مەملىكەت :Class قار ئەجدىھاسى» 140 نەپەر تەكشۈرگۈچىنى ئېلىپ جەنۇبىي قۇتۇپ جۇڭسەن بېكىتىدىن ئايرىلدى :Title 2016-03-07 09:44:42 :Time 506128 :ArticleID «قار ئەجدىھاسى» ناملىق قۇتۇپ رايونى ئىلمىي تەكشۈرۈش پاراخوتى 5-مارت جۇڭسەن بېكىتى ئەتراپىدىكى پرىز قولتۇقىدىن يولغا چىقىپ، يازلىق ۋەزىپىنى تاماملىغان 140 نەپەر تەكشۈرگۈچىنى ئېلىپ جۇڭسەن بېكىتىدىن ئايرىلدى. «قار ئەجدىھاسى» ئايرىلغاندىن كېيىن، جۇڭسەن بېكىتىدە يەنە 19 نەپەر خادىم قىشنى ئۆتكۈزۈش ئۈچۈن قالدى. كېلەر قېتىملىق جەنۇبىي قۇتۇپتىكى قىش پەسلىدە، ئۇلار قۇتۇپ كېچىسى، قاتتىق سوغۇق، شىۋىرغان قاتارلىق تۈرلۈك سىناقلاردىن ئۆتۈپ ھاۋارايىنى كونا تەرتىپ بويىچە كۈزىتىش، ئېگىز ھاۋا بوشلۇقىدىكى ئاتموسفېرانى فىزىكىلىق كۈزىتىش، ئاستىرونومىيەلىك كۈزىتىش، يەرشارى پىرېلىۋى ۋە يەر ماگىنتىنى كۈزىتىش قاتارلىق ئىلمىي تەكشۈرۈش ۋەزىپىسى ۋە پونكىت قوغداش خىزمىتىنى ئېلىپ بارىدىكەن. قىشتىن ئۆتىدىغان خادىملار جۇڭسەن بېكىتىدە 2016-يىلىنىڭ ئاخىرىغىچە تۇرۇپ، «قار ئەجدىھاسى» نىڭ يەنە بىر قېتىم كېلىشىنى ساقلايدىكەن. :Content
带语音变化的形态切分后的格式为:
ﻡەﻢﻟﻰﻛەﺕ :Class «قار ئەجدىھا`#سى» 140 نەپەر تەكشۈرگۈچى`نى ئېل`$ئال#ىپ جەنۇبىي قۇتۇپ جۇڭسەن بېكىت`$بېكەت#ى#دىن ئايرى`#ل#دى :Title 2016-03-07 09:44:42 :Time 506128 :ArticleID «قار ئەجدىھا`#سى» ناملىق قۇتۇپ رايون`#ى ئىلمىي تەكشۈر`#ۈش پاراخوت`#ى 5-مارت جۇڭسەن بېكىت`$بېكەت#ى ئەتراپ`#ى#دىكى پرىز قولتۇق`#ى#دىن يول`#غا چىق`#ىپ، يازلىق ۋەزىپى`$ۋەزىپە#نى تاماملى`$تاماملا#غان 140 نەپەر تەكشۈرگۈچى`نى ئېل`$ئال#ىپ جۇڭسەن بېكىت`$بېكەت#ى#دىن ئايرى`#ل#دى. <:Content «قار ئەجدىھا`#سى» ئايرى`#ل#غان#دىن كېيىن، جۇڭسەن بېكىت`$بېكەت#ى#دە يەنە 19 نەپەر خادىم قىش`#نى ئۆت`#كۈز#ۈش ئۈچۈن قال`#دى. كېلەر قېتىملىق جەنۇبىي قۇتۇپ`#تىكى قىش پەسل`$پەسىل#ى#دە، ئۇ`#لار قۇتۇپ كېچى`$كېچە#سى، قاتتىق سوغۇق، شىۋىرغان قاتارلىق تۈرلۈك سىناق`#لار#دىن ئۆت`#ۈپ ھاۋارايى`#نى كونا تەرتىپ بويىچە كۈزىت`$كۆزەت#ىش، ئېگىز ھاۋا بوشلۇق`#ى#دىكى ئاتموسفېرا`#نى فىزىكىلىق كۈزىت`$كۆزەت#ىش ، ئاستىرونومىيەلىك كۈزىت`$كۆزەت$#ىش ، يەرشارى پىرېلىۋ`#ى ۋە يەر ماگىنت`#ى#نى كۈزىت`$كۆزەت#ىش قاتارلىق ئىلمىي تەكشۈر`#ۈش ۋەزىپى`$ۋەزىپە#سى ۋە پونكىت قوغدا`#ش خىزمىت`$خىزمەت#ى#نى ئېل`$ئال#ىپ بار`#ىدىكەن. قىش`#تىن ئۆت`#ىدىغان خادىم`#لار جۇڭسەن بېكىت`$بېكەت#ى#دە 2016- يىل`#ى#نىڭ ئاخىرى`#غىچە تۇر`#ۇپ، «قار ئەجدىھا`#سى» #نىڭ يەنە بىر قېتىم كېل`$كەل#ىش#ى#نى ساقلا`#ي#دىكەن.
未带语音变化:
ئائىلىدىكى ئائىلى دىكى ئائىلىدىكىلەر ئائىلى دىكى لەر ئائىلىدىن ئائىلى دىن ئائىلىدە ئائىلى دە ئائىلىسى ئائىلى سى ئائىلىسىدىكىلەر ئائىلى سى دىكى لەر ئائىلىسىدىكىلەرنىڭ ئائىلى سى دىكى لەر نىڭ
带语音变化:
ائىلىدىكى ئائىلە دىكى ئائىلىدىكىلەر ئائىلە دىكى لەر ئائىلىدىن ئائىلە دىن ئائىلىدە ئائىلە دە ئائىلىسى ئائىلە سى ئائىلىسىدىكىلەر ئائىلە سى دىكى لەر ئائىلىسىدىكىلەرنىڭ ئائىلە سى دىكى لەر نىڭ
不同领域文档数量的具体分布
领域 | 文档数量 |
---|---|
国际 | 2 817 |
新疆 | 1 666 | 国内 | 1 651 |
地区/州 | 1 555 | 社会 | 1 076 |
乌鲁木齐 | 877 |
科教 | 470 |
经济 | 329 |
其它 | 157 |
语音和谐变化现象分布
语音 | 弱化(%) | 弱化(%) | 弱化(%) |
---|---|---|---|
词干 | 95.7 | 2.2 | 2.1 |
词缀 | 97.2 | 1.2 | 1.6 |
Source | Description | Size | Data |
---|---|---|---|
THUUyMonolingual.zip | 天山网原始语料(V0.1) | 12MB | 2017-09-15 |
THUUyMorph.zip | 句子级形态切分语料(V0.1) | 15MB | 2017-09-15 |
THUUyMorphList.txt | 形态切分词表(V0.1) | 0.5MB | 2017-09-15 |
如果您在THUUyMorph基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THUUyMorph”,并引用相关论文。
Abudukelimu Halidanmu, Abulizi Abudoukelimu, Maosong Sun, Yang liu. THUUyMorph-A Uyghur Morphological Analysis Corpus. In Proceedings of CCL/NLP-NABD 2017, Nanjing, China, October.
孙茂松(导师,清华大学),刘洋(指导老师,清华大学),哈里旦木·阿布都克里木(博士生,清华大学),阿卜杜哈力克·阿卜杜瓦伊提(原中央民族大学学生),阿布都克力木·阿布力孜(博士生,清华大学).
使用者如有任何问题、建议和意见,欢迎发邮件至 thunlp@gmail.com 。