基于CRF和半监督学习的维吾尔文命名实体识别

被引:13
作者
王路路 [1 ,2 ]
艾山吾买尔 [1 ,2 ]
买合木提买买提 [1 ,2 ]
卡哈尔江阿比的热西提 [1 ,2 ]
吐尔根依布拉音 [1 ,2 ]
机构
[1] 新疆大学信息科学与工程学院
[2] 新疆大学新疆多语种信息技术实验室
关键词
维吾尔文命名实体识别; 条件随机场; 半监督学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; H215 [维吾尔语];
学科分类号
081203 ; 0835 ; 0501 ; 050107 ;
摘要
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
引用
收藏
页码:16 / 26+33 +33
页数:12
相关论文
共 16 条
[1]   CRF与规则相结合的维吾尔文地名识别研究 [J].
买合木提买买提 ;
卡哈尔江阿比的热西提 ;
艾山吾买尔 ;
吐尔根依布拉音 ;
王路路 .
中文信息学报, 2017, 31 (06) :110-118
[2]   基于深度神经网络的中文命名实体识别 [J].
张海楠 ;
伍大勇 ;
刘悦 ;
程学旗 .
中文信息学报, 2017, 31 (04) :28-35
[3]   基于深层条件随机场的生物医学命名实体识别 [J].
孙晓 ;
孙重远 ;
任福继 .
模式识别与人工智能, 2016, 29 (11) :997-1008
[4]   基于位置敏感Embedding的中文命名实体识别 [J].
鲁亚楠 ;
孙锐 ;
姬东鸿 .
计算机应用研究, 2017, 34 (02) :365-368+425
[5]   统计与规则相结合的维吾尔语人名识别方法 [J].
塔什甫拉提尼扎木丁 ;
汪昆 ;
艾斯卡尔艾木都拉 ;
帕力旦吐尔逊 .
自动化学报, 2017, 43 (04) :653-664
[6]   基于规则的越南语命名实体识别研究 [J].
闫丹辉 ;
毕玉德 .
中文信息学报, 2014, 28 (05) :198-205+214
[7]   基于语法语义知识的维吾尔文机构名识别 [J].
麦合甫热提 ;
米日姑肉孜 ;
麦热哈巴艾力 ;
吐尔根依布拉音 .
计算机工程与设计, 2014, 35 (08) :2944-2948
[8]   基于统计和规则混合策略的维吾尔人名识别研究 [J].
加日拉买买提热衣木 ;
吐尔根依布拉音 ;
艾山吾买尔 .
新疆大学学报(自然科学版), 2014, 31 (03) :319-324
[9]   基于规则的维吾尔地名识别 [J].
木合塔尔·艾尔肯 ;
艾斯卡尔·艾木都拉 ;
地里木拉提·吐尔逊 .
通信技术, 2013, 46 (07) :103-105
[10]   基于条件随机场的维吾尔人名识别方法 [J].
艾斯卡尔肉孜 ;
宗成庆 ;
姑丽加玛丽麦麦提艾力 ;
热合木马合木提 ;
艾斯卡尔艾木都拉 .
清华大学学报(自然科学版), 2013, 53 (06) :873-877