共 16 条
基于CRF和半监督学习的维吾尔文命名实体识别
被引:13
作者:
王路路
[1
,2
]
艾山吾买尔
[1
,2
]
买合木提买买提
[1
,2
]
卡哈尔江阿比的热西提
[1
,2
]
吐尔根依布拉音
[1
,2
]
机构:
[1] 新疆大学信息科学与工程学院
[2] 新疆大学新疆多语种信息技术实验室
来源:
关键词:
维吾尔文命名实体识别;
条件随机场;
半监督学习;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
H215 [维吾尔语];
学科分类号:
081203 ;
0835 ;
0501 ;
050107 ;
摘要:
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
引用
收藏
页码:16 / 26+33
+33
页数:12
相关论文