基于弱监督学习的海量网络数据关系抽取

被引:35
作者
陈立玮
冯岩松
赵东岩
机构
[1] 北京大学计算机科学技术研究所
关键词
关系抽取; 弱监督学习; 最大熵模型; 协同训练; 知识库构建;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在大数据时代,对于海量网络数据的信息抽取与应用已成为自然语言处理和信息检索技术发展的重要主题.其中,基于弱监督的关系抽取方法,因为具有不需要过多人工参与、适应性强的特点,受到了广泛的关注.目前针对它的研究主要集中在英语资源上,主要使用传统的词法和句法特征.然而,词法特征有严重的稀疏性问题,句法特征则对一些语言分析工具的性能有较强的依赖性.提出利用n-gram特征来缓解传统词法特征稀疏性的问题.特别地,这种特征还可以弥补传统句法特征在其他语言上不可靠的情况,对于关系抽取的跨语言应用有重要作用.在此基础上,针对弱监督学习中标注数据不完全可靠的情况,提出基于bootstrapping思想的协同训练方法来对弱监督关系抽取模型进行强化,并且对预测关系时的协同策略进行了详细分析.在大规模的中文和英文数据上进行实验的结果显示,把传统特征与n-gram特征相结合并进行协同训练,在中文和英文数据集上均可以提升弱监督关系抽取的效果,可以适应多语言的关系抽取需求.
引用
收藏
页码:1825 / 1835
页数:11
相关论文
共 8 条
[1]   基于随机子空间的半监督协同训练算法 [J].
王娇 ;
罗四维 ;
曾宪华 .
电子学报, 2008, 36(S1) (S1) :60-65
[2]   基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411
[3]   中文实体关系抽取中的特征选择研究 [J].
董静 ;
孙乐 ;
冯元勇 ;
黄瑞红 .
中文信息学报, 2007, (04) :80-85+91
[4]   实体关系自动抽取 [J].
车万翔 ;
刘挺 ;
李生 .
中文信息学报, 2005, (02) :1-6
[5]   DBpedia - A crystallization point for the Web of Data [J].
Bizer, Christian ;
Lehmann, Jens ;
Kobilarov, Georgi ;
Auer, Soeren ;
Becker, Christian ;
Cyganiak, Richard ;
Hellmann, Sebastian .
JOURNAL OF WEB SEMANTICS, 2009, 7 (03) :154-165
[6]   N-gram-based machine translation [J].
Marino, Jose B. ;
Banchs, Rafael E. ;
Crego, Josep M. ;
de Gispert, Adria ;
Lambert, Patrik ;
Fonollosa, Jose A. R. ;
Costa-jussa, Marta R. .
COMPUTATIONAL LINGUISTICS, 2006, 32 (04) :527-549
[7]   GENERALIZED ITERATIVE SCALING FOR LOG-LINEAR MODELS [J].
DARROCH, JN ;
RATCLIFF, D .
ANNALS OF MATHEMATICAL STATISTICS, 1972, 43 (05) :1470-&
[8]  
A simple distant supervision approach for the TAC-KBP slot filling task .2 Surdeanu M,McClosky D,Tibshirani J,et al. Proc of the TAC-KBP 2010Workshop . 2010