皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

海量新闻信息处理中的语义角色标注研究(2)

基本思想是为所有已知的因素建立模型,把所有未知因素排除在外。预测了全部能够在句法分析树中找到匹配成分的角色后,采用简单的后处理规则去识别那些找不到匹配成分的角色。使用最大熵模型进行SRL的有XUE等[10]和刘挺等[11]。XUE等[12]使用最大熵模型进行实验,在基于单一句法树的基础上,详细 验证了GILDEA等[13]研究中的各个基本特征在SRL各阶段的贡献,并提出了新的特征。刘挺等[14]选取了较多的特征采用最大熵分类器对句子中谓词的语义角色同时进行识别和分类,取得很好效果。

4. 基于核函数的SRL

一般使用核函数的目的是将低维线性不可分问题映射到高维空间,使之成为线性可分问题。可以通过计算核函数隐式达到,从而降低时间和空间复杂性很好地融入到 SRL 技术中。MOSCHITTI[15]最早使 用核函数的方法来实现 SRL,CHE等[16]在其研究基础上,将 PAK 核分为路径核和成分结构核,通过线 性组合集成 2 个核。ZHANG等[17]指出传统树核函数都是“硬”匹配,不利于计算相似成分或近义的语法标记,支持向量机(support vector machine,SVM)、感知器等学习算法。

5. 基于条件随机场的SRL

条件随机场(conditional random fields,CRFs)模型擅长处理序列标记问题,是一种无向图模型,考察给定输入序列对应的标注序列的条件概率,训练目标是使条件概率最大化。它以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将CRFs用于句子中谓词的SRL. COHN等[18]在PropBank 句子的完全句法分析树上建立树 CRFs 标注模型,标注结果好于最大熵模型;董静[19]等考虑句法树中水平层次上的角色标签之间的马尔科夫依赖关系,在 PropBank 语料基础上进行了SRL实验;YU 等[20]使用CRFs模型研究了英文 PropBank 的SRL问题,使用浅层短语块和命名实体块作为标注单位。以上使用CRFs模型的SRL实验都取得了不错的效果。

三、 相关研究工作

(一) 数据集

本次实验使用国际上信息处理认可的PropBank SRL数据集。

(二) Jointly Predicting Predicates + Highway+ELMO模型

以往的基于BIO标注方法的模型已经有了不错的表现,但是存在一个问题,就是都需要假设谓词作为输入的一部分,并且还不能包括跨度级别的特征,本次介绍的模型不仅可以解决这个问题,而且也达到了优于其他模型的效果。以下是本次介绍的模型与BIO标注的模型在双谓词特征上的区别如图1所示,

可以看出,我们可以同时预测出多个谓词与他们相对应的角色对。而且,这个模型还克服了一个重要的限制:模型可以预测交叉重叠的数据区域而不受影响。

2.1 数据处理

输入数据要经过分词、去停用词、去除标点,只留下有意义的信息,使得模型捕捉到的信息不会因为诸如“着,的”等词稀释。

2.2 算法模型

模型分别两部分,第一部分是建立所需要的span-level词向量,结构如下图2所示,

最底层的向量由预训练好的词向量和字级别的向量拼接而成,然后将每个词的向量输入到m层的Bi-LSTM中,并且加入了Highway(如本文介绍的第一个模型一致)。

Bi-LSTM层,LSTM是RNN的变种,采用双向的LSTM,LSTM计算公式如下公式(2-1)、公式(2-2)、公式(2-3)、公式(2-4)、公式(2-5)、公式(2-6)所示:

在LSTM的基础上加入Highway的计算方式,图中LSTM传输上的曲线就是Highway,加入Highway-LSTM结构可以有效的缓解梯度消失的问题,计算如公式(2-7)、公式(2-8)、公式(2-9)所示,

图中的span head(x_h)是一种注意力机制,它的输入是Bi-LSTM的输出。实现方式如下,其中e是计算的中间过程,注意力机制计算过程如公式(2-10)、公式(2-11)所示,

第二部分是通过前馈神经网络计算每个论元(argument)与谓词之间的得分,判断它们之间是否存在关系,模型结构如图3所示,

在图5中,score的计算规则如公式(2-12)、公式(2-13)、公式(2-14)所示,

其中,g表示span representation,a表示论元arguments,p表示谓词predicates,MLP表示全连接层。

如图3.17中,Combined score的操作,就是简单的相加。Combined score的操作的计算方式如公式(2-15)所示,

最后的softmax分类结果有三种,分别是具有arg0关系、具有arg1关系、没关系,计算概率最大的一个作为最终的结果。

2.3 降低计算复杂度

2.4 ELMO

(责任编辑:admin)