皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

基于动宾短语和主题模型的相似缺陷报告识别方法(2)

句法分析(parsing)是指对文本中语句的词语进行语法功能分析。句法分析在自然语言处理(natural language processing,NLP)领域中占有重要地位,是其关键底层技术之一,其主要应用是确定文本中语句的句法结构以及语句中每个词汇间的依存关系。

针对本文中的缺陷报告,需要提取其中的动宾短语结构,因此,本文对相应的缺陷报告文本使用句法结构分析。本文使用斯坦福自然语言句法解析器(Stanford NLP Parser)对自然语言语句进行句法分析,建立句法结构树。该解析器基于一个经过训练优化的概率上下文无关文法(PCFG)对语句的句法树进行分析构造。

图2分别为缺陷报告(编号239120)描述信息中的语句“I will take a look at this today. Can you tell me what version of AspectJ you are on, is it the release candidate for 1.6.1rc1?”的句法结构示意图。

其中,常见标注信息有: S:完整语句;VP:动词性短语;VB.*:不同形式的动词(VB.*表示以 VB 开头的所有标注信息);NP:名词性短语等。句法结构树中动宾短语被标注为VP,因此,需要提取出句法结构树中所有标注为VP的文本片段。

3.2启发式过滤规则

仅仅依靠句法分析中提取出来的动宾短语(VP)文本片段,其中还会保留一部分无关信息。有些动宾短语文本片段由于代词、虚词等成分的词语出现等原因导致该文本片段信息不完整或与该缺陷的实际信息有些偏差。因此,还需要将这种文本片段过滤掉。

本文基于一种启发式规则对筛选出来的候选动宾短语进行过滤[4]。设定某一阈值,并保留通过该启发式规则过滤器后高于该阈值的候选动宾短语。即预先设定一组启发式规则,并对句法分析得到的所有动宾短语文本片段进行筛选。当某个动宾短语片段匹配到某一条规则时,若符合该条规则,则加上既定的分数,同理若不符合该条规则,则减掉既定的分数。当通过所有的启发式规则后,过滤掉所有得分低于阈值的候选动宾短语片段,既而得到缺陷特征的候选集合。本文在[4]的基础上综合考虑缺陷报告文本的特点,最终选取了两类启发式规则:基于短语结构特征的过滤规则,以及基于停止词的过滤规则。

(a)基于短语结构特征的过滤规则

在动宾短语中,如果不包含动词(VB.*)或名词(NP)成分,则将其判定为无效的动宾短语,即为保证该动宾短语描述信息的完整性,候选动宾短语中必须包含动词成分及名词成分。因此,在动宾短语的句法结构树中,如果某一棵子树的根节点第一层中不包含动词成分(VB.*)或名词成分(NP),则将其判定为无效的动宾短语结构,并将该短语的置信度评分设为最低分,结束过滤过程。

(b)基于停用词的过滤规则

在自然语言处理领域,文本预处理中有一种常见操作是删除停用词。停用词是由英文单词stop words翻译过来的。英文中有很多使用频率很高的单词(如a、the、或or)对文本的语义理解并没有帮助,这些单词的存在反而影响计算的效率和准确性,因此通常在处理文本前,会先将文本中的停止词删除掉。

同理,对于缺陷报告的文本集合,有些词在文本的某些位置上也不应该出现,也就是说候选动宾短语中的某些词不应该出现在某些位置上。因此,可以针对缺陷报告集合设定专用的停用词表,当某个候选动宾短语中出现这些停用词时,直接将其移除候选动宾短语集合或减掉一定的分数。本文选用了两种停用词:

助动词(例如be、do、have等)和情态动词(例如can、may、must等)作为句子的基本组成结构,经常出现在动宾短语中,但由于英文特殊的语法结构,当助动词或情态动词出现时,并不是在准确描述该缺陷报告想要描述的缺陷特征。因此,应设定一定规则减少助动词及情态动词对缺陷描述结果的影响。具体规则如下:

1)当助动词或情态动词出现在候选动宾短语的动词位置时,将该短语的置信度评分设为最低分,直接结束过滤过程;

2)当助动词或情态动词出现在候选动宾短语的其他位置时,将该短语的置信度评分减1。

当代词(例如it、me等)出现在候选动宾短语中时,代词在某一单一语句中会因指代不明而使得表达的语意不准确或不完整,因此,应将其作为负面规则减掉一定分数或直接判定为无效的候选动宾短语。另外,若某个代词带有一定的实际意义,其指代的词语也通常在上文出现过,因此,过滤掉该代词所在的候选动宾短语不会影响候选动宾短语集合表述缺陷语义的完整性。具体规则如下:

1)当代词出现在候选动宾短语的名词位置,并且是最后的核心名词时,将该短语的置信度评分设为最低分,直接结束过滤过程;

2)当代词出现在候选动宾短语的名词位置,但不是核心名词时,将该短语的置信度评分减2;

3)当代词出现在候选动宾短语的其他位置时,将该短语的置信度评分减1。

(责任编辑:admin)