皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

基于动宾短语和主题模型的相似缺陷报告识别方法(3)

上述语句“I will take a look at this today. Can you tell me what version of AspectJ you are on, is it the release candidate for 1.6.1rc1?”依上述规则筛选后得到两个文本片段,分别为“take a look”以及“release candidate for 1.6.1”。当对该缺陷报告中的所有文本信息提取候选动宾短语并依据以上的启发式规则过滤后,则会得到表述该缺陷报告语义的所有候选动宾短语。

3.3领域术语自动抽取

过滤每份缺陷报告的候选动宾短语集合,得到表征的文本片段后,还需建立每份缺陷报告与类别之间的联系。

在自然语言处理领域,自动抽取语料库中各领域对应的领域术语是其中的一项重要任务。领域术语自动抽取是指从一定规模的语料库中提取出能够表示该语料库中各领域文本特征的词语。目前,针对领域术语的自动抽取已有大量的研究,这些研究大多采用基于统计或基于规则的方法。

本文借鉴Liu等人提供的方法[5],该方法基于以下的假定:

1)不同领域的术语在不同领域的文本中分布应该是不均匀的;

2)相同领域的术语在与其相关领域的文本内应该是均匀分布的。

在给定了分类语料中每个领域的前提下,该算法既考虑了每个领域术语在不同领域文本集合中分布的不均匀性,以及在某些领域文本集合内分布的均匀性。而如果在某个领域内,其语料越多, 则某个词语在该类语料中出现的可能性会越大。因此,该算法使用正规化方法用以减少语料规模对词语的出现带来的影响。算法中的符号定义见表1:

词语在领域类别间的分布,是利用信息熵来定义的,记作corpus distribution(CD),定义如式(1)所示。

针对语料的不平衡性,对词语的类间分布进行正规化定义,记作NCD,定义如式(2)所示.

   

其中:

考虑到语料的不平衡性,对词语的类内分布进行正规化定义,记作NDD,定义式(3)所示。

其中

若NCD(W)的值越小,则该文本中的词语W越有可能成为某个或某几个类别的表征术语;而相反的,若NDD(W,Di)的值越大,则词语W越有可能成为用于表征某个类别Di的领域术语。也就是说,式(2)是选择NCD值小的词语作为候选的领域术语,而式(3)则认为领域术语应该在与其相关领域内尽可能均匀的分布。

基于以上方法,可得到缺陷报告集合中每个类别的表征词语,依据NDD值的大小,选择每个类别排名前20的词语。因此,在Eclipse项目的5个优先级类别中,共得到100个表征词语。

对于每份缺陷报告,分别计算这100个表征词语与筛选出的候选动宾短语文本片段中的每个词语的相似度,并取其中的最大值作为特征向量中的某一维,以此得到一个100维的特征向量,如图4所示。与基于白名单构建特征向量的方法类似,对该部分特征向量值也需做归一化处理。

因此,将基于白名单方法得到的特征向量与基于动宾短语提取和领域术语的特征向量拼接在一起,如图5所示。

4 基于LDA主题模型的特征向量构建

(责任编辑:admin)