皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

互联网新闻标题生成方法研究(2)

生成式方法则是通过对全文的语义分析,经由特征变换得到词、句、段的高维表示,进而依据语义生成相应的标题,区别于抽取式方法,生成式方法对标题的选词可能是文章中从未出现过的新词。其中传统算法,包括基于树结构、基于模板、基于语义、基于图等的方法都取得了较好的结果。在基于树结构方法框架中,算法根据如谓词-论据结构[10]、依赖树[11]等方式提取摘要要考虑的重要文本。然后,使用浅层解析器从文本中识别出相似的句子。类似的句子被填充到树状结构中。在基于模板的方法中,依赖于文本深层的句法和语义分析[12],使用预定义的模板结构有助于创建简洁、连贯的摘要。但是,由于规则和模式是手动定义的,因此这类方法非常耗时,还需要大量手动操作[13]。基于语义的自然语言生成方法首先通过查找信息项、谓词参数结构或创建语义图来获得文本的语义表示。通过编辑谓词-论据距离度量等相似性度量从中发现语义相似的结构,并通过k-均值或层次聚类等方法将语义相似的结构合并在一起[14]。然后,将此表示形式输入自然语言生成系统。基于语义图的方法通过把文本分割成若干组成单元(如单词、句子等)并建立图(节点-边)模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词的提取、文摘。随着深度学习的兴起,以Sequence-to-sequence神经网络结构为框架的深度学习模型开始在文章标题、文章摘要等方向崭露头角。Chopra[15]等人使用RNN及其变种LSTM构成编码器-解码器结构来生成文章总结,Jobson[16]等人,在使用编-解码器结构的同时利用注意力机制提取重要词,取得了更优秀的结果。Song[17]等人以短语替代单词作为输入,经由LSTM组成的编解码结构来生成文章简介.Abigail[18]等人在解码器端进行了改进提出了pointer-generaer网络,通过指针从源文本复制单词,提高了OOV单词的准确性和处理能力,同时保留了产生新词的能力。

三、相关模型

3.1、 基于图计算的自然语言生成方法

TextRank 可以表示为一个有向有权图 G =(V, E)。该图由点集合 V和边集合 E 组成,其中,E 是V × V的子集,图中任意两点 Vi , Vj 之间边的权重为 wji 。 对于任意一个给定点 Vi ,In(Vi) 为 指 向 该 点 的 点 集 合 , Out(Vi) 为点 Vi 指向的点集合。点 Vi 的得分定义如下: 

其中, d 为阻尼系数, 取值范围为 0 到 1, 代表从图中某一特定点指向其他任意点的概率。使用TextRank 算法进行图计算时,对图中的节点得分进行随机初始化,并递归计算直到收敛(图中任意一点的误差率小于给定的阈值)

3.2基于深度学习的自然语言生成方法

(1) 编码-解码器(encoder-decoder)介绍:

encoder-decoder是一种经典的seq2seq结构。它能够实现将一个序列转换到另一个序列,并且不要求转换的两个序列等长,十分适合文本摘要任务。而类似自然语言文本这种序列数据都存在这时序关系,因此seq2seq常常使用LSTM,GRU这种能够有效缓解梯度消失问题的神经网路结构来建模。具体网络结构如图1所示:

在这幅图中,encoder端接收文本序列[x1:xm]的词向量表示作为输入,词向量可以由word2vec、glove、BERT等语言模型训练得到。encoder端把文本内容编码成一个固定大小的理论上包含全文信息的隐层向量C,C的计算公式如式2所示。

要找到最优最大概率的摘要序列Y,有两种方法可以选择,一种式基于贪心搜索算法,即在每一步都选取概率最大的单词作为输出。这是一种最低成本的方法,但是这种方案得出的结果未必是最优的。因为当前时间步的解码输出会影响之后的解码输出。累计乘积可能并非最高。另一种方法则是枚举所有输出序列并计算得分,这种方法一定能找到全局最优解,但是时间复杂度和空间复杂度过高,实用性不强。因此Seq2Seq使用了一种这种的方法beam search。这种方法是贪心搜索和暴力枚举的这种方案。在每个时间步内保留topk个最优候选结果,它本质还是属于贪心算法的范畴,只不过在贪心的过程中保留了更多可能。

(2)注意力机制下跌的编码解码器结构(Attention based encoder-decoder)

(责任编辑:admin)