皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

互联网新闻标题生成方法研究(3)

单纯的编-解码器结构有一个显著的缺点,就是整个编码-解码过程共享一个单独不变的语义编码C,对于不同的生成词都使用同一个C造成的结果就是模型不会根据当前生成词位置的不同而采取不同的采样方式。而Attention机制在整合encoder-RNN不同时间步生成encoder的隐藏状态的序列时,输出解码的状态St。及相应attention权重α。

至此,算法可达到收敛。其模型结构如图2所示:

(3) pointer-generator

传统的Seq2seq在生成摘要的每一个单词时,通过一个softmax层计算词汇表中每一个单词的得分。即生成的摘要一定是来自于词表里面有的单词,而在模型训练之前,这个词表已经是确定了的。因此训练出来的模型在文中遇到词表中没有的词却又是非常关键的细节词时会出现细节表述不清的问题。这也就是集外词(OOV)问题。此外,由于解码时只看见前一个时刻的解码出来的单词,因此非常容易生成重复的摘要片段。针对传统文本摘要模型存在的这两个问题,Abigail See等基于传统的attention-based encoder-decoder模型结构做了修改提出了pointer-generator模型(以下简称PG模型)。一方面,PG模型引入pointer指针来按一定概率从原文中复制某些单词作为摘要。另一方面,引入coverage机制,在生成词时,增加对每个词历史累计attention得分的惩罚。作者认为之前出现过词在摘要中再次连续出现的概率应该要降低。PG的模型结构如图3所示:

四、实验方法

本文基于互联网上公开的标准新闻数据。通过利用上述研究的文本摘要模型,进行智能互联网新闻标题生成实验,为新闻内容的快速获取和有效展示提供可行的方案。

4.1 数据集构建

我们使用公开数据集ION dataset[19],由于ION数据集原文部分使用原文url链接而非原文文本,我们遵守url链接网站robots协议爬取了相对应的文本。新闻文章-标题共计66518条,格式如表1中所示:

4.2 数据处理

数据预处理是机器学习领域相关工作必不可少的环节之一,在文本数据预处理中,主要工作是消除无意义的特殊字符、常见的无意义或欠意义的词(a, the 等)以及分词来降低数据中的噪声以达到最优的模型效果。在本文工作中,因文本主要通过爬虫爬取,其中包含有许多HTML页面中的标记符号以及表情符号,我们使用正则匹配的方式进行了噪声过滤。分词在中文领域是非常重要的环节,但由于本文使用英文公开数据集,英文单词由空格切分,无需进一步设计分词算法。

最大截断句长是NLP任务中为了保证输入的批次数据一致性而产生的超参数之一,即设定最大截断句长后,所有文本中大于截断句长的部分需要舍弃。在本文选用的数据集中,文章篇幅偏长(2000-3000字左右,如图4所示),方差偏大(最大值30000字)。在深度学习算法的模型输入数据中,批量的结构化数据以矩阵的形式输入到模型中,每一批次中的各条数据必须符合相同的形状(shape)才能够集体约束模型收敛。所以合理的最大截断句长分析是必不可少的,图4中展示了以一个单词为1单位计算的文章长度和标题长度的对比分析,以覆盖95%的截断策略来说,最佳阶段长度应在5000附近,但考虑到新闻文本的特殊性--新闻文本普遍在文章开头部分直入主题,我们对最大长度的截断策略进行了变化,选择以平均值附近的句长来进行截断,其中,文章最大长度为2000, 标题最大长度为25。

文本向量化方法将文本形式的数据转换成具有语义信息的向量形式用以进行建模计算,有one-hot、tf-idf值、word2vec算法、glove算法等进行编码的方式。但是,One-hot编码采用词袋模型,不考虑词与词之间的顺序,并假设词与词相互独立,损失了部分语义信息,还会得到一个离散稀疏的特征矩阵,十分浪费内存,tf-idf, word2vec,glove算法都渴望通过设计一套算法来递归的计算出最能代表词的向量,但人为设计的算法计算出的向量结果表示能力受限于算法原理,故在本文中,我们采用在模型中设置可训练的、随机初始化参数的词嵌入层的方式,利用模型自动训练出一个具有最佳表示能力、最贴合本文选取的语料的词向量输入。

4.3 模型参数

4.4 实验结果

结果表明Pointer-Generator在新闻标题生成任务中具有显著的优势。

(责任编辑:admin)