皮盼资讯网移动版

皮盼资讯网 > 潮流时尚 >

大数据时代舆情的内涵与分析方法(3)

词频分析的基本步骤是首先对文本进行分词,分词的基本前提是必须有一个相对比较完备的“字典”,“字典”的词容量越大,分词的精准度也就越高;分词后计算关键词的数量,即为词频。词频分析的工具目前越来越多,尤其是一些线上的工具,比较出名的有图悦、纽扣词云、腾讯文智、新榜词云词频分析、Excel词频分析工具、易词云等,国外比较出名的在线工具是Tagxedo、WordArt、Wordle等。近年来,随着各种编程语言的出现,利用Python语言进行词频计算的研究越来越多,一般使用Python中jieba包的中文分词工具(https://pypi.org/project/jieba/)对对象文本进行分词与词频计算。

2.社会语义网。社会语义网只是一种说法,主要是将各个高频词之间通过社会网络分析工具连接起来,形成一个高频词关系网,进而推测话语文本的主要表达逻辑及关注热点。具体来说有以下几种不同的分析方法与手段。

一是共词分析,共词分析的基本原理是通过对一组词项在一篇文本中共同出现的次数统计,并以此对这些词进行聚类,反映出这些词项之间的关联强弱,进而分析这些词项所反映文本的主题结构。一般来说,一个词项对在同一篇文本中出现的次数越多,则表明该词项对的关系越紧密;一个词项对在大量文档中出现次数越多,则说明该词项对与文本之间的关联性越强,共词分析采用一套结构图可以有效地展示词项之间的关联。一般来说,点的大小代表词频,节点越大词频越高,连线的粗细代表两词之间共现的次数,共现次数越多连线越粗。

二是聚类分析。基本思想是将变量按相似程度归于同一群组,“物以类聚”,是共词分析中比较常用的统计方法。根据一些能够测量多个变量指标之间相似程度的统计量,以此为划分依据,可以将各种不同相似度的变量聚合成不同的类别,再将它们的亲疏关系用谱系图的方式表现出来。在聚合的不同类别中,同一类别之内的变量彼此的相似度愈高愈好,而不同类别之间变量彼此的相似度愈低愈好。高频关键词聚类分析是对文本中高频关键词亲疏关系的分析,体现出高频关键词相似性和相异性的分析图谱,通过图谱可以进一步挖掘作者意图和社会语义等深层次信息。

三是词的多维尺度分析。主要通过测量对象之间的距离来展现数据结构,运用低维空间中对象所处的特定位置,通过观察这些对象之间的平面距离,可以了解它们之间的相似性。通过多维尺度分析,可以帮助研究者挖掘数据中的深层结构,通过软件绘制的平面图,能够清晰地揭示出数据中的隐藏联系。在多维尺度分析的结果中,被分析的对象呈现点状分布的特点,图中点与点之间的距离代表它们之间的相似程度,同时将相似度高的和关联性高的对象聚集成一个类别,处在中间位置的对象,代表该对象的核心地位。

(三)基于情绪的分析:情感计算。情感计算是主体对某一客体主观存在的内心喜恶倾向的计算方法。主要由情感倾向方向和情感倾向度两个方面来衡量。情感倾向方向也被称为情感极性,可以理解为用户对某客体表达观点所持的态度是支持、反对还是中立,即通常所指的正面情感、负面情感、中性情感;情感倾向度是指主体对客体表达情感时的强弱程度,不同的情感程度往往通过不同的情感词或情感语气等来体现。为了区分情感程度的差别,一般采取给每个情感词赋予不同的权值来体现。

目前,情感计算方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈尔滨工业大学信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。文本情感分析的分析粒度可以是词语、句子,也可以是段落或篇章。

舆情分析方法的发展趋势

(一)“文本+关系+情绪”的多元耦合分析。社交平台文本通常采用短文本形式,并且用户发文具有随意性,其语言的规范性非常低,不论用词还是语法常常有悖于标准的语言规范,由此带来文本表示的高维、稀疏、噪音等特性。这使得传统的文本分析方法难以直接应用,对这类社会化网络短文本如何进行有效建模和分析是未来舆情监测的难点与重要方向。另外,社交平台用户通过互相关注建立起来的网络关系是一种典型的社会网络,该社会网络既是用户社会关系与兴趣偏好的体现,又是舆情信息传播的通道。如何将社交平台的文本分析与用户的社会关系分析有机融合,进行语义分析和网络结构分析,是未来舆情分析不能回避的问题。

(责任编辑:admin)