大数据时代舆情的内涵与分析方法(2)
时间:2019-11-24 17:47 来源:网络整理 作者:北京新闻网 点击:次
在现实舆情分析研究中,不可能完全依靠舆情软件平台进行数据抓取,一般由研究者根据研究对象的情况,进行必要的抽样,利用python、R语言进行数据抓取,借助各种方法进行舆情分析。概括起来,目前主要有以下三种小样本分析方法。 (一)基于关系的分析:社会网络分析(SNA)。随着社交平台崛起,“关系”逐步在虚拟网络空间中成为一种基础性资源和底层构架,“没有一个自我是孤零零的岛屿,每个人都存在于关系网络之中,而这个网络比过去任何时候都来得更复杂、更流动”②。舆论信息基于社会关系网而传导,而社会网络分析方法恰恰是描述社会关系网并将之直观化的重要工具,近几年,社会网络分析已成为舆论分析的重要工具和手段。 另外,传统舆论调查方法的局限性进一步显性化,正如弗里曼(Freeman)指出的,“在过去的30年中,经验社会研究主要由抽样调查控制着。但是,如人们常常指出的那样,调查是一种社会学的绞肉机,它把个体从其所在的社会情境中抽离出来,并确保研究对象之间不存在联系”③。舆论抽样调查有一个基本假设前提——人的“属性数据”会决定人的言论和行为,但在关系网络崛起的今天,人的言论与行为越来越受到其所在的社会关系、社会阶层等“关系数据”的影响。社会网络分析是测量与调查社会系统中各部分(点,node)的特征与相互之间的关系(连接,tie),将其用网络的形式表示出来,然后分析其关系的模式与特征的一套理论、方法和技术。描述和测量行动者之间的关系或分析通过这些关系流动的各种有形或无形的东西如信息、资源等的方法,主要有图论、社会计量学和代数方法。图论适用于描述小型传播群体的核心关系和团聚力等特征;社会计量学适用于研究结构等价性和“块模型”关系;代数方法适用于对角色和位置关系的分析。在研究视角上可以大致分为两种:关系取向和位置取向。关系取向主要研究的是社会行动者的社会联结——密度、中介性、强度、对称性、规模等;位置取向主要关注的是社会行动者之间社会关系的模式化,不同行为个体在结构地位上是否一致,强调用“结构等效”来理解人类行为。社会网络分析目前主要使用的是Gephi、UCInet、Pajek、NETminer、MultiNet、NodeXL等软件,其中用得最多的是Gephi、UCInet等。 (二)基于文本的分析:词频与语义网分析。舆论是由各类词语构成的信息文本,文本内词的多寡、词与词之间的联系可以凸显信息文本的价值观、语意结构和社会诉求等,因此近年来很多研究者将词频分析、词与词之间的关系网分析等方法引入舆情分析之中。 1.词频分析法。分词是文本挖掘的基础,对于输入的一段文本成功地进行中文分词,可以达到计算机自动识别语句含义的效果。词频分析是对舆情文本中重要词汇出现的次数进行统计与分析,是舆情文本语义挖掘的重要手段,也是文献计量学中传统的和具有代表性的一种内容分析方法。其基本原理是通过词出现频次的变化来确定舆情关注的热点及其变化趋势。至少在认知层面上,某关键词被提及的次数越多表示表达者的诉求越集中与迫切。词频分析可以实现微博与微博聊天分析、新闻文本分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。 (责任编辑:admin) |