大数据在舆情分析中的应用
作者:梁翠萍 胡庆宝
来源:《科技创新导报》2017年第03期
摘 要:2011年麦肯锡发布了《大数据,下一个创新、竞争和生产力的前沿》研究报告之后,大数据概念开始风靡全球。近年来,随着国内微博、微信、娱乐网站等新媒体的兴起和发展,越来越多的民众通过互联网参与到热点话题和热门事件中。所以,通过大数据对网络舆情进行监测和分析,并对民众的态度和倾向做出准确的定位显得非常重要。该文主要通过对大数据论述、网络舆情筛选、舆情捕获存储以及数据分析,来探究大数据在舆情分析中的应用及其价值。
关键词:大数据 网络舆情 数据抓取 数据存储 舆情分析
中图分类号:G206 文献标识码:A 文章编号:1674-098X(2017)01(c)-0108-02 随着新兴媒体的发展,互联网舆情已经在社会发展中扮演着重要的角色,它已不仅仅局限于个别范围的使用和拓展,而是演变为全民互动型的参与和讨论,所以如何在众多信息中获取最全面的舆情数据,并将舆情数据以最快的速度和最灵活的方式展现出来,使舆情在可控的范围内实现最大的社会和商业价值,显得尤为重要。 1 网络舆情
网络舆情不同于传统舆情,传统舆情是民意理论中的一个概念,是民意的一种综合反映。该文所提到的网络舆情,是未经任何中介包装和验证,直接发布于网上的社会舆情,并以互联网为载体,以舆论事件为核心,集民众情感、态度、意见、建议、传播互动和影响力于一身的集合。
因为网络舆情的传播介质是网络,网络既具有公开性又具有隐蔽性,同时需要事件、网民、网民情感,以及通过网络介质的传播和互动,所以在既公开又隐蔽的环境中,从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要。 2 舆情捕获
由于舆情具有自由性、交互性、多元性、偏差性和突发性,所以如何从众多舆情中获取实时数据并服务于大众,是新兴媒体所面临的严峻挑战和考验。 2.1 关键词确定
在互联网上传播的信息可以用海量来形容,如果针对舆情盲目进行检索,犹如大海捞针,不仅得不到我们想要的数据,还会浪费大量的人力、物力和财力来投入到数据的分析中。所以
龙源期刊网 http://www.qikan.com.cn
如何在海量的信息中获取用户想要的数据,“关键词”就显得非常重要,它不仅可以让我们精确地捕获到想要的数据,而且还可以减少脏数据的捕获,大大缩短了舆情分析的时间,提升了舆情分析的反应速率,下面就介绍几种关键词确定的方法。
(1)定制关键词。关键词的确定可以从舆情分析的发出者来反向提出,舆情分析的发出者一定是希望从网络舆情中得到某种相关信息,那么我们可以从需求提出者和需求分析者的角度来确定关键词,即关键词由用户提出,并通过需求分析将用户的表述发展为定制词语,并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据,是最直接明了的数据捕获方式。
(2)热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数,我们可以借助这些网站自身携带的热门指数,来确定关键词。因为通过热门舆情关键词来捕获数据,一定是网站热门数据,这样不仅可以节省我们分析确定关键词的时间,而且还可以用最短的时间获取最多的分析数据,提高大数据在舆情分析中的反应速率。 (3)热搜舆情关键词。热搜舆情关键词不同于热门关键词,由于舆情具有广泛传播性,很多人参与到舆情探讨中,都是通过网络搜索并定位的,所以热搜关键词就是根据搜索引擎的热搜排行榜,来确定舆情关键词,通过热搜排行榜,我们可以第一时间知道并了解网民想要了解的舆论事件。
(4)参考舆情发布网站。想要找到网络事件的发展状况和原由,最简单也是最直接的方式,就是找到舆情发布的网站,很多网站就是网络舆情事件的源泉。 2.2 数据抓取
当我们通过各种方式获取并确定了关键词之后,如何把关键词变成我们想要的精确数据,就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据。
当前主流的数据抓取模式主要包含4个主要部分:网络爬虫技术(Spider)、数据处理技术(Data Process)、爬取URL队列(URL Queue)和数据。爬虫主要是从互联网上捕捉网页内容,并从中抽取出需要的内容。数据处理:对爬虫抓取的内容进行处理。URL队列:为爬虫提供需要抓取数据网站的URL。数据包含3个方面:(1)Site URL:需要抓取数据网站的URL信息;(2)Spider Data:爬虫从网页中抽取出来的数据;(3)Dp Data:经过dp处理之后的数据。 2.3 数据存储
因为网络舆情具有及时更新和海量的特性,所以我们如何将抓取到的数据实时保存起来,是非常关键的,它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中,下面介绍一下当前主流的3种数据库及其区别。
龙源期刊网 http://www.qikan.com.cn
Oracle数据文件都是采用二进制编码的文件,而且它可以对SQL在执行过程中的解析和优化指定统一标准,其中包括RBO、CBO以及HTNT规则,这些都会使在Oracle数据库中执行的SQL拥有极大的优化自由,同时也对CPU、内存、IO资源方面进行优化。
MySQL最大的特点应该属自由选择存储引擎。它的每一个表都是一个文件,都可以选择合适的存储引擎。但由于它的存储引擎是开放式的插件引擎,所以文件的一致性大大降低,并且在SQL优化方面,也会有一些不可避免的瓶颈,例如多表关联、子查询优化、统计函数等都是它的弱项,并且MySQL只支持极简单的HINT。
SQL Server的数据架构基本是纵向划分,分为:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL执行都是逐层,其中Relational Engine中的优化器,是基于成本的,其工作过程跟Oracle是非常相似的。同时它也支持丰富的HINT,包括:连接提示、查询提示、表提示。
虽然,这3个数据库各具特色,但是,如果对数据安全、存储等特性没有特殊要求,通常我们会选取MySQL数据库,因为开源而且操作相对简单。 3 舆情分析
如果说舆情数据的抓取和存储目的是在数据获取方面下工夫,那么舆情分析就是通过比较、论证等方法把数据通过图形报表等更加简洁的方式呈献给用户。
每一个舆情事件的本身都有自己的特点,分析设计人员可以根据不同的特点选择舆情分析的方法或报表。通常舆情分析方法有连续接近法、举例说明法、比较分析法和流程图法等。通常图形报表也有很多种,如趋势图、比例饼图、百分比柱图、流程图、表格等,分析设计人员根据舆情的特点选择合适的图形呈献给用户。 4 结语
通过大数据相关技术对舆情进行全方位收集、存储和分析的过程中,我们既不修饰、篡改舆情事件的真实性,也不隐藏舆情事件的丑陋性,大数据的智能捕获分析,只是将网络舆情更加清晰形象地呈现给用户,使用户在第一时间获取民众态度,掌握民众意见或建议,并根据舆情报告的精准分析反馈,及时对舆情事件做出相应的政策,调整相关的策略,实现商业和政治利益最大化,创造更多的社会价值,并使网络舆情健康良性发展。 参考文献
[1] 王博.大数据时代网络舆情与社会治理研究[D].云南财经大学,2016.
[2] 杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(9):251-256.
龙源期刊网 http://www.qikan.com.cn
[3] 李丽清.网络舆情监控与分析系统的设计与实现[D].西安电子科技大学,2014. [4] 唐勇.互联网舆情监控系统的设计与实现[D].北京邮电大学,2013.
因篇幅问题不能全部显示,请点此查看更多更全内容