纪委系统网络廉政与舆情监测技术实现
非常感谢各位领导在百忙之中参加我们这个研讨会。关于网络廉政舆情工作的紧迫性,各位领导和专家学者从上午到现在都讲得很全面。我更多的是从技术实现和数据分析以及方法等方面做一些介绍,因为技术工作相当复杂,可能用很多语言来表示很难说清楚。所以,我今天只做一个抛砖引玉的工作。时间允许,我会做几个系统演示。以后要是有机会,我们在一起交流。
今天我想从四个方面做一个简单的汇报:
第一,纪检系统网络舆情监测工作的紧迫性,这个上午已经讲了很多,下午也都提到了;第二,纪检系统网络舆情的传播规律和路径。第三,纪检系统网络舆情监测技术与实现;第四,纪检系统网络舆情监测平台功能模块介绍。
各位嘉宾,2011年作为十二五的开局之年,国家反腐倡廉形式依然严峻,互联网在反腐倡廉斗争中发挥的作用再一次被见证。2011年一个个大案要案被数以亿计的网民围观,微博用户数量的大幅上升,使反腐倡廉工作面临新的机遇和挑战。对反腐倡廉工作开始实时的舆情监测工作迫在眉睫。具体表现在:
2011年在公车改革、三公经费公开、国企反腐、换届、购物卡腐败等重点难点领域,廉政措施虽取得一定效果,但是仍然离公众的预期较远。这里我就不展开了。
第2点,反腐舆情胜于倡廉舆情,网民对贪腐大案极为关注,持续时间较长,很多网民对腐败表示“见怪不怪”,也有网民表达了失望情绪,意见领袖则经常挖出个案背后的体制弊病,以表述自己极大的担忧。相对于这些个案,国家及各地的倡廉举措,则难以引起网民的积极关注。
第3点,从各种丑闻到各类群体性事件,从贪腐腐化到渎职、言语等日常行为,舆情形势错综复杂。比如,官员“雷语”、作风问题依然是舆论反腐的重要线索,安全生产事故仍然是渎职类舆情的来源。
第4点,基层贪腐事件如得不到较好处置,容易演变成为群体性事件,一个典型案例就是刚刚解决不久的乌坎事件,村民的主要诉求就是对基层官员的不满,包括土地问题、换届选举问题以及村务公开问题。在社会转型期,民众民主意识、参与意识日益觉醒的今天,如何做好预防工作,防微杜渐,成为一个重要课题。
第5点,民众呼唤慈善透明化。2011年沸沸扬扬的郭美美和卢俊卿事件把中国慈善机构推到了风口浪尖,引发了舆论对中国式慈善体制的反思。
第6点,微博持续升温,用户数量不断扩大,网络反腐发挥越来越重要的作用,但也给社会管理造成一定难度,成为一把双刃剑。
2011年,微博反腐可谓风生水起、格外耀眼。从上午到现在也一直在谈这个问题,主要有3种形式 :
一、知情者故意爆料——包括受到伤害的民众、甚至是官员的情妇或亲友;如东星航空实名举报袁善腊事件。
二、亲人炫富引事端——“微博盲”不慎暴露自己;如 郭美美事件、2011年6月江苏省溧阳市卫生局局长在微博上与一名女子大肆调情被无数人围观。
三、个人信息外泄隐私曝光——当官员包养情妇的艳照或者个人信息无意泄露时,微博成为曝光的最便捷渠道。
2011年更有安徽利辛县国土局干部周文彬,选择了“自首式举报”,并在微博上直播了自首的过程,被称为“微博反腐第一人”。
且不论这些案例最后的是非对错,微博作为一种传播工具,已经成为公民维权和制度救赎的重要出口,这既是对传统监督形式的有效补充,但另一方面,容易形成极具轰动效应的全国性事件,导致政府公信力大打折扣。
正如贺国强在十七届中央纪律检查委员会第七次全体会议上所说“互联网快速发展拓宽了社会参与反腐倡廉的渠道,但如何积极回应和妥善处置又成为一个新课题。” 人民网舆情监测室致力于打通2个舆论场,以实现“健全网上舆论引导机制,发挥互联网等新兴媒体在促进反腐倡廉建设中的积极作用”, 让这条新的反腐之路为在座的各位所用。这是我们的一个理想。
第二部分,我给各位领导汇报一下要解决这些问题,最终要把握住互联网舆情的一些传播规律、传播工具、传播路径和传播方式,以及应对方式,这个也是非常重要的。
首先,汇报一下舆情形成机制
我们经过大量的研究发现,网络舆情在形成过程中,基本遵循如下几个要素:
消息出现:这些消息主要来自网友在论坛或微博的爆料,或来自中小媒体的曝光;少部分信息也可能来自主流媒体的报道。
敏感性:消息要具备敏感性,能吸引眼球,存在着被大量转载、被网民集中关注,或被网络推手炒作的可能性。
主流媒体:主流媒体适时介入,对消息予以证实,或展开深度报道;
舆论领袖:受他们的观点的影响,消息传播范围被扩大,网民争议程度白热化,事件升级。
其次,我们再看舆情发展周期
通过对众多危机案例的总结,我们发现负面舆情基本遵循了一个发生(潜伏)、发展(爆发)、高潮、持续、衰退(终止)的生命周期。
·潜伏期:消息在小范围的网络圈子内引发议论,危机苗头已经出现,但尚未引起主流媒体的关注,公众关注程度较低。
·爆发期:众多主流媒体在同一时期内介入,消息的传播范围迅速扩大。
·持续期:舆论关注程度起伏较小,媒体持续报道,但基本不会出现新的负面话题。
·终止期:舆论关注程度明显下降,网民视线开始转移。
第三,我们再看看舆情发酵路径
我们对负面舆情的发酵路径进一步展开如下:
消息经过传统媒体报道,或者网友爆料,进入舆论视野。
网友通过新闻跟帖、在论坛发帖、在微博转发或评论等方式,形成舆论压力。期间,在意见领袖的引导下,网民的利益诉求与观点更为明晰。
传统媒体跟进,挖掘新的事实,出现了新老媒体互动。
面对舆论压力,相关政府部门或企业予以应对,若应对适当,舆情出现高涨。
随着问题的解决问题以及对官员问责,网友注意力转移,网络舆论消解。
第四,说说网络危机破拆图
对前面我们有关网络舆情发酵的路径,我们也可以借用意见领袖杜子健杜老师的危机破拆图,来形成更直观地认识。这个图的颜色渐进,形象地说明了舆情由潜伏到爆发,危机程度由弱到重的过程。
第五,我想说说关于突发事件处置的策略
对于突发性危机事件,我们从动态的角度,总结出了环环相扣的处置办法,即:
----尽快成立应急领导小组,成员背景尽量多样化,覆盖财务、行销、外宣、公关、安全、法律等。
----速查明事件原因背景,确定事件被曝光的原因以及爆料者或媒体的动机,确定事件是真实存在的问题,还是属于外界的虚假误读。今天上午专家提到黄金四小时回应,下午也提到了,我觉得不一定是四小时。特别是微博时代,如果你确确实实掌握了舆情,对舆情整个发生发展的传播规律、传播内容很清楚的情况下,我觉得可以不一定是四小时,你随时都可以回复,而且这个回复都是一语中的。因为你对情况掌握最清楚,而很多危机造成发酵越来越大的情况,就是因为对舆情掌握的不够全面,或者信息不对称造成的,由于信息不对称,所以在回复的过程中就有失偏颇,最后让舆情继续放大。千万千万要注意这一点,就是一定要掌握舆情。从这两年我们参与处置了很多国内大的舆情事件来看,只要对舆情掌握得很全面,办法得当的话,基本上重大的危机事件都能够在很短的时间内,一两天内被压制住。如果对信息掌握的不够全面,对舆情的监测和了解不够全面,最后都会不断地发酵。如果掌握了舆情,掌握了信息,你就可以有的放矢,来解决这些问题。
----周密制定处置工作预案,包括常规的处置流程,如信息发布者、发布时间、发布方式等。同时,对于可能出现的再次突发情况,如出现新的不利话题,要制定预防方案。
----及时发布真实准确信息。这要求做到迅速、真实、准确、诚恳、适度。
----全员动员开展危机救治。在危机面前,通过内部动员做到团结一致。
----尽快恢复社会正常秩序。抓住时机,开展合适的修复行动。
----查处相关责任单位和个人。要认真查清事故原因,查明事故性质,认定事故责任,对事故发生负有领导、监督和管理责任的单位和人员,要依法依规严肃处理。同时,要及时公布事故调查处理结果,自觉接受社会监督。
----修复政府公信力,总结经验教训。要举一反三,认真总结吸取事故教训,针对事故暴露出的突出问题,采取切实有效的防范措施。
第六,关于突发事件处置策略体系——五要素、五原则、八步骤和36法则
对于突发性危机事件,我们总结了一套危机应对体系。该体系包括五个要素、五个原则、八个步骤、36个法则。
这五个要素依次是事件回应、舆情应对、危机处理、媒体沟通、声誉修复。
这五个原则依次是预防为主、及时处置、公开透明、积极主导、以人为本。
这八个步骤依次是监测、预警、研判、回应、沟通、应对、处置、修复。在八个步骤中,监测是第一位的,一定要做好监测工作,监测之后才能够及时预警和研判,或者回应。有些事件要回应,有些事件不需要回应,选择沉默或者其他什么方式,最后来修复。很多事件不一定有这八个步骤,有的两三个步骤完了,有的四五个步骤,有的八个步骤还不一定能完得了。
我们还总结了突发事件处置的36法则,就是在重大突发事件发生的时候,在某个阶段我们应该采取什么样的应对方法,是统一口径?还是责任切割等等。因为有了舆情监测,就能够很清楚地掌握舆情,是责任问题就做责任切割,是态度问题就要态度诚恳。如果没有前面那些监测,也不能使用这些办法。否则会出现问题的。所以,我认为突发事件处置是一个系统管理的问题,需要一个综合的解决方案。
36个法则,是我们危机应对体系的核心,具有很强的实操性。我们目前基本上采用这种方法进行处置和应对。比如,在事件回应方面,我们强调兵贵神速,要求恪守“黄金四小时”,快速出击。在舆情应对方面,我们舆情跟踪法,要求7*24小时动态监测事件的舆情态势,从实际出发,跟据新情况,解决新问题。在事件处理方面,我们建议重视官方的权威和第三方的力量,以增强危机应对主体的公信力。媒体沟通方面,我们要求与媒体平等沟通,采取积极对话的姿态。声誉修复,也是危机应对不可忽视的一环,对于尽快还原公众形象,提升公信力,大有裨益。?
关于第三大部分,我简单过一下技术与实现。
实际上刚才讲的这些都需要通过技术来实现,单纯靠人工这一块,对于未来来讲是,就像刚才讲到互联网是信息的海洋,单纯依靠GOOGLE、百度等搜索,搜两个关键词肯定是不解决了问题的。我们有些部门目前最多的有30多人来进行监测。我给他们算了一下,比如一个部门有五百个关键词,四个小时搜一次,在GOOGLE、百度各搜一次,得多少?每五百个,四个小时轮一遍,才能把主要舆情找出来,这个工作量有多大?实际上和我们合作的,有的系统仅一个地级市的关键词将近一千,这个工作量,如果不是机器来解决,人工是不可能的。而且现在有些单位监测的关键词数量还要更庞大。
其实,除了七八百、上千个关键词,我们还做了语义分析、敏感词汇分析等,这些配合起来,才实现对一个单位基础的舆情监测,如果没有几千个敏感词和专门的关键词配合,也不可能实现舆情有效的监测和预警。所以,现在我觉得,未来反腐舆情这一块,一定需要类似我们这样的专业的机构做支撑和服务,可能有点王婆卖瓜的嫌疑,但是我觉得这是很重要的一点,而且是很关键的一点。
下面看一下我们的系统解决方案
这幅图描述了人民在线舆情监测系统的运行流程,系统首先通过采集系统从互联网上获取数据信息,然后通过智能分析系进行文本信息的自然语言处理(如分词、主题词提取、自动摘要等操作),信息排重,舆情分类,然后将处理好的信息统一存储到舆情数据库当中;同时,智能挖掘系统从数据库中读取数据,做文本挖掘工作,提炼出真正满足客户要求的,对客户有价值的舆情信息。
关于系统逻辑结构
人民在线舆情监测系统的整体架构如图所示,总共可以划分为8个子系统。
⑴网络数据采集和结构化信息抽取,既包括我们的网页爬虫系统,也有微博信息采集和元搜索系统。
⑵ 语义分析、舆情分类、信息分发和存储。
⑶ 搜索引擎对文本数据所索引处理,供快速查询使用。
⑷ 搜素引擎Sphinx。
⑸Web端,用户通过浏览器就可以方便的登录到系统,阅读和查看各种舆情信息。
⑹ 服务管理子系统,通过它对其他子系统做统一管理和调度。
⑺ 对数据库中存储的各类信息做深度的分析和挖掘,提炼出有价值的舆情信息。
⑻ 系统还为外部系统提供了数据访问接口,可以方便的同客户已有的信息系统进行对接。
关于数据处理流程
这幅图描述了人民在线舆情监测系统的数据流程,首先采集系统从互联网上获取数据信息并提取结构化文本信息(如标题、正文、作者、来源、发布时间等),之后信息存储到舆情信息总库当中保存,与此同时,系统的分析与挖掘模块会对这些信息做语义分析和文本挖掘处理,提取出关键词、摘要、地域等内容属性,并执行文章排重,舆情分类、热点事件聚类等任务,接下来,各种舆情服务模块会对这些信息以各种形式进行展现。
这个图更直观一点,就是互联网上的信息包括新闻门户、中文报刊、博客、贴吧、报刊、微博、搜索引擎等,通过我们的采集服务器抓过来;抓过来以后通过计算机分析和挖掘,形成基础的数据,再通过人工推送到我们的系统平台,有的形成报告。也就是说监测结果的实现起码有五个步骤。每一个步骤里面都有大量的工作。比如,前端要配站点,比如要配几万个站点,这叫信息源管理,还要进行语义分析,然后去一把把它们都抓过来,再进行过滤、分析,进入变成基础舆情,再经过人工分析,形成报告。
这里面有好几个方面的工作要:一个是精准语义分析,我们必须做好基于反腐倡廉工作的精准语义和关键词分析,才能实现实施监测;第二是全面站点分析。就是我刚才说的站点分析,舆情监测实际上要解决什么问题?我想干什么,我想控制在什么样的范围,那么就就要把站点找到,梳理出来,不然的话,你全部都要,中国互联网网站30多万家,需要多少台服务器也存储不够,怎么办?就想办法,用最优化的办法,通过站点分析,比如我选择十大门户,或者围绕舆情工作一千个网站,汇总起来,然后从里面抓出一些东西,就是我自己要的东西。第三,要有一套强大的采集工具,关注我们的是哪些媒体,而且经常有事的媒体是哪些,只有把它抓出来,才有可能解决舆情问题;第四个就是实时的舆情通道,就是能够有一个报送的,上下沟通的渠道;第五,还要有专业分析团队。目前从事监测的公司、机构很多,但是真正的分析师,真正有专业分析背景的分析师不多,包括各个部委、各个央企、各大企业,真正有背景,分析舆情能力很强的分析师还是很少的。一个很专业的分析师队伍,能够有效地支撑你为领导服务和参谋的能力。如果没有专业的分析队,我觉得水平是提升不上来的。
下面我们看一下语意、关键词列举。比如纪委系统有巡视工作、党风廉政、纠风工作、案件查出、预防腐败,巡视工作是纪委调查、纪委查办、纪委专案组、巡视组、纪委办案,分析得很清楚。
这是站点分析,比如围绕纪委系统,中央重点网站是哪些?国内知名网站是哪些?门户网站是哪些、境外网站是哪些、境外敏感中文网站是哪些,我们都要进行分析。
这是一个事件怎样发生扩散的过程,我们可以看到相似条新闻有多少。
关于7X24小时预警,这我要澄清一下,很多机构和单位一说合作,就要24小时提供预警,实际上是机器365天7X24小时预警,然后再加上人工在有限的时间里进行研判,机器还是做不到百分之百的研判和预警能力。
我们推出的系统平台,是一个综合的系统平台,不单是一个软件。现在很多软件公司,给你提供一个软件好象全部实现了。刚才大家都看到了,它绝对不是单纯一个软件,里面涉及到站点分析、语义分析、各方面的分析,要很专业的人才和机构才能实现。因此,我要说我们是覆盖到全球网络的为企业提供一整套舆情监测预警管理服务系统和舆情综合管理方案的机构。
关于技术实现方面的功能模块,我们开发了很多。比如有实时监测:包括最新报道,我们可以设定5秒、10秒和半个小时更新一次;领导舆情:监控需要监测的重要领导的舆情,看有什么情况,各种言论等东西;反腐民意:微博上数据我们抓过来后进行汇总;舆情地图:各个地方舆情状况是红色、蓝色、黄色,用一个地图把它展现出来;外媒监测:全球450家的外媒的信息全部可以调取过来。这是热点事件追踪;微博监测。还有网上举报:这个系统用得比较多,涉及到互联网举报任何官员、任何事件,我们机器都会抓出有关的信息,可以为各位领导服务。
此外,我们还开发有中文报刊系统:监测1800家的中文报纸;舆情日历:汇总每天发生的重大舆情;统计数据:汇总各种信息来源,可以帮助我们了解哪些媒体在关注我们,是怎样的状况?都可以展示出来。
我就汇报到这里。
最后澄清两个问题,一是到底什么样的机构可以提供舆情监测?现在舆情监测机构有四类:一是公关公司和市场调查方面公司;二是软件公司,他提供一套系统,你配专业人员、技术人员、收集人员、站点分析人员、语义分析人员等;三是依托大学的一研究机构。象南京大学、上海交大等,也做舆情研究方面的工作;第四,目前人民网舆情监测室。新华社也要出来了,我们两家未来会成为一个综合的、全球范围的网络舆情监测的内容,综合舆情解决方案的机构,这是一类。
第二个问题,是不是我们有了百度、谷歌就够了?有了百度、谷歌还不行,为什么呢?刚才说了我们是通过站点和语义分析后进行定向的采集与精准的抓取,谷歌、百度是海量信息,输一个新浪,一下子有很多信息过来,分类系统不像我们这样精准的分析。但是我们不能说那个效果不好,人家80%的主要信息也有,只是有些论坛、博客他们没有收录进来。我们现在采取什么办法呢?我们目前开发了一个元搜索,就是架在基于谷歌、百度搜索上的搜索,再加上精准垂直的抓取系统,配合起来做舆情监测,可以有效解决舆情预警。
大家做舆情监测工作,主要是做好领导的参谋和助手。我们这个机构是为在座各位提供专业化的舆情咨询、服务。因此,我们是一家人,希望以后在开展舆情监测和管理方面能够为大家更好的服务。再次感谢大家。