选择TOOM舆情

舆情监测系统的数据都是从哪里来的?是如何获取的?

作者:未知 时间:2019-11-12 11:43:35

  关于数据的覆盖范围,有一种比较直白的情况就是,很少有人能够清楚的解释真正的覆盖范围,因为采集范围作为核心,一般都是不对外公开的。即使采集2000-20000个网站,也不会轻易的告知权重是如何分配及安排的,大体上讲需要考虑一下问题,国内与国外有多少的根域名?按新闻、政府、教育等分类后一共有多少?社交媒体等采集资源有多少ID账号?认证的,高级认证的等等分别又是多少?论坛类采集,一般论坛有多少个版块?凡涉及资讯的采集源会整理出来多少个列表页?这些问题都决定了采集系统的真实规模能Cover住多少。

  数据已经获取了,接下来就可以探讨一下舆情系统的基本分析功能了,至于那些基于关键词规则的监测逻辑、预警、自动生成报告、数据可视化等功能并不值得多说,我以前的文章里已经做过一些阐述了,而舆情分析功能才是重中之重,我也说一下舆情类产品的现状。

  大部分舆情产品的现状就是,它们大都是基于统计学进行分析的,比如这些很常见的分析功能:

  •   文章数量趋势,一般是曲线图
  •   采集源排行榜
  •   文章排行榜
  •   词云
  •   树状传播路径
  •   网状网民互动节点关系
  •   地域分布(地图型)
  •   时间轴

  其实这些都是数据统计的基础,计算复杂度也低一些,技术要求也低一些,所以是舆情分析的主力。不管是否熟悉舆情系统,基本也可以理解这些基础分析,但是更有价值的其实是基于NLP语义分析技术的文本分析,该类分析技术决定了舆情数据的分析深度以及准确度。

大数据舆情监测

大数据舆情处理

  如果是作为一个舆情分析员或者叫舆情监测员,他的主要业务就是找出有价值的舆情数据,对未来发展做预测,提供给领导决策支持的依据。基于此,他需要舆情系统数据覆盖广、更新频率快、定位和筛查目标线索能力强等等。而NLP技术是协助舆情业务人员定位目标线索的得力助手。

  从实际业务角度来说,筛查目标主要是从以下角度来进行:

  •   时间范围,在某个时间段集中分析
  •   事件范围,基于某个特定事件或特定主题来分析
  •   人员范围,基于某个人,可能是分析提及这个人的线索,也可能是分析这个人发布的文章线索;
  •   地理范围,重点分析某个地理范围,比如朝阳区或南京市发生的舆情。

  NLP技术在这方面的应用我就不从技术角度来探讨了,而是从应用角度来讨论。首先我视为一篇文章进入系统后,会被完整分析,文章中的所有实体(人物、组织、地域)提取、句法提取、描述关系提取、关键词及词性和权重提取、情感指数化等等。那么真正较为精准的舆情系统在舆情分析的时候,不应该只是基于关键词匹配来进行分析,而是应该基于语义,比如:

  1)分析人的时候,并不是文章中提及或者出现了某人的名字,就算。而是要分析出,这篇文章讲的是这个人的事情,并且排除重名(比如利用人名、地域、职位的关系来分析约束);
  2)分析地域的时候,也同理,并不是地名出现了就可以,而是要分析出文章确实讲的是关于该地域的事情,并且要支持多级的地域包容,这个主要指的是上级对下级的涵盖关系。比如我要找讲关于北京市的文章,那讲海淀区的文章也算,讲朝阳区的也算,讲人民大学的也算。这就对地域分析要求较高,得建立完整的一套多级体系并智能判断;
  3)情感指数其实是个鸡肋功能,因为情感很难直接定义并且衡量,尤其是每个人对情感的理解和感受不一,所以该功能价值并不如舆情分类功能价值高;

  舆情分类功能也是基于NLP技术的,通过人工智能训练分类模型,实现文本分类器功能,可以更好,更有效的协助舆情业务人员找出目标文章,比如涉贪腐、突发灾害、涉黄赌毒等。

大数据舆情监测

大数据舆情监测

  综上所述,舆情类产品是大数据分析产品的一个分支,目前舆情类产品能已经从监测,延伸至发现、监测、追踪、评估、疏导。同样,舆情类产品的分析维度也从基于文本的分析,延伸至对图片的分析、对视频的分析。而人工智能技术的加入,使舆情系统对文本的理解能力更强,这对于舆情业务的本质需求是很有帮助的,因为舆情业务是一种大海捞针式的海量数据分析并找出线索的过程,通过层层筛选,最终降低分析范围,获得精准的目标线索并顺藤摸瓜梳理整体脉络。以前很多完全要基于人的分析,现在可以通过NLP技术简化。

  以上就是我对目前舆情产品、舆情行业、数据采集技术的思考。如果还没看够的话,点击这里,你不光能看到实际的案例,还没能学到关于如何处理舆情的方案哦,这样你就能和我们一样优秀了呢

版权声明: TOOM舆情监测软件平台,致力于为客户提供从全网信息监控到危机事件应对和品牌宣传推广的一整套解决方案,拥有多个服务器机房中心和专业的舆情分析师团队。 本文由【TOOM】原创,转载请保留链接: https://www.toom.cn/news/2481.html ,部分文章内容来源网络,如有侵权请联系我们删除处理。谢谢!!!

相关文章

  • 1 【事件分析】女子高铁上给孩子投影无声版动...

    关于数据的覆盖范围,有一种比较直白的情况就是,很少有人能够清楚的解释真正的覆盖范围,因为采集范围作为核心,一般都是不对外公开的。即使采集2000-20000个网站,也不会轻易的

    2019-11-01 11:13:56

  • 2 舆情监测系统的数据都是从哪里来的?是如何...

    关于数据的覆盖范围,有一种比较直白的情况就是,很少有人能够清楚的解释真正的覆盖范围,因为采集范围作为核心,一般都是不对外公开的。即使采集2000-20000个网站,也不会轻易的

    2019-11-01 11:13:56