沈浩:霍金用大数据预测世界杯冠军并非不靠谱
“大数据”已成为时下最火热的IT行业的词汇,通过大数据,警察可以预测犯罪,商家可以分析消费者行为。而现在,大数据和世界杯发生了联系。史蒂芬 霍金教授经过科学公式计算,认为英格兰队需要在世界杯上采用4-3-3阵型,穿红色球衣,才能最大限度提高夺得世界杯的概率。霍金的公式并非凭空想象,他是将世界杯以往的比赛作为数据,进行了各方面因素的统计与分析,包括温度、海拔、球衣颜色、行程以及距离甚至裁判等,推算出了世界杯夺冠的最理想条件。
大数据将带来越来越多的应用,大数据究竟为何物?未来它将如何影响社会发展?对此,光明网记者采访了中国传媒大学调查统计研究所副所长、新闻学院教授沈浩,以下为文字实录。
大数据时代到来,创新和变革远不止目前所见的冰山一角
今天确实是大数据时代了,人们能够感知到大数据对社会的影响。我曾经写过一篇文章《大数据时代来了以后,社会科学研究的春天到了》,这个题目就是用来形容大数据与社会的关系。
到底什么是大数据,不同的人有不同的理解。最典型的是从大数据的4个角度Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性)来阐述大数据。对于大数据,学界或业界是否有统一定义并不重要,重要的是大数据来了以后,我们已经看到越来越多的数据存储,是数据化而不是数字化。
首先是人的行为、活动产生了越来越多的数据,被记录下来。其次是我们的存储成本越来越低,数据量爆炸性的增长,甚至有人说目前人类社会90%的数据是近2年生成的。
我对大数据的理解,它主要包括4个领域,分别是数据科学、网络科学、空间地理科学和可视化技术。大数据这个概念没有流行前,我们就面临着海量数据的处理问题,所以在一定程度上大数据概念落地就是早年的数据挖掘(data mining),是指从海量数据中发现知识的过程。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
为什么现在那么多人在谈论大数据呢?说明它很时髦,是社会潮流。我们目前看到只是冰山一角,当它露出来的时候,最先看到的是社会观察家和人文学者,现在我们更关心的是那一角的下边到底是什么。
利用大数据可以追踪本 拉登? 用数据挖掘人背后的社会关系
大数据首先涉及到数据挖掘,深度学习、百度大脑等使得数据产生革命性的变化。一些流行词也伴随着这个过程产生,比如说“云计算”、“内存计算”,它们既和IT有关,也和数据挖掘、分析有联系。当把所有的数据聚集在一起的时候,或许我们会发现很多事先不知道的东西,这就是大数据的特点,可以挖掘个人,分析个人。
有人说微博就是大数据,它的确具有大数据的特点,也是最容易被看到的。我们所看到的数据以及数据后边的人,都是大数据,例如从一个人的微博就能看出他(她)的社会关系,并能记录个人的行为。有人说大数据可以追踪恐怖分子,只要本 拉登打电话、发邮件,通过数据就会追踪到他,这也并不算是夸大其词,是有可能的。
另外一个方面是,大数据可以帮助我们关注群体,比如说捕捉到某个城市所有发twitter的人用的语言,就可以看到这个城市人们群居的分布。讲中文的人住在哪,讲英语的人分布在哪些区域,我们可以从数据感知到全貌。
霍金预测世界杯夺冠并非不靠谱 大数据具有预测力
霍金对于世界杯夺冠的预测是不是真的大数据应用,这是值得商榷的,但他的分析思想偏向于大数据是肯定的。霍金收集了大量的数据,包括历史记录、温度、球场的海拔高度等,把所有数据都集中起来,分析你事先不知道的事情,或许能发现一些规律。它的原理不是传统的分析,更多的是基于关系的一种预测,大数据具有一种预测力。
社会情绪也是重要的数据。世界杯预测可以通过收集人们在社交媒体中的谈论话题来感知社会的变化,从而预测结果。这种预测可以归类到“机器学习”之中,就是计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。具体的模型则不尽相同。同样,预测健康、预测流行病等都是这样的原理。。
像一些网站推出的高考预测、景点预测都是基于大数据的分析。这些网站有大量的数据,有大量的可供分析的因素,通过机器学习的办法和大量数据的训练,去寻找到隐藏在数据中的模式、趋势,从而使得它的结论就有可能具有预见性。
美国把大数据当成国家战略 未来将影响到整个社会管理
大数据的这个词最早来自于美国,美国把大数据当成国家战略。也有人把大数据当成社会资源,作为社会生产要素。美国大数据战略主要是2点,第一个是能够从数据中发现更多的知识和价值来支持企业和政府管理;第二是Opendata(开放数据),让公众能够获取到想要的数据,这也是最核心的。
大数据影响了社会。过去做研究,研究的是自然人,叫“一方水土养一方人”,有很强的区域性。到了大数据时代,更多的是研究社会人,就是人的关系,这在过去是记录不下来的。
大数据对媒体和新闻传播产生重要影响。大数据与新闻传播的结合诞生了“数据新闻”这一种从数据中发现事实的最新的报道形式,中国传媒大学因此第一个开设了“数据新闻报道实验班”。
在微博上,所有人的人际关系都呈被现出来,并且被数据化记录下来。科技改变生活,将来的物联网、车联网、可穿戴设备,这些东西都会产生数据。你只要下载一个App,就会要你的位置,人的行为模式被记录下来。
这种数据显然对商业最有价值,所以目前大数据首先应用在商业上,虽然它的理论体系还没有建构完善。很多的精准营销、精细化营销和各种有针对性的推荐都来源于大数据的分析。数据越来越透明,将来“房姐”不会出现,因为一旦犯错可以追溯到你过去所有的历史。这些都是大数据可能带来的影响。
未来大数据的影响会更普遍,会影响到整个社会管理,所以有打造“智慧城市”、“智慧政府”的说法。
有底线地开放数据是优化大数据服务的前提
政府是最主要的大数据源,在国外很多的数据是开放的,而在国内数据很少开放,我们想做很多分析却不能做。所以政府应该更好地开放数据,而且这些数据要能够被计算机读取。有些国家就做的很好,甚至公布每一个报警电话,每一个刑事案件发生的地理坐标。经过一定的去安全性处理以后,可以被公众获取,从而去支持科学研究和商业活动。
互联网是今天产生大数据的主要来源,这些数据应该开放并且提供给科学研究。前段时间,twitter公布将会把所有数据向科学研究开放,而我们微博的数据公开却越来越收紧。
数据越来越公开,隐私就是一个相对让渡的过程。具体什么是隐私,每个人的看法不同,有的人什么东西都不希望让别人知道。但我认为,开放的数据要有开放的技术和手段,包括对隐私的保护,去除敏感的数据等等。对于隐私,政府首先要制定最基本的规则,应有个底线。
相对来说,大部分的人的隐私还是需要让渡出来,这样才能为人们提供更好的大数据服务。至于具体做法,首先就要开放数据,并在隐私方面做到有底线的保证。其次要强化数据的融合,不仅是互联网的数据,其他来源的数据也要整合在一起。最后,要建立更好的数据中心,进一步强化数据管理,让数据更好地服务于各项社会活动。