梅宏院士:我国年夜数据开展近况与将来趋向

梅宏院士在十三届全国人大常委会专题讲座第十四讲:大数据发展现状与未来趋势

梅宏原始

梅宏院士

中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。国家领导人在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!

今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。

一、大数据的发端与发展

从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。

大数据

大数据

“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John
Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big
Data(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆·格雷(Jim
Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor
Mayer-Schnberger)在其畅销著作《大数据时代(Big Data:A Revolution That Will Transform How We
Live,Work,and
Think)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。

大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。

大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。

二、大数据的现状与趋势

全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。

大数据的现状与趋势

大数据的现状与趋势

一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David
Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。

二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。

随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。

其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。

然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General
Data Protection
Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。

我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。

另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。

近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。

一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。

当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。

三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。

近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。

近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。

推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。

三、大数据与数字经济

大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。

大数据与数字经济

大数据与数字经济

在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。

信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!

从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。

数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。

责任编辑:leo

  • 首页
  • <上一页
  • 1
  • 2
  • 下一页>
  • 尾页
  • 本页阅读全文

|收藏本文  该内容由行业企业、终端个体、第三方机构提供,本网仅起到传播该信息的目的,如有任何疑问请与转载来源机构联系解决,感谢支持。如发现侵权,本网编辑部将协助进行处理或撤稿。 文章关键字大数据 智能化 数字化 信息化相关阅读

沃尔沃集团总裁马丁·伦德斯泰特:大数据不是新鲜事

无论是短视频的精准推送,还是电商购物的精确推荐,“大数据”的出现正在彻底改变人们的生活方式和企业的发