科技媒体的报道总是把「云计算、大数据和人工智慧」这三个时髦的技术名词放到一块去。中国在云计算和人工智慧两个领域的江湖地位探讨已经很多,云计算有阿里,人工智慧也是美国的挑战者。那么大数据技术呢?感觉现在对大数据的关注少了许多。

相关链接:

联合国报告:全球人工智慧竞争中,中美处于领先地位?

www.guancha.cn图标中美大数据与人工智慧发展博弈:揭秘美国对华数字扼制与中国应对 - 云+社区 - 腾讯云?

cloud.tencent.com


最近看了央视网的记录片《大数据时代》,被中国的大数据水平震惊了,我们国家大数据发展真的超级棒。

《大数据时代》讲述了大数据时代下的中国发展现状,《数据时代》讲述了大数据怎么改变我们平民百姓的民生日常,《转型之路》介绍了大数据为工业转型带来的变革,《决策之智》讲述了大数据技术提高效率、维护网路安全,《商业之变》讲述大数据如何改变传统的行业让其焕发生机,《未来已来》讲述大数据带领我们走向未来中国。

如果你对大数据感兴趣,这个大片可以引导你走进大数据精彩的世界。

《大数据时代》片段

当下「大数据」已经不再是一个陌生的名词,不论老人小孩都对此有所耳闻。随著科技的不断发展,各种数据呈裂变式增长。目前,全球每天产生的数据量将近2.5百万兆位元组。而截止2017年12月31日,中国总共有7,72亿网民,每天产生836ZB数据量。

如何从海量数据中提取有用的信息,获得先人一步的机会?这也是全球大数据行业共同思考的问题。

纵观全球,大多数发达国家政府都非常重视大数据背后的战略价值,各个国家也在大数据方面积极探索相关的应用。谁能够灵活自如地运用大数据,谁就可能走在别人前面。

以美国来说,早已在2012年发布《大数据研究与发展计划》,把大数据上升为国家战略。

各国技术能力储备政策比较

2019年5月12日,在「2019首届天府大数据与数字经济发展论坛」上发布了《2018全球大数据发展分析报告》。

目前来看,美国一直处于领先状态,而中国大数据的发展稍微晚些,还处于不断探索不断突破的阶段,任重而道远。

从以上国内外大数据产业融合企业情况中可看出,从事数据分析服务的大数据企业偏多,同时大数据 也逐渐向各个行业渗透。但不同国家间的大数据企业分布情况不一样,各有所侧重,也跟每个国家的发展相关。

以美国来说,金融投资领域的大数据企业较多,说明该行业比较依赖大数据技术,对大数据的需求较大。以中国来说,金融与商业营销比重差不多,但总体比重没有美国大。

其实每个国家的大数据运用侧重不同与该国的支柱行业相关,越是政府重视的产业越有大数据意识。

如今中国大数据水平虽然比国外某些地方稍微弱些,但也是一副迎头而上的势头。

目前正在努力建设「数字中国」,各种政策也在扶持著大数据时代的发展,大数据交易平台建设进入井喷期,最重要的是我们能够切身实际感受到大数据带给我们的特别体验。

数字中国发展指标体系框架

2017年各省数字中国指数分布

近年来,国内涌现出一大批优秀的大数据相关企业,而且它们就在我们身边,为我们的生活提供著各种便利。

阿里巴巴

阿里系的电子商务服务、蚂蚁金融服务、菜鸟物流服务、大数据云计算服务、广告服务、跨境贸易服务、前六个电子商务服务以外的互联网服务。其中与大家息息相关的有淘宝、天猫、支付宝等app。

华为

华为的产品主要涉及通信网路中的交换网路、传输网路、无线及有线固定接入网路和数据通信网路及无线终端产品,为世界各地通信运营商及专业网路拥有者提供硬体设备、软体、服务和解决方案。华为手机目前也是国内手机的领头大哥。

百度

作为全球最大的中文搜索引擎公司,百度凭借强大的网民搜索资料库,能清晰洞察网民消费意愿和消费形态,成为中国「最懂消费者」的ROI媒体平台。除此之外,还有百度云、百度云盘等非常不错的功能。

腾讯

腾讯的业务面很广,它用户量最多的是QQ和微信,这两种通讯工具改变了中国的社交方式。近年,腾讯宣布正式启动新一轮整体战略升级,将进一步探索更适合未来趋势的社交、内容与技术的融合,并推动实现由消费互联网向产业互联网的升级。


谢 @阿里云 邀。

先上结论:中国的大数据能力在全球属于领先水平,在计算集群调度领域,已经是世界第一。

就拿自家的阿里云举例吧。

目前,阿里云飞天大数据平台,已经可以扩展到10万台计算集群,是全球规模最大的计算平台,单日数据处理量超过600PB。

飞天大数据平台的单集群调度能力,是10万台,而谷歌、微软等公司的调度能力,大都在1万台左右。

说完水平说发展。

从无到有,10年时间,阿里云的飞速发展其实有迹可循。

一来,离不开阿里的独特业务场景,最贴近我们的就是——淘宝买买买,支付宝刷刷刷。

阿里各平台商品超20亿,每天大概有3亿人访问,每年的双11和天猫618,数据更是会瞬间爆发,在这种业务场景下,阿里云的飞速发展有了「土壤」。

二来,离不开阿里云团队的「疯子们」。

10年前,马老师提出做云计算,表示「我们如果不做,将来会死掉」,于是阿里云在内外的质疑声中诞生了。

团队初创时期非常艰难,甚至流失了80%的工程师,而留下来的人视为「疯子」,他们成为阿里云飞速发展的「种子」。

在「疯子」们的努力下:

2013年,阿里云飞天单集群突破5000台伺服器规模,世界上第一个对外提供5K计算能力。

2015年,单日数据处理量达100PB,创造377秒完成100TB数据排序世界纪录,大幅提升4倍。

2016年,单集群规模超过1万台,打破AWS自2014年保持的「专用及通用目的排序」两项世界记录。

2018年,单日数据处理量超600PB,三年时间提升5倍,集群规模超10万台。

知乎上有很多云计算领域的高手,如果你也想和阿里云的同学们一起疯、一起创造更多奇迹,记得投个简历呀!


谢邀

还记得十年前,阿里巴巴投入云计算核心技术研发,技术人们把这个核心技术命名为「飞天」。

他们可能没料到,十年后的今天,自研的飞天大数据平台可以扩展到10万台计算集群的能力,成为全球最大规模的计算集群。

通俗的说,相当于把10万台计算机组成一个巨大的计算力池子,当成一台超级计算机来使用。

今天,这台超级计算机每天数据处理量超过600PB,容量相当于6亿部高清的电影。

自研平台突围

2009年,阿里云正式成立。在王坚博士的带领之下,一群工程师夜以继日,最终一行行代码写出了飞天云计算操作系统。

今天,飞天作为云计算操作系统为很多人所熟知,但是在研发飞天的同时,阿里云还自主打造了一个大数据的平台——飞天大数据平台。

决定自主研发的过程可谓百折千回。

最初,阿里云选择了3条分支路径去探索大数据处理能力。第一条路径是用商业的Greenplum来替代分析型数据运算;第二条路是因为担心Greenplum不靠谱,也使用Hadoop做类似的事情;第三件事情,就是启动了飞天大数据平台的研发,目标是打造一个属于自己的大数据平台。

到2010年的时候,Greenplum这条路因为规模和可用性的问题以及计算准确性问题被放弃;2013年的时候,Hadoop平台也因为数据中心规模扩展不上去和安全管理以及许可权管理和资源管理等一系列问题,最后不得不放弃这套体系。

2013年8月15日,最初被认为「最不可能的任务」——终于突破了核心技术,正式上线5000台伺服器集群——这使得阿里成为世界上第一个对外提供5K云计算服务能力的科技公司。

有了5K的能力,平台计算100TB排序只需30分钟,远超Yahoo! 在7月刚刚创造的71分钟世界纪录。

到2016年2月,飞天的单集群规模超过10000台;三年之后,再扩大10倍至10万台。

没有马云的强力支持,没有王坚团队的锲而不舍,也就不会有后来阿里云与Amazon、Azure并称3A的故事。

2015-2016年,飞天大数据平台打破计算界奥运会SortBenchmark的6个世界纪录,用不到7分钟便完成了100TB的数据排序,刷新了ApacheSpark 23.4分钟的纪录。

2017-2018年,完成全球首次基于公共云的100TB BigBench大数据基准测试,成为首个突破7000分的引擎,性能达到 18176QPM。

2018年1月,飞天获得中国电子学会15年来首个颁发的科学进步特等奖

飞天为什么「进化」这么快?

如今,飞天大数据平台的单集群调度能力如今已经达到10万台,而谷歌、微软等巨头的调度能力大都在1万台左右,存在数倍差异。

其实这跟阿里的独特业务场景有关。

阿里巴巴是全球最大的电商平台,平台之上有20亿电商产品,每天大概3亿人访问。更不要说,还有双11、双12等全球绝无仅有的业务场景。

要向服务好全球最大规模的网路消费群体,阿里云就必须要做好大数据处理平台。

而在提供计算能力的同时,阿里云还将成本降到了非常低的程度。

通过飞天大数据平台的在线服务,小型公司花几百元即可分析海量数据,而无须耗费巨资自建数据中心。

你不知道阿里云,但生活有了科技味

攻克算术瓶颈王坚团队用了4年,将其继续延展不断商业化阿里云用了10年,到现在飞天大数据平台已和水电煤一样成为不少公司必不可少的基础设备,广泛服务于电商、工业、医疗、农业、气象、教育等诸多行业。

在交通领域,城市大脑在杭州实时指挥1300个红绿灯路口、200多名交警。从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名。让管理者第一次看清楚有多少活动的车辆,用数据挖了一条看不见的路,从而打开了治堵的新思路。

在政务领域,最多跑一次通过大数据处理平台打通政务数据,将与老百姓办事最密切相关的100个事项70多亿条数据,按照统一标准汇入统一的数据仓,实现共通共享共用。老百姓办事不仅能最多跑一次,甚至有可能一次都不跑。

在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。

还有大家最常用的双11买买买、12306网路购票、刷微博、看直播,都有阿里云飞天的身影。

哪有什么一鸣惊人,不过是十年如一日的坚持

十年光阴,不负期待。

成功从来不是一蹴而就的,曾经的阿里云初创团队,在最艰难的时刻甚至流失了80%的工程师,饱受公司内部质疑。

十年后,阿里云做到了全球前三,亚洲第一。坚持就是最好的解释,2012年的飞天奖颁给了阿里云全体员工,颁奖词是「坚持就是伟大」。

只有脚踏实地,才能实践出飞天。

不能忘记的是曾经的苦难,是阿里云那群被称作疯子傻子的技术人,看过凌晨一二三四点的杭州,最难的时候抹过眼泪,只有相信、笃定、坚持的人,爬上了技术的珠穆朗玛峰。


利益相关。阿里云的用户,大数据领域。

BigData 概念在上世纪90年代被提出,随Google的3篇经典论文(GFS,BigTable,MapReduce)奠基,已经发展了超过10年。这10年中,诞生了包括Google大数据体系,微软Cosmos体系,开源Hadoop体系等优秀的系统,这其中也包括阿里云的飞天大数据平台。这些系统一步一步推动业界进入「数字化「和之后的「AI化」的时代。

先来回答答主:云计算、大数据和人工智慧的关系,为什么大数据的讨论少了。

云计算和大数据是硬币的两面,大数据的发展离不开云计算的支持。简单理解,你要做大数据得算的起、算的准、算的快。

前些年,本来大数据是一个挺时髦的概念。谁知道人工智慧突然火了,于是大家纷纷都去讲人工智慧的故事了。

技术体系的发展,可以通过如下Hype-Cycle概述,大数据系统的发展进入技术复兴期/Slope of Enlightenment,并开始大规模应用Plateau of Productivity。而人工智慧正处于关注的巅峰期。

三者什么关系呢?云计算是大数据的基础,云计算+大数据又是人工智慧的基础。但大数据又不止是人工智慧,它是整个「数字地球」的核心技术。它的对于实际生产和生活的意义远大于人工智慧,有时候也可以把人工智慧理解成处理大数据的一种手段。

比如吧,现在政府推行的最多跑一次,本质上是系统的打通和数据的互通。靠的是大数据的技术,但与现在异常性感的人工智慧关系不大。

所以总结下来:云计算为大数据技术提供了可能,目前大数据的已经产生的社会价值原大于万众瞩目的人工智慧。

然后是,中国的大数据技术的水平?

有一些世界知名的大数据比赛,可以作为技术水平的一个反应。

国内云计算最屌的阿里,也是大数据技术做的最好的。我的理解,阿里坚定的做云计算,很大原因是为了做大数据。你看,马云喊出的是DT时代,而不是云计算时代。

Sortbenchmark的官网http://sortbenchmark.org/

这里能看到历届的冠军。国内开始大规模关注是从2015年阿里的夺冠开始(印象中,鼎盛期的百度也夺过冠),当时是在计算速度和计算成本上破了4个记录。

第二年,腾讯和IBM合作,靠超豪华的硬体配置也拿到了一些领域的冠军。阿里也有拿到,但领域不同。

其他参赛选手有AWS、微软、Google以及一些知名高校。

另一个比赛是BigBench。

国内有突破是2017年,阿里和英特尔合作,第一次把数据规模扩展到100T,比同类产品平均性能提升了3倍。具体见:http://news.mydrivers.com/1/551/551630.htm

这个比赛更具产业价值,看的是端到端的计算能力和成本等。参与的基本也是全球性的厂商。

帖一个去年云栖大会的图片:

总结:

中国大数据应用全球一定是领头羊。因为场景最复杂。我们的庞大的人口、拥堵的城市、众多的互联网巨头还有强大的国家意志。

在核心技术上也在不断的突破,大数据计算平台完全可以实现自主可控,阿里的飞天也算是一代技术人员的骄傲。


说起大数据,张学友可有话要说。

他一直以来都被说成是逃犯的克星,演唱会上的抓逃业绩也是让人惊讶:

2018年4月7日江西南昌演唱会开演没多久,就有1人被抓,涉经济案件被网上追逃;

5月5日江西赣州演唱会1人;

5月20日浙江嘉兴演唱会1人,逃犯于某检票时,警方接到了预警信息;

12月28日一30日,张学友演唱会在苏州连演三天,三天时间,苏州公安在全市范围内共抓获22名在逃人员。

2018年,张学友的演唱会上,先后就有80余名犯罪分子落网。

只要张学友开演唱会,大家讨论的画风就是这样的:

张学友本人回应成为逃犯克星,也说:「我们国家真的太先进了,大数据也好,技术也好,都是很先进的。」

没错,他提到了大数据。

公安部借助大数据、人工智慧等高科技,让有「案底」的逃犯难以遁形。

在演唱会启动前3个月,警方已部署了「城市盾牌」系统,根据城市重点区域公共场所的智能设备和技术,将抓取的图像信息与在逃人员数据进行比对,发现可疑人员就会报警。而民警接到系统报警后,就会第一时间赶往现场核查处理。

而大数据的正经解释是什么呢?

说起大数据,美国Gartner公司曾经给出解释:「大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。」

在《长安十二时辰》里,徐宾发明的大案牍术就可以解释大数据处理的环节。

(图源网路)

(1)数据收集——各州各县的录入吏每逢所居之处有什么人员流动的事,就会上门查证;

(2)数据存储——记录在案之后,修订录单然后保存起来。

(3)数据统计分析——徐宾根据记录在案的数据,用大案牍术来演算各种事宜

(4)数据应用——选中了张小敬来帮助李必破案

当然,现代生活中的大数据要比徐宾的大数据要复杂的多,光是应用领域就很丰富。

(数据来源天府大数据)

马云曾说过:「未来数据的处理和分析,就是今天的石油和天然气。」

有一些和我们生活息息相关的领域,大数据在无时无刻的为我们服务著。

电商行业有了大数据,可以分析用户行为,根据他们的喜好推荐更合适的商品。

沃尔玛通过对消费者购物行为进行大数据分析时发现,男性顾客在购买婴儿尿片时,常常会顺便买几瓶啤酒,于是他们就进行了啤酒和尿布的捆绑销售,也成了大数据技术应用的经典案例。

你在淘宝等购物网站上看到的「猜你喜欢」,也是电商行业+大数据的成果。

医疗机构有了大数据,可以分析各种疑难杂症并寻找解决的办法,帮助医疗资源不发达的地区。

在中国,最好的医疗资源集中在北上广地区等一线城市,随之而来的就是医患资源不匹配的问题,生活在别的地方的人享受不到。大数据技术+机器学习可以学习一线城市有经验的医生掌握的知识,分析疑难杂症,辅助基层地区的医生,,实现医疗资源下沉,让更多的人享受到更好的医疗服务。

公安系统有了大数据,就有了「火眼金睛」,快速确定嫌疑人,更好的维护社会治安。

大数据在公安系统的应用越来越多,继张学友的演唱会是逃犯克星之后,又有山东追逃计划,帮助公安机关抓获了一大批负案在逃的犯罪嫌疑人。

中国国内企业的大数据能力又是怎样呢?

在2018年评选的中国大数据企业50强的名单中,阿里巴巴排在全国首位,华为、腾讯、联想排在之后。

(图源网路)

要说国内大数据最强,还是得数阿里。

阿里云的飞天大数据平台算是一个骄傲,集群规模世界第一,是全球集群规模最大的计算平台,最大可扩展至10万台计算集群,创下了四项世界纪录。飞天是中国唯一一个自主研发的计算引擎,全球掌握这项技术的公司,仅仅只有4家:微软、亚马逊、谷歌、阿里巴巴。

阿里在民生服务领域,用大数据技术给人们带来了非常多的便利。

在浙江,在飞天大数据平台支撑下,人们可以在动身最少、最便利的情况下享受到最多的便利,阿里让「老百姓最多跑一次」成为现实。

比如原来需要跑5个窗口、耗时2天,才能拿到的新生儿出生证,现在只需在手机上填9项信息,就可以办好一个出生证;原来需要跑到缴水电的地方排队缴费,现在只需要在躺在床上点点手机就能缴费;原来看一次病排队需要付几次费,现在可以先在医院看完病,再回家再付钱,不用被各种繁琐的程序耽误了时间,提高了效率。

在杭州,城市大脑实时指挥1300个红绿灯路口,从2016年到2018年,用了两年的时间,把杭州从全国最拥堵城市排行榜上挤到了第52名。王革新在杭州做了3年的协警,在城市大脑的协助下,指挥早高峰变得异常轻松。

在飞天大数据平台的支撑下,这样便民的场景正在越来越多的城市实施开来。

技术的目的,是便于生活。

回到原话题,中国的大数据企业在全球是怎样的呢?

(1)人才

(图源天府大数据)

其实中国在大数据产业的人才是最多的,人数占据了59.5%,高于美国英国等其他国家的人才数量。

人才的数量其实一定程度上体现了这个行业的发展潜力,我国是人口大国,当仁不让的成为数据大国。

(2)创新专利比例

(图源天府大数据)

中国的大数据技术创新能力2015-2018年期间有了显著的提升,全球大数据领域相关技术专利数量比例,中国从2.0%增长到38.5%,超过美国,并呈持续上升趋势。

(3)比赛成果

看实力,还是得回到比赛成果来看。

引用环球时报的报道:

2015年,飞天刷新了「世界计算奥运会"SortBenchmark的世界纪录,用377秒完成100TB的数据排序,打破了经典的计算引擎Apache Spark的1406秒纪录;

2016年,它再次刷新SortBenchmark的世界纪录,打破了亚马逊AWS自2014年起保持的世界纪录。中国自主研发的计算平台令世界刮目相看。在2017年BigBench的比赛上,阿里云计算创造了BigBench全球性能记录。这是一个新的突破: BigBench数据规模首次扩展到100T;流计算2.0每秒峰值达千万QPS,整体链路延时亚秒级;E-MapReduce对比同类产品平均性能提升3倍。

(图源网路)

而2019年,飞天大数据平台是世界大数据计算性能的冠军,集群规模是世界第一,创下了4项世界纪录。

我们比之世界范围内的大数据能力水平也是不怯的。

中国是人口大国,我们有庞大的人口、天然的数据优势,相信在优秀企业的带领下会成为全球大数据应用的先锋。而这样的骄傲,存在于每一个中国人心中。


推荐阅读:
相关文章