朋友们，我们正处在科技大爆发、数据大爆炸的新时代，以物联网、5G、智慧城市（Smart City）、区块链、语音识别、人工智能AI、增强现实AR、虚拟现实VR等为代表的IT新科技，正改变着我们的生活、引领着未来世界科技的发展方向。

日新月异的新技术爆发，无情的颠覆着我们对现实世界的认知。可以说谁掌握了新科技的主动权、谁就掌控了未来的世界。

我们今天要聊的大数据（big data），就是现代和未来所有新科技的基础支撑。也可以说谁掌握了更充足的大数据、谁能够运用好大数据，谁就更有希望引领现代和未来科技发展。

大数据（big data）的前世今生

在计算机发明之前，人类对数据的处理非常简单，比如在以前的中国，我们的先辈噼噼啪啪打着算盘就把活干了。显而易见，靠人脑和算盘能处理的数据毕竟是有限的。

1946年，美国制造了世界上第一台电子管计算机ENIAC；1958年，IBM制造了第一台晶体管计算机；1964年，第一台集成电路计算机问世；1970年，IBM制造了第一台大规模集成电路计算机。人类由此真正进入了计算机时代。

计算机出现之后，人类文明前进了一大步，电脑逐步代替了人脑。初期计算机处理的数据，是以bit、Byte、KB、MB为单位的；后来跨入到GB时代；而当代是TB、PB甚至EB的时代；未来还会是ZB、YB、BB、NB、DB的时代。我们一起来看看这些计算机存储单位的换算关系，就能明白数据大爆炸有多可怕：

记得在九十年代的中国，我们的硬盘也只有几百兆，常用的3寸软盘也就1.44兆，那时谁要是有一块几个G的硬盘都会被羡慕的不行；而现在，随便一块机械硬盘，没有个几百GB都没人愿意用，至少也要有几个TB才算是个玩意儿。

数据的大爆发、伴随而来的各种IT技术也获得空前发展。1969年，IBM研发出层次数据库系统；1970年，IBM的工程师提出了关系型数据库模型理论；进入80年代，各种基于关系模型的数据库系统应运而生。

基于关系模型的技术很快形成了数据库系统产品，以DB2、Oracle、Sybase、Informix、SQLServer等为代表商业数据库巨头相继诞生；以MySQL、PostgreSQL为代表的开源免费数据库更是进一步推动了数据库应用的空前繁荣。

2003年，Google发布《Google File System》论文。这是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。GFS运行于廉价的普通硬件上并提供容错功能，文件被分割成很多块，使用冗余的方式储存于商用机器集群上。

2004年，Google发布《Google MapReduce》论文。论文描述了大数据的分布式计算方式，主要思想是，将任务分解然后、在多台处理能力较弱的计算节点中同时处理，然后将结果合并从而完成大数据处理。

2006年，Google发布《Google Bigtable》论文。BigTable建立在GFS和 MapReduce之上，每个Table都是一个多维的稀疏图。Bigtable启发了无数的NoSQL数据库，包括Cassandra、HBase等等。

Google的三篇论文犹如三驾马车，开启了NoSQL和NewSQL的繁荣，奠定了大数据技术的理论基础，拉开了大数据时代的序幕。

21世纪以来，以MongoDB、Redis、HBase、Neo4J为代表开源NoSQL数据库相继出现并开始获得广泛应用；近年来，以CockroachDB、TiDB为代表的NewSQL应运而生。NoSQL和NewSQL的诞生和应用，为大数据的广泛应用提供了坚实基础。

何为大数据、有什么特点

以上我们简单回顾了计算机、数据库、大数据的历史，回到本文的正题大数据，首先要弄明白大数据究竟是什么。我们先看看全球最权威的几个定义。

高德纳咨询公司（甘特Gartner）给出的定义是：

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

顶级咨询公司麦肯锡（McKinsey）全球研究所给出的定义是：

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

维基百科（Wiki）给出的定义是：

在信息技术中，“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。

以上三家权威机构对大数据定义的出发点略有不同，但都突出了大数据的“大”和“难”两个关键特性。为什么大数据的定义中要特别强调“大”和“难”呢？

当然是时代发展的要求。近年来，随着各行业的飞速发展，各种系统运行的时间越来越长、搜集和积累的数据也越来越多，传统的数据库系统越来越难以支撑；进一步说，越来越多、越来越杂的数据，单机计算已经成为瓶颈，无论是存储和计算都撑不下去了，因此基于分布式的大数据系统开始崭露头角。

可以从以下几个方面认识大数据的特点：

1、容量巨大（Volume），大数据要求超大的空间存储，比如一般的大数据存储都达到或超越了TB、PB、ZB、YB级别。因此催生了分布式大数据存储。

2、种类繁多（Variety），大数据要存储的数据类型复杂，传统关系型数据库的二维表格无法满足，因此各类NoSQL和NewSQL相继诞生。

3、速度要快（Velocity），大数据处理要求高速度，在基于大量不规则数据的前提下，能够进行快速的检索和处理，所以一般的NoSQL和NewSQL都优先支持基于内存的存储和处理。

4、来源复杂（Complexity），大数据数量巨大，来源一般是多渠道的。比如可能来源于各种不同类型的数据库系统，这就需要有凌驾于多种数据库的协调处理技术。

5、变动频繁（Variability），大数据经常面临随时变动的要求，这妨碍了处理和有效地管理数据的过程。频繁的数据变动进一步催生了对速度的严苛要求。

6、真实可靠（Veracity），大数据不但繁杂，更要保证数据的质量和安全。这就催生了围绕数据校验和安全各类辅助系统和体系。

7、价值体现（value），大数据的价值体现，在于对数据进行深度的挖掘和分析。这才是大数据应用的终极目标。比如商家应用大数据、根据用户习惯分析用户的潜在购买需求等等。

为了满足大数据存储和处理需求，围绕大数据催生了大量相关技术的升级和支持，主要包括：调度与管理服务、内存技术、数据存储、机器学习、文件系统、数据处理、分析和报告工具、数据搜集、消息系统、查询引擎等。

初探神秘的大数据技术

前面我们提过，Google的三篇论文奠定了大数据的理论基础，显然，大数据的技术体系和系统支持的发展，也是围绕这三驾马车展开的。大数据是一套庞杂的应用体系，我们要从理论、技术和实践三个维度来认识大数据，如下图所示：

我们搞技术的，最关心的就是围绕大数据的各种具体技术。您千万不要认为您学会了使用一两种NoSQL或NewSQL数据库就已经掌握了大数据技术，差得远呢！为大数据应用提供服务的技术体系太庞杂了，数据库系统主要实现了存储部分，可看作是支撑大数据的数据仓库而已。

下图展示了常见的大数据技术方案的关系图，这里也仅仅是涉及到大数据技术的一部分而已，您不妨先记住几个常见的关键词：Apache、Hadoop、HDFS、MapReduce等。具体请参看下图：

本篇的介绍到此就要结束了，您可能觉得很不过瘾，没关系，这只是开启大数据技术的热身。如果您对大数据技术有兴趣，敬请您关注后续章节。

希望对您有所帮助！

还不了解大数据？那您就快要Out了！

大数据（big data）的前世今生

何为大数据、有什么特点

初探神秘的大数据技术

热门新闻

周热门

还不了解大数据？那您就快要Out了！

大数据（big data）的前世今生

何为大数据、有什么特点

初探神秘的大数据技术

既然Python的库能对大数据进行分析，那为何还要用Hadoop和Spark?

在古代为啥皇帝不把宗室扶持成外族首领?

隋朝短命杨广是不是因为得罪贵族？李唐能夺得天下是不是因为贵族选择了李唐？

清朝强制汉人剃发易服，为何没强制汉人学习满语？

如果历史上曹昂没死在宛城，并且在曹操去世后顺利接班，那么他还会像曹丕一样代汉自立吗？

汉朝为什么不娶匈奴公主？

欧洲是否存在真正的「皇帝」？

斯大林是好人还是坏人？

日本人二战后是否已经没有了血性？

如何评价2016年?

历史上中国最西边界到哪里？

想了解真实的民国、近代史， 推荐书？

为何文明最早发展于东方，但民主与法制却最先突出发展在西方（如希腊民主政治和罗马法体系）？

为什么「唐宋」这个词，听上去给人一种古典的感觉，而「明清」一词，却没有这种感觉？

汉宣帝之后为啥让匈奴和西域诸国送质子，娶公主这样不就更能增进汉朝和西域诸国以及匈奴关系？

热门新闻

周热门

想了解真实的民国、近代史，推荐书？