资料库技术已经经历了30多年的发展,不同的资料库系统被设计用于不同规模的数据集和应用。传统的关系资料库系统难以解决大数据带来的多样性和规模的需求。由于具有模式自由、易于复制、提供简单API、最终一致性和支持海量数据的特性,NoSQL资料库逐渐成为处理大数据的标准。随后将根据数据模型的不同,讨论三种主流的NoSQL资料库:键值(key-value)存储资料库、列式存储资料库和文档存储资料库。
键值存储是一种简单的数据存储模型,数据以键值对的形式储存,键是唯一的。近年出现的键值存储资料库受到Amazon公司的Dynamo影响特别大。在Dynamo中,数据被分割存储在不同的伺服器集群中,并复制为多个副本。可扩展性和持久性依赖于以下两个关键机制。