NoSQL数据库的四大类型

一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。它们的数据模型、优缺点、典型应用场景如下表所示。

分类 数据模型 优点 缺点 典型应用场景
键值(Key-Value)存储数据库 Key指向Value的键值对,通常用hash表来实现 查找速度快 数据无结构化(通常只被当作字符串或者二进制数据) 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等
列存储数据库 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 分布式的文件系统
文档型数据库 Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变(不需要像关系型数据库一样需预先定义表结构) 查询性能不高,而且缺乏统一的查询语法 Web应用
图形(Graph)数据库 图结构 利用图结构相关算法(如最短路径寻址,N度关系查找等) 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案 社交网络,推荐系统等

1、键值(Key-Value)存储数据库

这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.

Redis

最佳应用场景:适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序。
例如:股票价格、数据分析、实时数据搜集、实时通讯。

2、列存储数据库

这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.

HBase

最佳应用场景:适用于偏好BigTable并且需要对大数据进行随机、实时访问的场合。
例如: Facebook消息数据库

Cassandra

最佳应用场景:当使用写操作多过读操作(记录日志)时
例如:银行业,金融业(要求写比读更快)

Riak

最佳应用场景:适用于想使用类似 Cassandra(类似Dynamo)数据库但无法处理 bloat及复杂性的情况。适用于你打算做多站点复制,但又需要对单个站点的扩展性,可用性及出错处理有要求的情况。
例如:销售数据搜集,工厂控制系统;对宕机时间有严格要求;可以作为易于更新的 web服务器使用。

3、文档型数据库

文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb。国内也有文档型数据库SequoiaDB,已经开源。

CouchDB

最佳应用场景:适用于数据变化较少,执行预定义查询,进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。
例如: CRM、CMS系统

MongoDB

最佳应用场景:适用于需要动态查询支持;需要使用索引而不是 map/reduce功能;需要对大数据库有性能要求;需要使用 CouchDB但因为数据改变太频繁而占满内存的应用程序。

4、图形(Graph)数据库

图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J,InfoGrid,OrientDB,HypherGraphDB,GraphBase,InfiniteGraph,AllegroGraph。

Neo4j

最佳应用场景:适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显著区别
例如:社会关系,公共交通网络,地图及网络拓谱

附:常见的NoSQL数据库

分类 实例
键值(Key-Value)存储数据库 *  Riak:一个开源、分布式键值数据库,支持数据复制和容错
*  Redis:一个开源的键值存储数据库,支持主从式复制、事务,Pub/Sub、Lua脚本,还支持给Key添加时限
*  Dynamo:一个键值分布式存储数据库,直接由亚马逊Dynamo数据库实现
*  Oracle NoSQL Database:来自Oracle的键值NoSQL数据库,支持事务ACID和JSON
*  Oracle NoSQL Database:具备数据备份和分布式键值存储系统
*  Voldemort:具备数据备份和分布式键值存储系统
*  Aerospike:一个键值存储数据库,支持混合内存架构,通过强一致性和可调一致性保证数据的完整性
列存储数据库 *  Cassandra:支持跨数据中心的数据复制,提供列索引
*  HBase:一个开源、分布式、面向列存储的模型
*  Amazon SimpleDB:一个非关系型数据存储
*  Apache Accumulo:有序的、分布式键值数据存储,基于Google的BigTable设计
*  Hypertable:一个开源、可扩展的数据库,模仿Bigtable,支持分片
*  Azure Tables:为要求大量非结构化数据存储的应用提供NoSQL性能
文档型数据库 *  MongoDB:开源、面向文档
*  CounchDB:一个使用JSON的文档数据库,使用Javascript做MapReduce查询,也是一个使用HTTP的API
*  Couchbase:基于JSON模型
*  RavenDB:一个基于.net语言的面向文档数据库
*  MarkLogic:用来存储基于XML和以文档为中心的信息,支持灵活的模式
图形(Graph)数据库 *  Neo4j:一个图数据库,支持ACID事务
*  InfiniteGraph:用来维持和遍历对象间的关系,支持分布式数据存储
*  AllegroGraph:结合使用了内存和磁盘,提供了高可扩展性,支持SPARQ、RDFS++和Prolog推理