数据库之行列存储简介

前言

数据库之所以有行存和列存之分，主要是为了满足不同的使用场景。我们常见的Oracle、MySQL等主流关系型数据库都是以行存为主，适合OLTP的应用，涉及事务处理、增删改查等操作。随着大数据的发展，新兴的Vertica、Greenplum、MonetDB、C-Store等数据库支持列式存储，适合OLAP的应用，涉及海量数据的分析操作。甚至业界一些数据库为了同时支持OLTP和OLAP的能力，采用行列混合存储的模式，来兼容这两种应用场景。因此，数据库采用不同的数据存储布局，决定了它本身对外支持的特性，用户据此并结合业务场景来选择合适的数据库产品。下面，本文将主要针对行列存储的概念、组织形式、优缺点进行简要介绍。

基本概念

在基于行式存储的（row-based storage）数据库中，数据是按照行的逻辑存储单元进行存储的，一个整行的数据在存储介质中以连续形式存在。如下图所示：

在基于列式存储的（column-based storage）数据库中，数据是按照列的逻辑存储单元进行存储的，一个整列的数据在存储介质中以连续形式存在。如下图所示：

以上描述的是行列存储的逻辑结构，具体物理层面的数据布局，要看各数据库支持行或列物理存储的具体实现。

优缺点分析

行式存储可以将一行数据一次性写入，保证数据的完整性。在读取过程中，根据条件进行精确查询时，可以一次性读取整行数据返回。但针对按列统计分析时，如果涉及的数据量大，读取整行时会存在大量冗余列，占用系统资源高，影响读取性能。

列式存储由于是按照列来存储，每列都有各自的数据类型，同一个类型的数据放在一起存储，方便做对应的编码压缩（比如行程编码、字典编码），极大地节省存储空间和传输带宽，同时也降低了按列分析的IO操作。但是，按列拆开存储，数据的完整性和写入效率也会不如行式存储，同时针对精确查询并且返回大部分列时也会产生大量IO。

适用场景

根据行存的特性，比较适用于OLTP的应用场景，比如小数据量的事务型增删改查操作。然而，为了应对海量数据的存储和计算，传统的OLTP数据库并不能满足。因此，列存的特性适用于海量日志型数据的分析查询，可以用一张成百上千个列的宽表来存储分析这些数据，各列独自存储，也提高了并发读取的性能。

总结

以上介绍了行式存储和列式存储的基本概念、组织方式、各自的优缺点以及应用场景。可以看出，列存相对于行存，在存储压缩、按列分析、降低IO等方面存在优势，但在精确查询返回大部分列时存在不足。因此，在一些分析型数据库存储引擎中引入了行列混合存储的概念，来兼顾OLAP式查询和精确查询的两种场景，这个后续再做介绍。

参考资料

Abadi D J , Madden S R , Hachem N . Column-stores vs. row-stores: How different are they really?[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, BC, Canada, June 10-12, 2008. ACM, 2008.
https://www.the-paper-trail.org/post/2013-01-30-columnar-storage/
C. Zhan, M. Su, C. Wei, X. Peng, L. Lin, S. Wang, Z. Chen, F. Li, Y. Pan, F. Zheng, C. Chai, AnalyticDB: Real-time OLAP Database System at Alibaba Cloud, VLDB 2019.