[玩转MySQL之十]InnoDB Buffer Pool详解

一、前言

MySQ InnoDB Buffer Pool，从字面意思理解就是:MySQL InnoDB缓冲池，既然是缓冲池，那么里面应该缓存著大量的数据，使CPU读取或者写入数据时，不直接和低速的磁碟打交道，直接和缓冲区进行交互，从而解决了因为磁碟性能慢导致的资料库性能差的问题，弥补了两者之间的速度差异。但小编就会有些疑问:

Innodb buffer pool有哪些需要提前了解的基础知识？
Innodb buffer pool中存的具体是什么内容？
Innodb bufferp pool中的数据是如何载入进去的？
InnoDB如何管理buffer pool的？
Innodb Buffer Pool 有哪些配置项？

二、基础知识

2.1 Buffer Pool Instance

Buffer Pool实例，大小等于innodb_buffer_pool_size/innodb_buffer_pool_instances，每个Buffer Pool Instance都有自己的锁，信号量，物理块(Buffer chunks)以及逻辑链表(List)。即各个instance之间没有竞争关系，可以并发读取与写入。所有instance的物理块(Buffer chunks)在资料库启动的时候被分配，直到资料库关闭内存才予以释放。每个Buffer Pool Instance有一个page hash链表，通过它，使用space_id和page_no就能快速找到已经被读入内存的数据页，而不用线性遍历LRU List去查找。注意这个hash表不是InnoDB的自适应哈希，自适应哈希是为了减少Btree的扫描，而page hash是为了避免扫描LRU List。

当innodb_buffer_pool_size小于1GB时候，innodb_buffer_pool_instances被重置为1，主要是防止有太多小的instance从而导致性能问题。

2.2 数据页

InnoDB中，数据管理的最小单位为页，默认是16KB，页中除了存储用户数据，还可以存储控制信息的数据。InnoDB IO子系统的读写最小单位也是页。

2.3 Buffer Chunks

包括两部分：数据页和数据页对应的控制体，控制体中有指针指向数据页。Buffer Chunks是最低层的物理块，在启动阶段从操作系统申请，直到资料库关闭才释放。通过遍历chunks可以访问几乎所有的数据页，有两种状态的数据页除外：没有被解压的压缩页(BUF_BLOCK_ZIP_PAGE)以及被修改过且解压页已经被驱逐的压缩页(BUF_BLOCK_ZIP_DIRTY)。此外数据页里面不一定都存的是用户数据，开始是控制信息，比如行锁，自适应哈希等。

2.4 逻辑链表

链表节点是数据页的控制体(控制体中有指针指向真正的数据页)，链表中的所有节点都有同一的属性，引入其的目的是方便管理。Innodb Buffer Pool 相关的链表有:

2.4.1 Free List

其上的节点都是未被使用的节点，如果需要从资料库中分配新的数据页，直接从上获取即可。InnoDB需要保证Free List有足够的节点，提供给用户线程用，否则需要从FLU List或者LRU List淘汰一定的节点。InnoDB初始化后，Buffer Chunks中的所有数据页都被加入到Free List，表示所有节点都可用。

2.4.2 LRU List

近期最少使用链表(Least Recently Used)，这个是InnoDB中最重要的链表。所有新读取进来的数据页都被放在上面。链表按照最近最少使用演算法排序，最近最少使用的节点被放在链表末尾，如果Free List里面没有节点了，就会从中淘汰末尾的节点。LRU List还包含没有被解压的压缩页，这些压缩页刚从磁碟读取出来，还没来得及被解压。LRU List被分为两部分，默认前5/8为young list，存储经常被使用的热点page，后3/8为old list。新读入的page默认被加在old list头，只有满足一定条件后，才被移到young list上，主要是为了预读的数据页和全表扫描污染buffer pool。

2.4.3 FLU List

这个链表中的所有节点都是脏页，也就是说这些数据页都被修改过，但是还没来得及被刷新到磁碟上。在FLU List上的页面一定在LRU List上，但是反之则不成立。一个数据页可能会在不同的时刻被修改多次，在数据页上记录了最老(也就是第一次)的一次修改的lsn，即oldest_modification。不同数据页有不同的oldest_modification，FLU List中的节点按照oldest_modification排序，链表尾是最小的，也就是最早被修改的数据页，当需要从FLU List中淘汰页面时候，从链表尾部开始淘汰。加入FLU List，需要使用flush_list_mutex保护，所以能保证FLU List中节点的顺序。

2.4.4 Unzip LRU List

这个链表中存储的数据页都是解压页，也就是说，这个数据页是从一个压缩页通过解压而来的。

2.4.5 Zip Clean List

这个链表只在Debug模式下有，主要是存储没有被解压的压缩页。这些压缩页刚刚从磁碟读取出来，还没来的及被解压，一旦被解压后，就从此链表中删除，然后加入到Unzip LRU List中。

2.4.6 Zip Free

压缩页有不同的大小，比如8K，4K，InnoDB使用了类似内存管理的伙伴系统来管理压缩页。Zip Free可以理解为由5个链表构成的一个二维数组，每个链表分别存储了对应大小的内存碎片，例如8K的链表里存储的都是8K的碎片，如果新读入一个8K的页面，首先从这个链表中查找，如果有则直接返回，如果没有则从16K的链表中分裂出两个8K的块，一个被使用，另外一个放入8K链表中。

2.6 Frame

帧，16K的虚拟地址空间，在缓冲池的管理上，整个缓冲区是是以大小为16k的frame(可以理解为数据块)为单位来进行的，frame是innodb中页的大小。

2.7 Page

页，16K的物理内存， page上存的是需要保存到磁碟上的数据，这些数据可能是数据记录信息，也可以是索引信息或其他的元数据等；

2.8 Control Block

控制块，对于每个frame, 对应一个block， block上的信息是专门用于进行frame控制的管理信息，但是这些信息不需要记录到磁碟，而是根据读入数据块在内存中的状态动态生成的，主要包括：

1. 页面管理的普通信息，互斥锁，页面的状态等
2. 脏回写(flush)管理信息
3. lru控制信息
4. 快速查找的管理信息，为了便于快速的超找某一个block或frame，缓冲区里面的block被组织到一些hash表中; 缓冲区中的block数量是一定的， innodb缓冲区对所管理的block用lru(last recently used)策略进行替换。

2.9 Buffer Pool分配方式

MySQL使用mmap分配Buffer Pool，但是都是虚存，在top命令中占用VIRT这一列，而不是RES这一列，只有相应的内存被真正使用到了，才会被统计到RES中，从而提高内存使用率。这就是为什么常常看到MySQL一启动就被分配了很多的VIRT，而RES却是慢慢涨上来的原因。这里大家可能有个疑问，为啥不用malloc。其实查阅malloc文档，可以发现，当请求的内存数量大于MMAP_THRESHOLD(默认为128KB)时候，malloc底层就是调用了mmap。在InnoDB中，默认使用mmap来分配。分配完了内存，buf_chunk_init函数中，把这片内存划分为两个部分，前一部分是数据页控制体(buf_block_t)，后一部分是真正的数据页，按照UNIV_PAGE_SIZE分隔。假设page大小为16KB，则数据页控制体占的内存:数据页约等于1:38.6，也就是说如果innodb_buffer_pool_size被配置为40G，则需要额外的1G多空间来存数据页的控制体。划分完空间后，遍历数据页控制体，设置buf_block_t::frame指针，指向真正的数据页，然后把这些数据页加入到Free List中即可。初始化完Buffer Chunks的内存，还需要初始化BUF_BLOCK_POOL_WATCH类型的数据页控制块，page hash的结构体，zip hash的结构体(所有被压缩页的伙伴系统分配走的数据页面会加入到这个哈希表中)。注意这些内存是额外分配的，不包含在Buffer Chunks中。

2.10 互斥访问

缓冲池的整个缓冲区一个数据结构buf_pool进行管理和控制，一个专门的mutex保护著，这个mutex是用来保护buf_pool这个控制结构中的数据域的，并不保护缓冲区中的数据frame以及用于管理的block, 缓冲区里block或者frame中的访问是由专门的读写锁来保护的，每个block/frame一个。在5.1以前，每个block是没专门的mutex保护的，如果需要进行互斥保护，直接使用缓冲区的mutex, 结果导致很高的争用； 5.1以后，每个block一个mutex对其进行保护，从而在很大程度上解缓了对buf_pool的mutex的争用。

三、 Buffer Pool 存储内容

BUffer Pool中缓存的数据页类型有: 索引页、数据页、undo页、插入缓冲（insert buffer)、自适应哈希索引（adaptive hash index)、InnoDB存储的锁信息（lock info)、数据字典信息（data dictionary)等。

四、Buffer Pool 数据载入

4.1 Buffer Pool预热

MySQL在重启后，Buffer Pool里面没有什么数据，这个时候业务上对资料库的数据操作，MySQL就只能从磁碟中读取数据到内存中，这个过程可能需要很久才能是内存中的数据是业务频繁使用的。Buffer Pool中数据从无到业务频繁使用热数据的过程称之为预热。所以在预热这个过程中，MySQL资料库的性能不会特别好，并且Buffer Pool越大，预热过程越长。

为了减短这个预热过程，在MySQL关闭前，把Buffer Pool中的页面信息保存到磁碟，等到MySQL启动时，再根据之前保存的信息把磁碟中的数据载入到Buffer Pool中即可。

4.1.1 Buffer Pool Dump

遍历所有Buffer Pool Instance的LRU List，对于其中的每个数据页，按照space_id和page_no组成一个64位的数字，写到外部文件中

4.1.2 Buffer Pool Load

读取指定的外部文件，把所有的数据读入内存后，使用归并排序对数据排序，以64个数据页为单位进行IO合并，然后发起一次真正的读取操作。排序的作用就是便于IO合并。

4.2 预读机制

InnoDB在I/O的优化上有个比较重要的特性为预读，预读请求是一个i/o请求，它会非同步地在缓冲池中预先回迁多个页面，预计很快就会需要这些页面，这些请求在一个范围内引入所有页面。InnoDB以64个page为一个extent，那么InnoDB的预读是以page为单位还是以extent？

[玩转MySQL之十]InnoDB Buffer Pool详解

一、前言

二、基础知识

2.1 Buffer Pool Instance

2.2 数据页

2.3 Buffer Chunks

2.4 逻辑链表

2.4.1 Free List

2.4.2 LRU List

2.4.3 FLU List

2.4.4 Unzip LRU List

2.4.5 Zip Clean List

2.4.6 Zip Free

2.6 Frame

2.7 Page

2.8 Control Block

2.9 Buffer Pool分配方式

2.10 互斥访问

三、 Buffer Pool 存储内容

四、Buffer Pool 数据载入

4.1 Buffer Pool预热

4.1.1 Buffer Pool Dump

4.1.2 Buffer Pool Load

4.2 预读机制

4.2.1 线性预读（linear read-ahead）

4.2.2 随机预读（randomread-ahead）

4.2.3 监控Innodb的预读

五、Innodb 如何管理Buffer Pool

5.1 Buffer Pool的工作机制

5.2 LRU（least recently used）

5.3 数据页访问机制

5.4 缓冲池刷新策略

5.4.1 如何根据脏页百分比来计算innodb_io_capacity百分比？

5.4.2 如何根据重做日志活跃日志量来计算innodb_io_capacity百分比？

5.4.3 如何计算每个buffer pool instance需要刷新的页面？

5.4.4 生成最终刷新建议后的刷新逻辑？

六、Buffer Pool 状态查询

七、InnoDB Buffer Pool配置项

八、配置InnoDB缓冲池案例

8.1 配置InnoDB缓冲池大小

8.1.1 在线配置InnoDB缓冲池大小

8.1.2 监控在线缓冲池调整大小进度

8.2 离线配置InnoDB缓冲池块（chunk）大小

8.3 配置多个缓冲池实例

8.4 配置InnoDB缓冲池预读

8.4.1 线性预读（linear read-ahead）

8.4.2 随机预读（randomread-ahead）

8.5 配置InnoDB缓冲池刷新

8.6 保存和恢复缓冲池状态

8.6.1 在关闭时保存缓冲池状态并在启动时恢复缓冲池状态

8.6.2 配置缓冲池页面保存的百分比

8.6.3 在线保存和恢复缓冲池状态

8.6.4 显示缓冲池保存和载入进度

参考文献

请问怎么用php mysql 制作一张网页？

mysql 导入 很大的 CSV ?

workbench 无法执行命令？

mysql百万级表在不停机的情况下增加一个栏位要怎么处理的？

怎么实现一个简单的资料库系统？

sql资料库中什么情况该加索引index？

条件：mysql中多个表的栏位完全相同 需求：在增/删/改栏位时，同时修改这多个表？请问相关工具和办法

为了解决OLTP，希望做分散式，支持分词，应该如何选资料库？PostgreSQL 与 MySQL ？

PHP不能直接调用mysql吗？需要安装gd库才能调用？

怎样实现资料库里的年龄可以随著时间增加而增长（用MySQL）？

为什么elasticsearch很适合日志系统？在日志方面相比与mysql的优势是什么？

SQL Server与Mysql，如何选择？

刚学习mysql就进行不下去了，能帮我看一下什么问题吗？

MySQL 用于产品环境，应该如何选用版本？

mysql冗余设计?

热门新闻

周热门

mysql 导入很大的 CSV ?

条件：mysql中多个表的栏位完全相同需求：在增/删/改栏位时，同时修改这多个表？请问相关工具和办法