深入MySQL存儲引擎分析鎖和排序的原理

幾個問題

為什麼不建議使用訂單號作為主鍵?
為什麼要在需要排序的欄位上加索引?
for update 的記錄不存在會導致鎖住全表?
redolog 和 binlog 有什麼區別?
MySQL 如何回滾一條 sql ?
char(50) 和 varchar(50) 效果是一樣的么?

索引知識回顧

對於 MySQL 資料庫而言,數據是存儲在文件里的，而為了能夠快速定位到某張表裡的某條記錄進行查詢和修改,我們需要將這些數據以一定的數據結構進行存儲，這個數據結構就是我們說的索引。回憶一下我們大學裡學過的演算法與數據結構，能夠支持快速查找的數據結構有：順序數組、哈希、搜索樹。

數組要求 insert 的時候保證有序，這樣查找的時候可以利用二分查找法達到 O(log(N)) 的時間複雜度，對範圍查詢支持也很好，但是 insert 的時候如果不是在數組尾部，就需要摞動後面所有的數據，時間複雜度為O(N)。所以有序數組只適合存儲靜態數據，例如幾乎很少變動的配置數據，或者是歷史數據。這裡應該會有人有疑問：我用另外一種線性數據結構鏈表來替代數組不就可以解決數組因為要移動數據導致太慢的問題了么，要回答這個問題我們需要了解操作系統讀取文件的流程，磁碟 IO 是一個相對很慢的操作，為了提高讀取速度，我們應該盡量減少磁碟 IO 操作，而操作系統一般以 4kb 為一個數據頁讀取數據，而 MySQL 一般為 16kb 作為一個數據塊，已經讀取的數據塊會在內存進行緩存，如果多次數據讀取在同一個數據塊，則只需要一次磁碟 IO ，而如果順序一致的記錄在文件中也是順序存儲的，就可以一次讀取多個數據塊，這樣範圍查詢的速度也可以大大提升，顯然鏈表沒有這方面的優勢。

類似於 jdk 中的 hashmap，哈希表通過一個特定的哈希函數將 key 值轉換為一個固定的地址，然後將對應的 value 放到這個位置，如果發生哈希碰撞就在這個位置拉出一個鏈表，由於哈希函數的離散特性，所以經過哈希函數處理後的 key 將失去原有的順序，所以哈希結構的索引無法滿足範圍查詢，只適合等值查詢的情況例如一些緩存的場景。

二叉樹在極端情況下會變成線性結構，也就是每個節點都只有左子節點或者只有右子節點，這樣就無法利用二分查找只能從第一個節點開始向後遍歷了，所以為了維持 O(log(N)) 的時間複雜度，我們需要在插入節點的時候對節點進行調整以保證樹的平衡，所以平衡二叉樹插入的時間複雜度也是 O(log(N))，二叉樹只有兩個子節點，如果數據量很大則樹就很高，樹的每一層一般不在同一個數據塊中存儲，為了盡量的減少磁碟讀寫次數，我們用Ｎ叉樹來代替二叉樹，在 MySQL 中這個 N 一般為 1200，這樣樹高是 4 的話也可以存儲億級別的數據，而且樹的前面兩層一般都在內存中，MySQL 中用到的 B+ 樹，一般用非葉子節點構建索引，而葉子節點用來存儲具體的值。