0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MYSQL事務(wù)的底層原理詳解

OSC開源社區(qū) ? 來源:OSCHINA 社區(qū) ? 2023-11-15 10:10 ? 次閱讀

作者:京東云開發(fā)者-京東物流張士欣

事務(wù)的底層原理

在事務(wù)的實現(xiàn)機制上,MySQL 采用的是 WAL:Write-ahead logging,預(yù)寫式日志,機制來實現(xiàn)的。

在使用 WAL 的系統(tǒng)中,所有的修改都先被寫入到日志中,然后再被應(yīng)用到系統(tǒng)中。通常包含 redo 和 undo 兩部分信息。

為什么需要使用 WAL,然后包含 redo 和 undo 信息呢?舉個例子,如果一個系統(tǒng)直接將變更應(yīng)用到系統(tǒng)狀態(tài)中,那么在機器掉電重啟之后系統(tǒng)需要知道操作是成功了,還是只有部分成功或者是失敗了。如果使用了 WAL,那么在重啟之后系統(tǒng)可以通過比較日志和系統(tǒng)狀態(tài)來決定是繼續(xù)完成操作還是撤銷操作。

redo log 稱為重做日志,每當有操作時,在數(shù)據(jù)變更之前將操作寫入 redo log,這樣當發(fā)生掉電之類的情況時系統(tǒng)可以在重啟后繼續(xù)操作。

undo log 稱為撤銷日志,當一些變更執(zhí)行到一半無法完成時,可以根據(jù)撤銷日志恢復到變更之間的狀態(tài)。

MySQL 中用 redo log 來在系統(tǒng) Crash 重啟之類的情況時修復數(shù)據(jù),而 undo log 來保證事務(wù)的原子性。

事務(wù) id

一個事務(wù)可以是一個只讀事務(wù),或者是一個讀寫事務(wù):可以通過 START TRANSACTION READ ONLY 語句開啟一個只讀事務(wù)。

在只讀事務(wù)中不可以對普通的表進行增、刪、改操作,但可以對用戶臨時表做增、刪、改操作。

可以通過 START TRANSACTION READ WRITE 語句開啟一個讀寫事務(wù),或者使用 BEGIN、START TRANSACTION 語句開啟的事務(wù)默認也算是讀寫事務(wù)。

在讀寫事務(wù)中可以對表執(zhí)行增刪改查操作。

如果某個事務(wù)執(zhí)行過程中對某個表執(zhí)行了增、刪、改操作,那么 InnoDB 存儲引擎就會給它分配一個獨一無二的事務(wù) id,針對 MySQL 5.7 分配方式如下:

對于只讀事務(wù)來說,只有在它第一次對某個用戶創(chuàng)建的臨時表執(zhí)行增、刪、改操作時才會為這個事務(wù)分配一個事務(wù) id,否則的話是不分配事務(wù) id 的。

對于讀寫事務(wù)來說,只有在它第一次對某個表執(zhí)行增、刪、改操作時才會為這個事務(wù)分配一個事務(wù) id,否則的話也是不分配事務(wù) id 的。

有的時候雖然開啟了一個讀寫事務(wù),但是在這個事務(wù)中全是查詢語句,并沒有執(zhí)行增、刪、改的語句,那也就意味著這個事務(wù)并不會被分配一個事務(wù) id。

這個事務(wù) id 本質(zhì)上就是一個數(shù)字,它的分配策略和隱藏列 row_id 的分配策略大抵相同,具體策略如下:

服務(wù)器會在內(nèi)存中維護一個全局變量,每當需要為某個事務(wù)分配一個事務(wù) id 時,就會把該變量的值當作事務(wù) id 分配給該事務(wù),并且把該變量自增 1。

每當這個變量的值為 256 的倍數(shù)時,就會將該變量的值刷新到系統(tǒng)表空間的頁號為 5 的頁面中一個稱之為 Max Trx ID 的屬性處,這個屬性占用 8 個字節(jié)的存 儲空間。

當系統(tǒng)下一次重新啟動時,會將上邊提到的 Max Trx ID 屬性加載到內(nèi)存中,將該值加上 256 之后賦值給全局變量,因為在上次關(guān)機時該全局變量的值可能大于 Max Trx ID 屬性值。

這樣就可以保證整個系統(tǒng)中分配的事務(wù) id 值是一個遞增的數(shù)字。先被分配 id 的事務(wù)得到的是較小的事務(wù) id,后被分配 id 的事務(wù)得到的是較大的事務(wù) id。

mvcc

全稱 Multi-Version Concurrency Control,即多版本并發(fā)控制,主要是為了提高數(shù)據(jù)庫的并發(fā)性能。

同一行數(shù)據(jù)平時發(fā)生讀寫請求時,會上鎖阻塞住。但 MVCC 用更好的方式去處理讀寫請求,做到在發(fā)生讀寫請求沖突時不用加鎖。

這個讀是指的快照讀,而不是當前讀,當前讀是一種加鎖操作,是悲觀鎖。

MVCC 原理

在事務(wù)并發(fā)執(zhí)行遇到的問題如下:

臟讀:如果一個事務(wù)讀到了另一個未提交事務(wù)修改過的數(shù)據(jù),那就意味著發(fā)生了臟讀;

不可重復讀:如果一個事務(wù)只能讀到另一個已經(jīng)提交的事務(wù)修改過的數(shù)據(jù),并且其他事務(wù)每對該數(shù)據(jù)進行一次修改并提交后,該事務(wù)都能查詢得到最新值,那就意味著發(fā)生了不可重復讀;

幻讀:如果一個事務(wù)先根據(jù)某些條件查詢出一些記錄,之后另一個事務(wù)又向表中插入了符合這些條件的記錄,原先的事務(wù)再次按照該條件查詢時,能把另一個事務(wù)插入的記錄也讀出來,那就意味著發(fā)生了幻讀,幻讀強調(diào)的是一個事務(wù)按照某個相同條件多次讀取記錄時,后讀取時讀到了之前沒有讀到的記錄,幻讀只是重點強調(diào)了讀取到了之前讀取沒有獲取到的記錄。

MySQL 在 REPEATABLE READ 隔離級別下,是可以很大程度避免幻讀問題的發(fā)生的。

版本鏈

對于使用 InnoDB 存儲引擎的表來說,它的聚簇索引記錄中都包含兩個必要的隱藏列:

trx_id:每次一個事務(wù)對某條聚簇索引記錄進行改動時,都會把該事務(wù)的事務(wù) id 賦值給 trx_id 隱藏列;

roll_pointer:每次對某條聚簇索引記錄進行改動時,都會把舊的版本寫入到 undo 日志中,然后這個隱藏列就相當于一個指針,可以通過它來找到該記錄修 改前的信息;

演示

-- 創(chuàng)建表
CREATETABLE mvcc_test (
id INT,
name VARCHAR(100),
domain varchar(100),
PRIMARYKEY(id)
)Engine=InnoDBCHARSET=utf8;

-- 添加數(shù)據(jù)
INSERTINTO mvcc_test VALUES(1,'habit','演示mvcc');
假設(shè)插入該記錄的事務(wù) id=50,那么該條記錄的展示如圖: eb7a2822-82e1-11ee-939d-92fbcf53809c.png ?假設(shè)之后兩個事務(wù) id 分別為 70、90 的事務(wù)對這條記錄進行 UPDATE 操作。

trx_id=70 trx_id=90
begin
begin
update mvcc_test set name='habit_trx_id_70_01' where id=1
update mvcc_test set name='habit_trx_id_70_02' where id=1
commit
update mvcc_test set name='habit_trx_id_90_01' where id=1
update mvcc_test set name='habit_trx_id_90_02' where id=1
commit

每次對記錄進行改動,都會記錄一條 undo 日志,每條 undo 日志也都有一個 roll_pointer 屬性,可以將這些 undo 日志都連起來,串成一個鏈表。

eb8cda6c-82e1-11ee-939d-92fbcf53809c.png

對該記錄每次更新后,都會將舊值放到一條 undo 日志中,就算是該記錄的一個舊版本,隨著更新次數(shù)的增多,所有的版本都會被 roll_pointer 屬性連接成一個鏈表,把這個鏈表稱之為版本鏈,版本鏈的頭節(jié)點就是當前記錄最新的值。另外,每個版本中還包含生成該版本時對應(yīng)的事務(wù) id。于是可以利用這個記錄的版本鏈來控制并發(fā)事務(wù)訪問相同記錄的行為,那么這種機制就被稱之為:多版本并發(fā)控制,即 MVCC。

ReadView

對于使用 READ UNCOMMITTED 隔離級別的事務(wù)來說,由于可以讀到未提交事務(wù)修改過的記錄,所以直接讀取記錄的最新版本就好了。 對于使用 SERIALIZABLE 隔離級別的事務(wù)來說,InnoDB 使用加鎖的方式來訪問記錄。 對于使用 READ COMMITTED 和 REPEATABLE READ 隔離級別的事務(wù)來說,都必須保證讀到已經(jīng)提交了的事務(wù)修改過的記錄,也就是說假如另一個事務(wù)已經(jīng)修改了記錄但是尚未提交,是不能直接讀取最新版本的記錄的,核心問題就是:READ COMMITTED 和 REPEATABLE READ 隔離級別在不可重復讀和幻讀上的區(qū)別是從哪里來的,其實結(jié)合前面的知識,這兩種隔離級別關(guān)鍵是需要判斷一下版本鏈中的哪個版本是當前事務(wù)可見的。 為此,InnoDB 提出了一個 ReadView 的概念,這個 ReadView 中主要包含 4 個比較重要的內(nèi)容:

m_ids:表示在生成 ReadView 時當前系統(tǒng)中活躍的讀寫事務(wù)的事務(wù) id 列表;

min_trx_id:表示在生成 ReadView 時當前系統(tǒng)中活躍的讀寫事務(wù)中最小的事務(wù) id,也就是 m_ids 中的最小值;

max_trx_id:表示在生成 ReadView 時系統(tǒng)中應(yīng)該分配給下一個事務(wù)的 id 值,注:max_trx_id 并不是 m_ids 中的最大值,事務(wù) id 是遞增分配的。比方說現(xiàn)在有 id 為 1,2,3 這三個事務(wù),之后 id 為 3 的事務(wù)提交了。那么一個新的讀事務(wù)在生成 ReadView 時,m_ids 就包括 1 和 2,min_trx_id 的值就是 1,max_trx_id 的值就是 4;

creator_trx_id:表示生成該 ReadView 的事務(wù)的事務(wù) id;

有了這個 ReadView,這樣在訪問某條記錄時,只需要按照下邊的步驟判斷記錄的某個版本是否可見:

如果被訪問版本的 trx_id 屬性值與 ReadView 中的 creator_trx_id 值相同,意味著當前事務(wù)在訪問它自己修改過的記錄,所以該版本可以被當前事務(wù)訪問;

如果被訪問版本的 trx_id 屬性值小于 ReadView 中的 min_trx_id 值,表明生成該版本的事務(wù)在當前事務(wù)生成 ReadView 前已經(jīng)提交,所以該版本可以被當前事務(wù)訪問;

如果被訪問版本的 trx_id 屬性值大于或等于 ReadView 中的 max_trx_id 值,表明生成該版本的事務(wù)在當前事務(wù)生成 ReadView 后才開啟,所以該版本不可以被當前事務(wù)訪問;

如果被訪問版本的 trx_id 屬性值在 ReadView 的 min_trx_id 和 max_trx_id 之間 min_trx_id < trx_id < max_trx_id,那就需要判斷一下 trx_id 屬性值是不是在 m_ids 列表中,如果在,說明創(chuàng)建 ReadView 時生成該版本的事務(wù)還是活躍的,該版本不可以被訪問;如果不在,說明創(chuàng)建 ReadView 時生成該版本的事務(wù)已經(jīng)被提交,該版本可以被訪問;

如果某個版本的數(shù)據(jù)對當前事務(wù)不可見的話,那就順著版本鏈找到下一個版本的數(shù)據(jù),繼續(xù)按照上邊的步驟判斷可見性,依此類推,直到版本鏈中的最后一個版本。如果最后一個版本也不可見的話,那么就意味著該條記錄對該事務(wù)完全不可見,查詢結(jié)果就不包含該記錄;

在 MySQL 中,READ COMMITTED 和 REPEATABLE READ 隔離級別的一個非常大的區(qū)別就是它們生成 ReadView 的時機不同。 還是以表 mvcc_test 為例,假設(shè)現(xiàn)在表 mvcc_test 中只有一條由事務(wù) id 為 50 的事務(wù)插入的一條記錄,接下來看一下 READ COMMITTED 和 REPEATABLE READ 所謂的生成 ReadView 的時機不同到底不同在哪里。 READ COMMITTED:每次讀取數(shù)據(jù)前都生成一個 ReadView; 比方說現(xiàn)在系統(tǒng)里有兩個事務(wù) id 分別為 70、90 的事務(wù)在執(zhí)行:

-- T 70
UPDATE mvcc_test SET name ='habit_trx_id_70_01'WHERE id =1;
UPDATE mvcc_test SET name ='habit_trx_id_70_02'WHERE id =1;
此時表 mvcc_test 中 id 為 1 的記錄得到的版本鏈表如下所示: eba381d6-82e1-11ee-939d-92fbcf53809c.png 假設(shè)現(xiàn)在有一個使用 READ COMMITTED 隔離級別的事務(wù)開始執(zhí)行:
-- 使用 READ COMMITTED 隔離級別的事務(wù)
BEGIN;
-- SELECE1:Transaction 70、90 未提交
SELECT*FROM mvcc_test WHERE id =1; 
-- 得到的列 name 的值為'habit'
這個 SELECE1 的執(zhí)行過程如下: 在執(zhí)行 SELECT 語句時會先生成一個 ReadView,ReadView 的 m_ids 列表的內(nèi)容就是 [70, 90],min_trx_id 為 70,max_trx_id 為 91,creator_trx_id 為 0。 然后從版本鏈中挑選可見的記錄,從圖中可以看出,最新版本的列 name 的內(nèi)容是 habit_trx_id_70_02,該版本的 trx_id 值為 70,在 m_ids 列表內(nèi),所以不符合可見性要求第 4 條:如果被訪問版本的 trx_id 屬性值在 ReadView 的 min_trx_id 和 max_trx_id之間 min_trx_id < trx_id < max_trx_id,那就需要判斷一下trx_id 屬性值是不是在 m_ids 列表中,如果在,說明創(chuàng)建 ReadView 時生成該版本的事務(wù)還是活躍的,該版本不可以被訪問;如果不在,說明創(chuàng)建 ReadView 時生成該版本的事務(wù)已經(jīng)被提交,該版本可以被訪問。根據(jù) roll_pointer 跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_70_01,該版本的 trx_id 值也為 70,也在 m_ids 列表內(nèi),所以也不符合要求,繼續(xù)跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit,該版本的 trx_id 值為 50,小于 ReadView 中的 min_trx_id 值,所以這個版本是符合要求的第 2 條:如果被訪問版本的 trx_id 屬性值小于 ReadView 中的 min_trx_id 值,表明生成該版本的事務(wù)在當前事務(wù)生成 ReadView 前已經(jīng)提交,所以該版本可以被當前事務(wù)訪問。最后返回的版本就是這條列 name 為 habit 的記錄。 之后,把事務(wù) id 為 70 的事務(wù)提交一下,然后再到事務(wù) id 為 90 的事務(wù)中更新一下表 mvcc_test 中 id 為 1 的記錄:
-- T 90
UPDATE mvcc_test SET name ='habit_trx_id_90_01'WHERE id =1;
UPDATE mvcc_test SET name ='habit_trx_id_90_02'WHERE id =1;
此時表 mvcc 中 id 為 1 的記錄的版本鏈就長這樣: ebae62ea-82e1-11ee-939d-92fbcf53809c.png 然后再到剛才使用 READ COMMITTED 隔離級別的事務(wù)中繼續(xù)查找這個 id 為 1 的記錄,如下:
-- 使用 READ COMMITTED 隔離級別的事務(wù)
BEGIN;
-- SELECE1:Transaction 70、90 均未提交
SELECT*FROM mvcc_test WHERE id =1;-- 得到的列 name 的值為'habit'
-- SELECE2:Transaction 70 提交,Transaction 90 未提交
SELECT*FROM mvcc_test WHERE id =1;-- 得到的列 name 的值為'habit_trx_id_70_02'
這個 SELECE2 的執(zhí)行過程如下: 在執(zhí)行 SELECT 語句時又會單獨生成一個 ReadView,該 ReadView 的 m_ids 列表的內(nèi)容就是 [90],min_trx_id 為 90,max_trx_id 為 91,creator_trx_id 為 0。 然后從版本鏈中挑選可見的記錄,從圖中可以看出,最新版本的列 name 的內(nèi)容是 habit_trx_id_90_02,該版本的 trx_id 值為 90,在 m_ids 列表內(nèi),所以不符合可見性要求,根據(jù) roll_pointer 跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_90_01,該版本的 trx_id 值為 90,也在 m_ids 列表內(nèi),所以也不符合要求,繼續(xù)跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_70_02,該版本的 trx_id 值為 70,小于 ReadView 中的 min_trx_id 值 90,所以這個版本是符合要求的,最后返回這個版本中列 name 為 habit_trx_id_70_02 的記錄。 以此類推,如果之后事務(wù) id 為 90 的記錄也提交了,再次在使用 READ COMMITTED 隔離級別的事務(wù)中查詢表 mvcc_test 中 id 值為 1 的記錄時,得到的結(jié)果就是 habit_trx_id_90_02 了。 總結(jié):使用 READ COMMITTED 隔離級別的事務(wù)在每次查詢開始時都會生成一個獨立的 ReadView。 REPEATABLE READ:在第一次讀取數(shù)據(jù)時生成一個 ReadView; 對于使用 REPEATABLE READ 隔離級別的事務(wù)來說,只會在第一次執(zhí)行查詢語句時生成一個 ReadView,之后的查詢就不會重復生成了。 比方說現(xiàn)在系統(tǒng)里有兩個事務(wù) id 分別為 70、90 的事務(wù)在執(zhí)行:
-- T 70
UPDATE mvcc_test SET name ='habit_trx_id_70_01'WHERE id =1;
UPDATE mvcc_test SET name ='habit_trx_id_70_02'WHERE id =1;
此時表 mvcc_test 中 id 為 1 的記錄得到的版本鏈表如下所示: ebb96546-82e1-11ee-939d-92fbcf53809c.png ?假設(shè)現(xiàn)在有一個使用 REPEATABLE READ 隔離級別的事務(wù)開始執(zhí)行:
-- 使用 REPEATABLE READ 隔離級別的事務(wù)
BEGIN;
-- SELECE1:Transaction 70、90 未提交
SELECT*FROM mvcc_test WHERE id =1;-- 得到的列name 的值為'habit'
這個 SELECE1 的執(zhí)行過程如下: 在執(zhí)行 SELECT 語句時會先生成一個 ReadView,ReadView 的 m_ids 列表的內(nèi)容就是 [70, 90],min_trx_id 為 70,max_trx_id 為 91,creator_trx_id 為 0。 然后從版本鏈中挑選可見的記錄,從圖中可以看出,最新版本的列 name 的內(nèi)容是 habit_trx_id_70_02,該版本的 trx_id 值為 70,在 m_ids 列表內(nèi),所以不符合可見性要求,根據(jù) roll_pointer 跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_70_01,該版本的 trx_id 值也為 70,也在 m_ids 列表內(nèi),所以也不符合要求,繼續(xù)跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit,該版本的 trx_id 值為 50,小于 ReadView 中的 min_trx_id 值,所以這個版本是符合要求的,最后返回的就是這條列 name 為 habit 的記錄。 之后,把事務(wù) id 為 70 的事務(wù)提交一下,然后再到事務(wù) id 為 90 的事務(wù)中更新一下表 mvcc_test 中 id 為 1 的記錄:
-- 使用 REPEATABLE READ 隔離級別的事務(wù)
BEGIN;
UPDATE mvcc_test SET name ='habit_trx_id_90_01'WHERE id =1;
UPDATE mvcc_test SET name ='habit_trx_id_90_02'WHERE id =1;
此刻,表 mvcc_test 中 id 為 1 的記錄的版本鏈就長這樣: ebd4383a-82e1-11ee-939d-92fbcf53809c.png 然后再到剛才使用 REPEATABLE READ 隔離級別的事務(wù)中繼續(xù)查找這個 id 為 1 的記錄,如下:
-- 使用 REPEATABLE READ 隔離級別的事務(wù)
BEGIN;
-- SELECE1:Transaction 70、90 均未提交
SELECT*FROM mvcc_test WHERE id =1;-- 得到的列 name 的值為'habit'
-- SELECE2:Transaction 70 提交,Transaction 90 未提交
SELECT*FROM mvcc_test WHERE id =1; -- 得到的列 name 的值為'habit'
這個 SELECE2 的執(zhí)行過程如下: 因為當前事務(wù)的隔離級別為 REPEATABLE READ,而之前在執(zhí)行 SELECE1 時已經(jīng)生成過 ReadView 了,所以此時直接復用之前的 ReadView,之前的 ReadView 的 m_ids 列表的內(nèi)容就是 [70, 90],min_trx_id 為 70,max_trx_id 為 91, creator_trx_id 為 0。 然后從版本鏈中挑選可見的記錄,從圖中可以看出,最新版本的列 name 的內(nèi)容是 habit_trx_id_90_02,該版本的 trx_id 值為 90,在 m_ids 列表內(nèi),所以不符合可見性要求,根據(jù) roll_pointer 跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_90_01,該版本的 trx_id 值為 90,也在 m_ids 列表內(nèi),所以也不符合要求,繼續(xù)跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit_trx_id_70_02,該版本的 trx_id 值為 70,而 m_ids 列表中是包含值為 70 的事務(wù) id 的,所以該版本也不符合要求,同理下一個列 name 的內(nèi)容是 habit_trx_id_70_01 的版本也不符合要求。繼續(xù)跳到下一個版本。 下一個版本的列 name 的內(nèi)容是 habit,該版本的 trx_id 值為 50,小于 ReadView 中的 min_trx_id 值 70,所以這個版本是符合要求的,最后返回給用戶的版本就是這條列 name 為 habit 的記錄。 也就是說兩次 SELECT 查詢得到的結(jié)果是重復的,記錄的列 name 值都是 habit,這就是可重復讀的含義。如果之后再把事務(wù) id 為 90 的記錄提交了,然后再到剛才使用 REPEATABLE READ 隔離級別的事務(wù)中繼續(xù)查找這個 id 為 1 的記錄,得到的結(jié)果還是 habit。

MVCC 下的幻讀解決和幻讀現(xiàn)象

REPEATABLE READ 隔離級別下 MVCC 可以解決不可重復讀問題,那么幻讀呢?MVCC 是怎么解決的?幻讀是一個事務(wù)按照某個相同條件多次讀取記錄時,后讀取時讀到了之前沒有讀到的記錄,而這個記錄來自另一個事務(wù)添加的新記錄。 可以想想,在 REPEATABLE READ 隔離級別下的事務(wù) T1 先根據(jù)某個搜索條件讀取到多條記錄,然后事務(wù) T2 插入一條符合相應(yīng)搜索條件的記錄并提交,然后事務(wù) T1 再根據(jù)相同搜索條件執(zhí)行查詢。結(jié)果會是什么?按照 ReadView 中的比較規(guī)則中的第 3 條和第 4 條不管事務(wù) T2 比事務(wù) T1 是否先開啟,事務(wù) T1 都是看不到 T2 的提交的。 但是,在 REPEATABLE READ 隔離級別下 InnoDB 中的 MVCC 可以很大程度地避免幻讀現(xiàn)象,而不是完全禁止幻讀。怎么回事呢?來看下面的情況: ebdfde7e-82e1-11ee-939d-92fbcf53809c.png ?首先在事務(wù) T1 中執(zhí)行:select * from mvcc_test where id = 30;?這個時候是找不到 id = 30 的記錄的。 在事務(wù) T2 中,執(zhí)行插入語句:insert into mvcc_test values(30,'luxi','luxi'); 此時回到事務(wù) T1,執(zhí)行:

update mvcc_test set domain='luxi_t1'where id=30;
select*from mvcc_test where id =30;
事務(wù) T1 很明顯出現(xiàn)了幻讀現(xiàn)象。 在 REPEATABLE READ 隔離級別下,T1 第一次執(zhí)行普通的 SELECT 語句時生成了一個 ReadView,之后 T2 向 mvcc_test 表中新插入一條記錄并提交。 ReadView 并不能阻止 T1 執(zhí)行 UPDATE 或者 DELETE 語句來改動這個新插入的記錄,由于 T2 已經(jīng)提交,因此改動該記錄并不會造成阻塞,但是這樣一來,這條新記錄的 trx_id 隱藏列的值就變成了 T1 的事務(wù) id。之后 T1 再使用普通的 SELECT 語句去查詢這條記錄時就可以看到這條記錄了,也就可以把這條記錄返回給客戶端。因為這個特殊現(xiàn)象的存在,可以認為 MVCC 并不能完全禁止幻讀。

mvcc 總結(jié)

從上邊的描述中可以看出來,所謂的 MVCC(Multi-Version Concurrency Control ,多版本并發(fā)控制)指的就是在使用 READ COMMITTD、REPEATABLE READ 這兩種隔離級別的事務(wù)在執(zhí)行普通的 SELECT 操作時訪問記錄的版本鏈的過程,這樣子可以使不同事務(wù)的讀寫、寫讀操作并發(fā)執(zhí)行,從而提升系統(tǒng)性能。 READ COMMITTD、REPEATABLE READ 這兩個隔離級別的一個很大不同就是:生成 ReadView 的時機不同,READ COMMITTD 在每一次進行普通 SELECT 操作前都會生成一個 ReadView,而 REPEATABLE READ 只在第一次進行普通 SELECT 操作前生成一個 ReadView,之后的查詢操作都重復使用這個 ReadView 就好了,從而基本上可以避免幻讀現(xiàn)象。

InnoDB 的 Buffer Pool

對于使用 InnoDB 作為存儲引擎的表來說,不管是用于存儲用戶數(shù)據(jù)的索引,包括:聚簇索引和二級索引,還是各種系統(tǒng)數(shù)據(jù),都是以頁的形式存放在表空間中的,而所謂的表空間只不過是 InnoDB 對文件系統(tǒng)上一個或幾個實際文件的抽象,也就是說數(shù)據(jù)還是存儲在磁盤上的。 但是磁盤的速度慢,所以 InnoDB 存儲引擎在處理客戶端的請求時,當需要訪問某個頁的數(shù)據(jù)時,就會把完整的頁的數(shù)據(jù)全部加載到內(nèi)存中,即使只需要訪問一個頁的一條記錄,那也需要先把整個頁的數(shù)據(jù)加載到內(nèi)存中。將整個頁加載到內(nèi)存中后就可以進行讀寫訪問了,在進行完讀寫訪問之后并不著急把該頁對應(yīng)的內(nèi)存空間釋放掉,而是將其緩存起來,這樣將來有請求再次訪問該頁面時,就可以省去磁盤 IO 的開銷了。

Buffer Pool

InnoDB 為了緩存磁盤中的頁,在 MySQL 服務(wù)器啟動的時候就向操作系統(tǒng)申請了一片連續(xù)的內(nèi)存,這塊連續(xù)內(nèi)存叫做:Buffer Pool,中文名:緩沖池。 默認情況下 Buffer Pool 只有 128M 大小。 查看該值:show variables like 'innodb_buffer_pool_size'; 可以在啟動服務(wù)器的時候配置 innodb_buffer_pool_size 參數(shù)的值,它表示 Buffer Pool 的大小,配置如下:

[server]
innodb_buffer_pool_size = 268435456
其中,268435456 的單位是字節(jié),也就是指定 Buffer Pool 的大小為 256M,Buffer Pool 也不能太小,最小值為 5M,當小于該值時會自動設(shè)置成 5M。 啟動 MySQL 服務(wù)器的時候,需要完成對 Buffer Pool 的初始化過程,就是先向操作系統(tǒng)申請 Buffer Pool 的內(nèi)存空間,然后把它劃分成若干對控制塊和緩 存頁。但是此時并沒有真實的磁盤頁被緩存到 Buffer Pool 中,之后隨著程序的運行,會不斷的有磁盤上的頁被緩存到 Buffer Pool 中。 在 Buffer Pool 中會創(chuàng)建多個緩存頁,默認的緩存頁大小和在磁盤上默認的頁大小是一樣的,都是 16KB。 那么怎么知道該頁在不在 Buffer Pool 中呢? 在查找數(shù)據(jù)的時候,先通過哈希表中查找 key 是否在哈希表中,如果在證明 Buffer Pool 中存在該緩存也信息,如果不存在證明不存該緩存也信息,則通過讀取磁盤加載該頁信息放到 Buffer Pool 中,哈希表中的 key 是通過表空間號 + 頁號作組成的,value 是 Buffer Pool 的緩存頁。

flush 鏈表的管理

如果修改了 Buffer Pool 中某個緩存頁的數(shù)據(jù),那它就和磁盤上的頁不一致了,這樣的緩存頁也被稱為:臟頁。最簡單的做法就是每發(fā)生一次修改就立即同步到磁盤上對應(yīng)的頁上,但是頻繁的往磁盤中寫數(shù)據(jù)會嚴重的影響程序的性能。所以每次修改緩存頁后,并不著急把修改同步到磁盤上,而是在未來的某個時間進行同步。 但是如果不立即同步到磁盤的話,那之后再同步的時候怎么知道 Buffer Pool 中哪些頁是臟頁,哪些頁從來沒被修改過呢?總不能把所有的緩存頁都同步到磁盤上吧,如果 Buffer Pool 被設(shè)置的很大,那一次性同步會非常慢。 所以,需要再創(chuàng)建一個存儲臟頁的鏈表,凡是修改過的緩存頁對應(yīng)的控制塊都會作為一個節(jié)點加入到一個鏈表中,因為這個鏈表節(jié)點對應(yīng)的緩存頁都是需要被刷新到磁盤上的,所以也叫 flush 鏈表。

刷新臟頁到磁盤

后臺有專門的線程每隔一段時間負責把臟頁刷新到磁盤,這樣可以不影響用戶線程處理正常的請求。 從 flush 鏈表中刷新一部分頁面到磁盤,后臺線程也會定時從 flush 鏈表中刷新一部分頁面到磁盤,刷新的速率取決于當時系統(tǒng)是不是很繁忙。這種刷新頁面的方式被稱之為:BUF_FLUSH_LIST。

redo 日志

redo 日志的作用

InnoDB 存儲引擎是以頁為單位來管理存儲空間的,增刪改查操作其實本質(zhì)上都是在訪問頁面,包括:讀頁面、寫頁面、創(chuàng)建新頁面等操作。在真正訪問頁面之前,需要把在磁盤上的頁緩存到內(nèi)存中的 Buffer Pool 之后才可以訪問。但是在事務(wù)的時候又強調(diào)過一個稱之為持久性的特性,就是說對于一個已經(jīng)提交的事務(wù),在事務(wù)提交后即使系統(tǒng)發(fā)生了崩潰,這個事務(wù)對數(shù)據(jù)庫中所做的更改也不能丟失。 如果只在內(nèi)存的 Buffer Pool 中修改了頁面,假設(shè)在事務(wù)提交后突然發(fā)生了某個故障,導致內(nèi)存中的數(shù)據(jù)都失效了,那么這個已經(jīng)提交了的事務(wù)對數(shù)據(jù)庫中所做的更改也就跟著丟失了,這是所不能忍受的。那么如何保證這個持久性呢?一個很簡單的做法就是在事務(wù)提交完成之前把該事務(wù)所修改的所有頁面都刷新到磁盤,但是這個簡單粗暴的做法有些問題:

刷新一個完整的數(shù)據(jù)頁太浪費了;有時候僅僅修改了某個頁面中的一個字節(jié),但是在 InnoDB 中是以頁為單位來進行磁盤 IO 的,也就是說在該事務(wù)提交時不得不將一個完整的頁面從內(nèi)存中刷新到磁盤,一個頁面默認是 16KB 大小,只修改一個字節(jié)就要刷新 16KB 的數(shù)據(jù)到磁盤上顯然是太浪費了。

隨機 IO 刷起來比較慢;一個事務(wù)可能包含很多語句,即使是一條語句也可能修改許多頁面,該事務(wù)修改的這些頁面可能并不相鄰,這就意味著在將某個事務(wù)修改的 Buffer Pool 中的頁面刷新到磁盤時,需要進行很多的隨機 IO,隨機 IO 比順序 IO 要慢,尤其對于傳統(tǒng)的機械硬盤來說。

只是想讓已經(jīng)提交了的事務(wù)對數(shù)據(jù)庫中數(shù)據(jù)所做的修改永久生效,即使后來系統(tǒng)崩潰,在重啟后也能把這種修改恢復出來。其實沒有必要在每次事務(wù)提交時就把該事務(wù)在內(nèi)存中修改過的全部頁面刷新到磁盤,只需要把修改了哪些東西記錄一下就好,比方說:某個事務(wù)將系統(tǒng)表空間中的第 5 號頁面中偏移量為 5000 處的那個字節(jié)的值 0 改成 5 只需要記錄一下:將第 5 號表空間的 5 號頁面的偏移量為 5000 處的值更新為:5。 這樣在事務(wù)提交時,把上述內(nèi)容刷新到磁盤中,即使之后系統(tǒng)崩潰了,重啟之后只要按照上述內(nèi)容所記錄的步驟重新更新一下數(shù)據(jù)頁,那么該事務(wù)對數(shù)據(jù)庫中所做的修改又可以被恢復出來,也就意味著滿足持久性的要求。因為在系統(tǒng)崩潰重啟時需要按照上述內(nèi)容所記錄的步驟重新更新數(shù)據(jù)頁,所以上述內(nèi)容也被稱之為:重做日志,即:redo log。與在事務(wù)提交時將所有修改過的內(nèi)存中的頁面刷新到磁盤中相比,只將該事務(wù)執(zhí)行過程中產(chǎn)生的 redo log 刷新到磁盤的好處如下:

redo log 占用的空間非常小存儲表空間 ID、頁號、偏移量以及需要更新的值所需的存儲空間是很小的;

redo log 是順序?qū)懭氪疟P的在執(zhí)行事務(wù)的過程中,每執(zhí)行一條語句,就可能產(chǎn)生若干條 redo log,這些日志是按照產(chǎn)生的順序?qū)懭氪疟P的,也就是使用順序 IO;

redo log 的寫入過程

InnoDB 為了更好的進行系統(tǒng)崩潰恢復,把一次原子操作生成的 redo log 都放在了大小為 512 字節(jié)的塊(block)中。 為了解決磁盤速度過慢的問題而引入了 Buffer Pool。同理,寫入 redo log 時也不能直接寫到磁盤上,實際上在服務(wù)器啟動時就向操作系統(tǒng)申請了一大片稱之為 redo log buffer 的連續(xù)內(nèi)存空間,即:redo log 緩沖區(qū),也可以簡稱:log buffer。這片內(nèi)存空間被劃分成若干個連續(xù)的 redo log block,可以通過啟動參數(shù) innodb_log_buffer_size 來指定 log buffer 的大小,該啟動參數(shù)的默認值為:16MB。 向 log buffer 中寫入 redo log 的過程是順序的,也就是先往前邊的 block 中寫,當該 block 的空閑空間用完之后再往下一個 block 中寫。

redo log 刷盤時機

log buffer 什么時候會寫入到磁盤呢?

log buffer 空間不足時,如果不停的往這個有限大小的 log buffer 里塞入日志,很快它就會被填滿。InnoDB 認為如果當前寫入 log buffer 的 redo log 量已 經(jīng)占滿了 log buffer 總?cè)萘康拇蠹s一半左右,就需要把這些日志刷新到磁盤上。

事務(wù)提交時,必須要把修改這些頁面對應(yīng)的 redo log 刷新到磁盤。

后臺有一個線程,大約每秒都會刷新一次 log buffer 中的 redo log 到磁盤。

正常關(guān)閉服務(wù)器時等等。

undo 日志

事務(wù)需要保證原子性,也就是事務(wù)中的操作要么全部完成,要么什么也不做。但是偏偏有時候事務(wù)執(zhí)行到一半會出現(xiàn)一些情況,比如:

情況一:事務(wù)執(zhí)行過程中可能遇到各種錯誤,比如服務(wù)器本身的錯誤,操作系統(tǒng)錯誤,甚至是突然斷電導致的錯誤。

情況二:程序員可以在事務(wù)執(zhí)行過程中手動輸入 ROLLBACK 語句結(jié)束當前的事務(wù)的執(zhí)行。

這兩種情況都會導致事務(wù)執(zhí)行到一半就結(jié)束,但是事務(wù)執(zhí)行過程中可能已經(jīng)修改了很多東西,為了保證事務(wù)的原子性,需要把東西改回原先的樣子,這個過程就稱之為回滾,即:rollback,這樣就可以造成這個事務(wù)看起來什么都沒做,所以符合原子性要求。 每當要對一條記錄做改動時,都需要把回滾時所需的東西都給記下來。 比方說:

插入一條記錄時,至少要把這條記錄的主鍵值記下來,之后回滾的時候只需要把這個主鍵值對應(yīng)的記錄刪掉。

刪除了一條記錄,至少要把這條記錄中的內(nèi)容都記下來,這樣之后回滾時再把由這些內(nèi)容組成的記錄插入到表中。

修改了一條記錄,至少要把修改這條記錄前的舊值都記錄下來,這樣之后回滾時再把這條記錄更新為舊值。

這些為了回滾而記錄的這些東西稱之為撤銷日志,即:undo log。這里需要注意的一點是,由于查詢操作并不會修改任何用戶記錄,所以在查詢操作執(zhí)行時,并不需要記錄相應(yīng)的 undo log。

undo 日志的格式

為了實現(xiàn)事務(wù)的原子性,InnoDB 存儲引擎在實際進行增、刪、改一條記錄時,都需要先把對應(yīng)的 undo 日志記下來。一般每對一條記錄做一次改動,就對應(yīng)著一條 undo 日志,但在某些更新記錄的操作中,也可能會對應(yīng)著 2 條 undo 日志。 一個事務(wù)在執(zhí)行過程中可能新增、刪除、更新若干條記錄,也就是說需要記錄很多條對應(yīng)的 undo 日志,這些 undo 日志會被從 0 開始編號,也就是說根據(jù)生成的順序分別被稱為第 0 號 undo 日志、第 1 號 undo 日志、...、第 n 號 undo 日志等,這個編號也被稱之為 undo no。 這些 undo 日志是被記錄到類型為 FIL_PAGE_UNDO_LOG 的頁面中。這些頁面可以從系統(tǒng)表空間中分配,也可以從一種專門存放 undo 日志的表空間,也就是所謂的 undo tablespace 中分配。

審核編輯:湯梓紅
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8701

    瀏覽量

    84546
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    26283
  • 日志
    +關(guān)注

    關(guān)注

    0

    文章

    129

    瀏覽量

    10593

原文標題:MYSQL事務(wù)的底層原理

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    詳解Mysql數(shù)據(jù)庫InnoDB存儲引擎事務(wù)

    關(guān)于Mysql數(shù)據(jù)庫InnoDB存儲引擎事務(wù)的一點理解
    發(fā)表于 05-13 10:11

    mysql隔離性測試

    mysql事務(wù)隔離級別測試
    發(fā)表于 09-09 14:27

    Spring事務(wù)管理詳解說明

    Spring事務(wù)管理詳解
    發(fā)表于 05-20 13:46

    MySQL的索引、事務(wù)、視圖介紹

    MySQL--索引、事務(wù)、視圖
    發(fā)表于 06-15 07:05

    《TCP-IP詳解_卷3_TCP事務(wù)協(xié)議,HTTP,NNTP

    《TCP-IP詳解_卷3_TCP事務(wù)協(xié)議,HTTP,NNTP和UNIX域協(xié)議》
    發(fā)表于 03-24 22:42 ?39次下載

    MySQL事務(wù)日志

    大家都清楚,日志是 MySQL 數(shù)據(jù)庫的重要組成部分,記錄著數(shù)據(jù)庫運行期間各種狀態(tài)信息。MySQL 日志主要包括「錯誤日志」、「查詢?nèi)罩尽埂ⅰ嘎樵內(nèi)罩尽?、「二進制日志(binlog)」和 事務(wù)日志
    的頭像 發(fā)表于 11-14 09:58 ?1655次閱讀
    <b class='flag-5'>MySQL</b><b class='flag-5'>事務(wù)</b>日志

    MySQL事務(wù)的四大隔離級別詳解

    之前分析一個死鎖問題,發(fā)現(xiàn)自己對數(shù)據(jù)庫隔離級別理解還不夠深入,所以趁著這幾天假期,整理一下MySQL事務(wù)的四大隔離級別相關(guān)知識,希望對大家有幫助~ 事務(wù) 什么是事務(wù)
    的頭像 發(fā)表于 11-27 16:07 ?2633次閱讀

    MySQL中的高級內(nèi)容詳解

    MySQL 進階?。?! 本文思維導圖如下。 事務(wù)控制和鎖定語句 我們知道,MyISAM 和 MEMORY 存儲引擎支持表級鎖定(table-level locking),InnoDB 存儲引擎支持行級鎖定
    的頭像 發(fā)表于 03-11 16:55 ?2126次閱讀
    <b class='flag-5'>MySQL</b>中的高級內(nèi)容<b class='flag-5'>詳解</b>

    MySQL底層原理和技術(shù)學習

    面試時,被面試官吊打的現(xiàn)象成了家常便飯。 不僅僅是面試,如果你想從一名底層程序員上升為高級工程師、架構(gòu)師等,MySQL底層原理和技術(shù)是你必須要掌握的。 今天一起來學習MySQL的體系
    的頭像 發(fā)表于 04-06 16:51 ?2986次閱讀

    關(guān)于Mysql的20道問題詳解

    1.什么Mysql事務(wù)?事務(wù)的四大特性?事務(wù)帶來的什么問題? Mysql事務(wù)的隔離級別分為四
    的頭像 發(fā)表于 10-26 09:56 ?1345次閱讀
    關(guān)于<b class='flag-5'>Mysql</b>的20道問題<b class='flag-5'>詳解</b>

    詳解MySQL三大日志的作用

    MySQL日志 主要包括錯誤日志、查詢?nèi)罩?、慢查詢?nèi)罩尽?b class='flag-5'>事務(wù)日志、二進制日志幾大類。其中,比較重要的還要屬二進制日志 binlog(歸檔日志)和事務(wù)日志 redo log(重做日志)和 undo log(回滾日志)。
    的頭像 發(fā)表于 07-22 14:44 ?1231次閱讀

    MySQL事務(wù)隔離級別要實際解決的問題

    MySQL 是支持多事務(wù)并發(fā)執(zhí)行的。否則來一個事務(wù)處理一個請求,處理一個人請求的時候,其它事務(wù)都等著,那估計都沒人敢用MySQL作為數(shù)據(jù)庫,
    的頭像 發(fā)表于 11-17 17:00 ?2720次閱讀
    <b class='flag-5'>MySQL</b><b class='flag-5'>事務(wù)</b>隔離級別要實際解決的問題

    淺談Spring事務(wù)底層原理

    開啟Spring事務(wù)本質(zhì)上就是增加了一個Advisor,但我們使用@EnableTransactionManagement注解來開啟Spring事務(wù)是,該注解代理的功能就是向Spring容器中添加了兩個Bean:
    的頭像 發(fā)表于 12-06 09:56 ?616次閱讀

    你是否對MySQL數(shù)據(jù)庫中的事務(wù)已經(jīng)有所了解呢?

    你是否對 MySQL 數(shù)據(jù)庫中的事務(wù)已經(jīng)有所了解?看下面這張圖,按照 1~6 的順序依次執(zhí)行,在RR隔離級別下,事務(wù) A 和事務(wù) B 各自輸出的 num 值是多少嗎?
    的頭像 發(fā)表于 02-21 17:20 ?570次閱讀

    阿里二面:了解MySQL事務(wù)底層原理嗎

    MySQL 是如何來解決臟寫這種問題的?沒錯,就是鎖。MySQL 在開啟一個事務(wù)的時候,他會將某條記錄和事務(wù)做一個綁定。這個其實和 JVM 鎖是類似的。
    的頭像 發(fā)表于 01-18 16:34 ?258次閱讀
    阿里二面:了解<b class='flag-5'>MySQL</b><b class='flag-5'>事務(wù)</b><b class='flag-5'>底層</b>原理嗎