0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MySQL緩沖區(qū)設(shè)計(jì)介紹

數(shù)據(jù)分析與開發(fā) ? 來(lái)源:博客 ? 作者:Spongecaptain's ? 2021-10-15 09:50 ? 次閱讀

1. Buffer 與 cache 的區(qū)別?

Bbuffer 與 Cache 非常類似,因?yàn)樗鼈兌加糜诖鎯?chǔ)數(shù)據(jù)數(shù)據(jù),被應(yīng)用層讀取字節(jié)數(shù)據(jù)。在很多場(chǎng)合它們有著相同的概念,但是特定場(chǎng)合也有一定的區(qū)別[1]。

Buffer 與 Cache 的用途有所不一定:

Buffer 的主要目的是在不同應(yīng)用、線程、進(jìn)程之間共享字節(jié)數(shù)據(jù),例如為了讓不同速度的設(shè)備能夠進(jìn)行數(shù)據(jù)同步,就會(huì)使用共享 Buffer;

Cache 的主要目的是提高字節(jié)數(shù)據(jù)的讀取/寫入速度,例如根據(jù)時(shí)間局部性、地址局部性操作系統(tǒng)提供 page cache 機(jī)制;

當(dāng)然,在很多場(chǎng)合下 Buffer 與 Cache 有著相同的語(yǔ)義,因此我們可以認(rèn)為緩沖區(qū)既用于提高讀寫速度,又用于數(shù)據(jù)共享與同步。

2. MySQL 緩沖區(qū)設(shè)計(jì)

Figure1.MySQL 的緩沖區(qū)設(shè)計(jì)

如上圖所示,MySQL 在不同層次使用了與緩存機(jī)制不同的配套技術(shù)。其中有:

應(yīng)用層:

Redo Log Buffer:對(duì)寫操作進(jìn)行緩存,用于實(shí)現(xiàn) MySQL InnoDB 的事務(wù)性;

InnoDB Buffer Pool:用于對(duì) MySQL table 的數(shù)據(jù)進(jìn)行緩存。讀內(nèi)存而不是磁盤,通過(guò)減少磁盤讀操的方式提高讀操作性能;寫內(nèi)存而不是磁盤,通過(guò)減少磁盤寫操的方式提高寫操作性能;

操作系統(tǒng)的 VFS(Virtual file system,虛擬文件系統(tǒng))層:

Page Cache:操作系統(tǒng)通過(guò)緩存以及預(yù)讀機(jī)制對(duì)文件系統(tǒng)中的 block 基于 page 進(jìn)行緩存管理;

Direct Buffer:當(dāng)使用 Direct I/O 提供的相關(guān) API 時(shí),操作系統(tǒng)不再提供基于 Page Cache 機(jī)制的緩存,而是直接使用 Direct Buffer;

磁盤的 Disk Buffer:磁盤也可以提供磁盤緩存,通常在 MySQL 中會(huì)關(guān)閉磁盤緩存,我們僅僅需要了解有 Disk Buffer 這一概念即可。

3. Write Through/Back 與 Direct I/O

Write Through 與 Write Back 指的是在使用內(nèi)存空間作為緩存的應(yīng)用在處理寫操作時(shí)是否直接落盤:

Write Through:寫操作“穿過(guò)”緩存區(qū)直接落盤,這種策略能夠確保數(shù)據(jù)不會(huì)因?yàn)殄礄C(jī)而丟失內(nèi)存緩沖區(qū)的數(shù)據(jù);

Write Back:一次寫操作僅僅更新了內(nèi)存緩存區(qū)中的數(shù)據(jù),數(shù)據(jù)落盤通常通過(guò)間隔一個(gè)時(shí)間進(jìn)行落盤一次;

MySQL 為此提供了一些參數(shù)來(lái)控制 Page Cache 數(shù)據(jù)落盤的具體行為,例如:

(1)innodb_flush_log_at_trx_commit

innodb_flush_log_at_trx_commit 參數(shù)用于控制基于 Page Cache 的 Redo Log Buffer 的數(shù)據(jù)落盤機(jī)制[2]。此參數(shù)用于控制以下兩個(gè)特性之間的平衡:

嚴(yán)格的事務(wù)管理機(jī)制;

事務(wù)提交 commit 操作執(zhí)行時(shí)的高性能;

innodb_flush_log_at_trx_commit 有三個(gè)可選配置值:

1(默認(rèn)值):每次事務(wù)提交時(shí)都日志必須刷新到磁盤上,提供了最可靠的事務(wù)性保證;

0:日志每間隔 1 秒刷新到磁盤上,這意味著在緩存中還沒(méi)有來(lái)得及刷新到磁盤上的數(shù)據(jù)在宕機(jī)時(shí)會(huì)丟失;

2:日志在事務(wù)提交后以及每間隔 1 秒刷新到磁盤上,這意味著在緩存中還沒(méi)有來(lái)得及刷新到磁盤上的數(shù)據(jù)在宕機(jī)時(shí)會(huì)丟失;

注意事項(xiàng):配置 0 與 2 并不能保證 100% 每間隔一秒刷新到磁盤一次,這是因?yàn)?DDL 的修改以及 InnoDB 活動(dòng)可能會(huì)導(dǎo)致日志刷新更頻繁。另一方面,由于事務(wù)調(diào)度問(wèn)題,刷新頻率甚至?xí)档汀?/p>

刷新頻率默認(rèn)為 1 s,由參數(shù) innodb_flush_log_at_timeout 進(jìn)行配置。

(2)innodb_flush_method

innodb_flush_method 參數(shù)同時(shí)控制 redo log buffer 和 innodb buffer pool 緩沖區(qū)刷新策略,其中:

log files:redo log buffer 是 log files 在內(nèi)存中的緩存區(qū), log files 是磁盤上的 Redo Log 文件;

data files:innodb buffer pool 是 data files 在內(nèi)存中的緩存區(qū),data files 是磁盤上的數(shù)據(jù)文件(B+tree);

innodb_flush_method 參數(shù)目前有 6 種可選配置值[3]:

fdatasync;

O_DSYNC

O_DIRECT

O_DIRECT_NO_FSYNC

littlesync

nosync

這里只討論 Unix-like 操作系統(tǒng),而不討論 Windows 系統(tǒng)。

其中,littlesync 與 nosync 僅僅用于內(nèi)部性能測(cè)試,并不建議使用。

fdatasync,即取值 0,這是默認(rèn)配置值。對(duì) log files 以及 data files 都采用 fsync 的方式進(jìn)行同步;

O_DSYNC,即取值 1。對(duì) log files 使用 O_SYNC 打開與刷新日志文件,使用 fsync 來(lái)刷新 data files 中的數(shù)據(jù);

O_DIRECT,即取值 4。利用 Direct I/O 的方式打開 data file,并且每次寫操作都通過(guò)執(zhí)行 fsync 系統(tǒng)調(diào)用的方式落盤;

O_DIRECT_NO_FSYNC,即取值 5。利用 Direct I/O 的方式打開 data files,但是每次寫操作并不會(huì)調(diào)用 fsync 系統(tǒng)調(diào)用進(jìn)行落盤;

補(bǔ)充說(shuō)明:以 O_SYNC 方式打開文件意味著文件的每一次寫操作都直接導(dǎo)致將數(shù)據(jù)本身以及元數(shù)據(jù)刷新到磁盤上。

為什么有 O_DIRECT 與 O_DIRECT_NO_FSYNC 配置的區(qū)別?

首先,我們需要理解更新操作落盤分為兩個(gè)具體的子步驟:①文件數(shù)據(jù)更新落盤②文件元數(shù)據(jù)更新落盤。O_DIRECT 的在部分操作系統(tǒng)中會(huì)導(dǎo)致文件元數(shù)據(jù)不落盤,除非主動(dòng)調(diào)用 fsync,為此,MySQL 提供了 O_DIRECT 以及 O_DIRECT_NO_FSYNC 這兩個(gè)配置[5]。

如果你確定在自己的操作系統(tǒng)上,即使不進(jìn)行 fsync 調(diào)用,也能夠確保文件元數(shù)據(jù)落盤,那么請(qǐng)使用 O_DIRECT_NO_FSYNC 配置,這對(duì) MySQL 性能略有幫助。否則,請(qǐng)使用 O_DIRECT,不然文件元數(shù)據(jù)的丟失可能會(huì)導(dǎo)致 MySQL 運(yùn)行錯(cuò)誤。

4. MySQL 日志的刷新策略

MySQL 日志刷新策略通過(guò) sync_binlog 參數(shù)進(jìn)行配置,其有 3 個(gè)可選配置:

sync_binlog=0:MySQL 應(yīng)用將完全不負(fù)責(zé)日志同步到磁盤,將緩存中的日志數(shù)據(jù)刷新到磁盤全權(quán)交給操作系統(tǒng)來(lái)完成;

sync_binlog=1:MySQL 應(yīng)用在事務(wù)提交前將緩存區(qū)的日志刷新到磁盤;

sync_binlog=N:當(dāng) N 不為 0 與 1 時(shí),MySQL 在收集到 N 個(gè)日志提交后,才會(huì)將緩存區(qū)的日志同步到磁盤。

事實(shí)上,這個(gè)參數(shù)也用于控制日志是通過(guò) Write Through 還是 Write Back 策略刷新到磁盤上。

注意事項(xiàng):使用 Page Cache 機(jī)制的數(shù)據(jù)刷盤機(jī)制,即使基于同步策略,即每次寫操作都要求數(shù)據(jù)直接落盤,但在數(shù)據(jù)落盤之前,數(shù)據(jù)總是先要寫于 Page Cache 中,再將 Page Cache 中的具體 Page 刷新到磁盤上。

5. MySQL 的典型配置

innodb_flush_log_at_trx_commit 參數(shù)配置為 1:Redo Log 走 Page Cache,并且每次寫操作的日志在事務(wù)提交前都通過(guò) fsync 刷新到磁盤;

innodb_flush_method 參數(shù)配置為 O_DIRECT:InnoDB Buffer Pool 走 Direct I/O,并且每次寫操作導(dǎo)致的文件數(shù)據(jù)(包括文件元數(shù)據(jù))都通過(guò) fsync 系統(tǒng)調(diào)用刷新到磁盤;

寫一條 redo log 涉及到的步驟有:

日志寫入 Redo Log buffer;

日志寫入 Page Cache;

通過(guò)系統(tǒng)調(diào)用 fsync 將 Page Cache 中的臟頁(yè)刷新到磁盤;

日志提交;

修改表的一行記錄涉及到的步驟有:

更新后的數(shù)據(jù)寫于 InnoDB Buffer Pool;

定時(shí)進(jìn)行如下邏輯(異步進(jìn)行):

InnoDB Buffer Pool 臟數(shù)據(jù)進(jìn)行刷新,通過(guò)文件的 write 方法進(jìn)行;

文件的 write 方法直接導(dǎo)致數(shù)據(jù)寫于磁盤上;

定時(shí)進(jìn)行文件的 fysnc 調(diào)用,確保文件元數(shù)據(jù)寫于磁盤上;

https://spongecaptain.cool/post/mysql/zerocopyofmysql/

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6715

    瀏覽量

    88316
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    26286

原文標(biāo)題:MySQL 的零拷貝技術(shù)

文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    內(nèi)存緩沖區(qū)和內(nèi)存的關(guān)系

    內(nèi)存緩沖區(qū)和內(nèi)存之間的關(guān)系是計(jì)算機(jī)體系結(jié)構(gòu)中一個(gè)至關(guān)重要的方面,它們共同協(xié)作以提高數(shù)據(jù)處理的效率和系統(tǒng)的整體性能。
    的頭像 發(fā)表于 09-10 14:38 ?149次閱讀

    單片機(jī)中的幾種環(huán)形緩沖區(qū)的分析和實(shí)現(xiàn)

    單片機(jī)中的幾種環(huán)形緩沖區(qū)的分析和實(shí)現(xiàn)一、簡(jiǎn)介環(huán)形緩沖區(qū)(RingBuffer)是一種高效的使用內(nèi)存的方法,它將一段固定長(zhǎng)度的內(nèi)存看成一個(gè)環(huán)形結(jié)構(gòu),用于存儲(chǔ)數(shù)據(jù),能夠避免使用動(dòng)態(tài)申請(qǐng)內(nèi)存導(dǎo)致的內(nèi)存碎片
    的頭像 發(fā)表于 08-14 08:39 ?364次閱讀
    單片機(jī)中的幾種環(huán)形<b class='flag-5'>緩沖區(qū)</b>的分析和實(shí)現(xiàn)

    ESP8266有雙緩沖區(qū)嗎?

    我想實(shí)時(shí)傳輸一些信號(hào)的測(cè)量數(shù)據(jù)。信號(hào)的采樣周期為 1 ms。我想每 500 毫秒發(fā)送 2048 字節(jié)(一個(gè)數(shù)據(jù)包)。ESP8266有雙緩沖區(qū)(2x 2048字節(jié))嗎?其想法是計(jì)數(shù)填充一個(gè)緩沖區(qū)(周期
    發(fā)表于 07-16 07:29

    創(chuàng)建DMA通道時(shí),能否將DMA緩沖區(qū)的大小指定為8字節(jié),并將DMA緩沖區(qū)的編號(hào)指定為1?

    創(chuàng)建 DMA 通道時(shí),能否將 DMA 緩沖區(qū)的大小指定為 8 字節(jié),并將 DMA 緩沖區(qū)的編號(hào)指定為 1?
    發(fā)表于 05-31 07:46

    stm32野火開發(fā)板上做USB通信,PC端USB的緩沖區(qū)和串口緩沖區(qū)的大小是多少?

    stm32野火開發(fā)板上做USB通信,用的CDC虛擬串口。 stm32端將ADC采集的數(shù)據(jù)通過(guò)USB傳給電腦,傳輸速率理論上是12Mbps,上位機(jī)是從PC端的串口緩沖區(qū)拿數(shù)據(jù),用C#編寫的上位機(jī)將
    發(fā)表于 05-17 14:02

    具有八進(jìn)制反相緩沖區(qū)的掃描測(cè)試設(shè)備數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《具有八進(jìn)制反相緩沖區(qū)的掃描測(cè)試設(shè)備數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 05-17 09:58 ?0次下載
    具有八進(jìn)制反相<b class='flag-5'>緩沖區(qū)</b>的掃描測(cè)試設(shè)備數(shù)據(jù)表

    實(shí)現(xiàn)穩(wěn)健的微控制器到FPGA SPI接口: 雙緩沖區(qū)!

    介紹緩沖器之前,我們將簡(jiǎn)要探討Verilog 脈寬調(diào)制器 (PWM) 的工作原理。這一點(diǎn)很重要,因?yàn)殡p緩沖區(qū)最好被看作是硬件模塊 (如 PWM) 的可尋址接口。
    的頭像 發(fā)表于 05-16 09:36 ?528次閱讀
    實(shí)現(xiàn)穩(wěn)健的微控制器到FPGA SPI接口: 雙<b class='flag-5'>緩沖區(qū)</b>!

    Stm32采用環(huán)形緩沖區(qū)接收rk3588的數(shù)據(jù)代碼

    Stm32采用環(huán)形緩沖區(qū)接收rk3588的數(shù)據(jù)代碼
    的頭像 發(fā)表于 05-15 10:10 ?366次閱讀

    交換機(jī)與路由器緩沖區(qū):尋找完美大小

    *本文系SDNLAB編譯自瞻博網(wǎng)絡(luò)技術(shù)專家兼高級(jí)工程總監(jiān)Sharada Yeluri領(lǐng)英 在路由器和交換機(jī)中,緩沖區(qū)至關(guān)重要,可以防止網(wǎng)絡(luò)擁塞期間的數(shù)據(jù)丟失。緩沖區(qū)到底要多大?這個(gè)問(wèn)題在
    的頭像 發(fā)表于 04-11 16:56 ?758次閱讀
    交換機(jī)與路由器<b class='flag-5'>緩沖區(qū)</b>:尋找完美大小

    交換芯片緩沖區(qū)大小是什么

    交換芯片緩沖區(qū)大小并不一定是固定的。緩沖區(qū)的設(shè)計(jì)和實(shí)現(xiàn)會(huì)根據(jù)芯片的具體型號(hào)、規(guī)格以及應(yīng)用場(chǎng)景的不同而有所差異。一些交換芯片可能具有固定大小的緩沖區(qū),以滿足特定的性能需求或成本限制。然而,隨著技術(shù)
    的頭像 發(fā)表于 03-18 14:42 ?344次閱讀

    使用UART FIFO緩沖區(qū)時(shí),緩沖區(qū)中的數(shù)據(jù)有時(shí)會(huì)損壞的原因?

    我在使用 UART FIFO 緩沖區(qū)時(shí)遇到了以下問(wèn)題。 問(wèn)題描述: 當(dāng)通過(guò)兩個(gè) UART 通道使用完整的 UART FIFO 緩沖區(qū)并通過(guò)兩個(gè)通道進(jìn)行通信時(shí),緩沖區(qū)中的數(shù)據(jù)有時(shí)會(huì)損壞,例如,UART
    發(fā)表于 03-06 06:59

    西門子博診斷緩沖區(qū)的使用方法

    可從在線和診斷視圖中“診斷”文件夾的“診斷緩沖區(qū)”組中讀出 CPU 的診斷緩沖區(qū)
    的頭像 發(fā)表于 12-11 10:24 ?3091次閱讀
    西門子博診斷<b class='flag-5'>緩沖區(qū)</b>的使用方法

    使用malloc建立緩沖區(qū)時(shí)出現(xiàn)錯(cuò)誤怎么解決?

    ,我不知道現(xiàn)在這個(gè)已知系統(tǒng)的中斷頻率,所以我做了一個(gè)偷懶的想法,先把輸入數(shù)據(jù)3秒的數(shù)據(jù)放在自建的緩沖區(qū),再將這個(gè)數(shù)據(jù)處理后再輸出,延時(shí)大概3s數(shù)據(jù)的時(shí)間,現(xiàn)在但是使用malloc建立緩沖區(qū)時(shí)出現(xiàn)錯(cuò)誤,請(qǐng)問(wèn),怎么拯救?
    發(fā)表于 11-30 07:39

    操作系統(tǒng)不同的緩沖區(qū)概念

    常常聽到有程序員會(huì)跟你討論:“我們?cè)谧x寫文件的時(shí)候,系統(tǒng)是有緩存的”。但實(shí)際上有一部分人把用戶進(jìn)程緩存區(qū)和系統(tǒng)空間緩存區(qū)的概念混淆了,包括這兩種緩沖區(qū)的用法和所要解決的問(wèn)題,還有其它類似的概念。本文
    的頭像 發(fā)表于 11-10 10:38 ?1057次閱讀
    操作系統(tǒng)不同的<b class='flag-5'>緩沖區(qū)</b>概念

    C++環(huán)形緩沖區(qū)設(shè)計(jì)與實(shí)現(xiàn)

    一、環(huán)形緩沖區(qū)基礎(chǔ)理論解析(Basic Theory of Circular Buffer) 1.1 環(huán)形緩沖區(qū)的定義與作用(Definition and Function of Circular
    的頭像 發(fā)表于 11-09 11:21 ?1283次閱讀
    C++環(huán)形<b class='flag-5'>緩沖區(qū)</b>設(shè)計(jì)與實(shí)現(xiàn)