免费二级在线a大片,在线观看国产精品日韩av

先看下這兩段代碼：

代碼段1：

const int row = 10240;
const int col = 10240;
int matrix[row][col];
int TestRow() {
  //按行遍歷
  int sum_row = 0;
  for (int r = 0; r < row; r++) {
    for (int c = 0; c < col; c++) {
      sum_row += matrix[r][c];
    }
  }
  return sum_row;
}

代碼段2：

int TestCol() {
  //按列遍歷
  int sum_col = 0;
  for (int c = 0; c < col; c++) {
    for (int r = 0; r < row; r++) {
      sum_col += matrix[r][c];
    }
  }
  return sum_col;
}

兩段代碼的目的相同，都是為了計(jì)算矩陣中所有元素的總和。

但有些區(qū)別：一個(gè)是按行遍歷元素做計(jì)算，一個(gè)是按列遍歷元素做計(jì)算。

它倆的運(yùn)行速度有什么區(qū)別嗎？

如圖：

圖中可以看到，行遍歷的代碼速度比列遍歷的代碼速度快很多。

為什么按行遍歷的代碼比按列遍歷的代碼速度快？這里就是CPU Cache在起作用。

什么是CPU Cache？

可以先看下這個(gè)存儲(chǔ)器相關(guān)的金字塔圖：

從下到上，空間雖然越來(lái)越小，但是處理速度越來(lái)越快，相應(yīng)的，設(shè)備價(jià)格也越來(lái)越貴。

圖中的寄存器和主存估計(jì)大家都知道，那中間的L1 、L2、L3是什么？它們起到了什么作用？

它們就是CPU 的Cache，如下圖：

可以理解為CPU Cache就是CPU與主存之間的橋梁。

當(dāng)CPU想要訪問主存中的元素時(shí)，會(huì)先查看Cache中是否存在，如果存在（稱為Cache Hit），直接從Cache中獲取，如果不存在（稱為Cache Miss），才會(huì)從主存中獲取。Cache的處理速度比主存快得多。

所以，如果每次訪問數(shù)據(jù)時(shí)，都能直接從Cache中獲取，整個(gè)程序的性能肯定會(huì)更高。

那，如何提高CPU Cache的命中率？

這里我不多介紹，感興趣的直接移步到我這篇文章：https://mp.weixin.qq.com/s/iKWQZxn6XYKU9KnlBRynfg

但CPU Cache這里還有個(gè)小問題，看下這兩段代碼：

代碼段1：

struct Point {
  std::atomic<int> x;
  // char a[128];
  std::atomic<int> y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

代碼段2：

struct Point {
  std::atomic<int> x;
  char a[128];
  std::atomic<int> y;
};
void Test() {
  Point point;
  std::thread t1(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->x += 1;
        }
      },
      &point);
  std::thread t2(
      [](Point *point) {
        for (int i = 0; i < 100000000; ++i) {
          point->y += 1;
        }
      },
      &point);
  t1.join();
  t2.join();
}

兩端代碼的核心邏輯都是對(duì)Point結(jié)構(gòu)體中的x和y不停+1。只有一點(diǎn)區(qū)別就是在中間塞了128字節(jié)的數(shù)組。

它們的執(zhí)行速度卻相差很大。

帶128的比不帶128的代碼，執(zhí)行速度快很多。

為什么？

看過我上面文章的同學(xué)應(yīng)該就知道，每個(gè)CPU都有自己的L1和L2 Cache，而Cache line的大小一般是64字節(jié)，如果x和y之間沒有128字節(jié)的填充，它倆就會(huì)在同一個(gè)Cache line上。

代碼中開了兩個(gè)線程，兩個(gè)線程大概率會(huì)運(yùn)行在不同的CPU上，每個(gè)CPU有自己的Cache。

當(dāng)CPU1操作x時(shí)，會(huì)把y裝載到Cache中，其他CPU對(duì)應(yīng)的的Cache line失效。

然后CPU2加載y，會(huì)觸發(fā)Cache Miss，它后面又把x裝載到了自己的Cache中，其他CPU對(duì)應(yīng)的Cache line失效。

然后CPU1操作x時(shí)，又觸發(fā)Cache Miss。

它倆就會(huì)是大體這個(gè)流程：

頻繁的觸發(fā)Cache Miss，導(dǎo)致程序的性能相當(dāng)差。

而如果x和y中間加了128字節(jié)的填充，x和y不在同一個(gè)Cache line上，不同CPU之前不會(huì)影響，它倆都會(huì)頻繁的命中自己的Cache，整個(gè)程序性能就會(huì)很高，這就是傳說中的False Sharing問題。

所以我們寫代碼時(shí)，可以基于此做深一層思考，如果我們寫單線程程序，最好保證訪問的數(shù)據(jù)能夠相鄰，在一個(gè)Cache line上，可以盡可能的命中Cache。

如果寫多線程程序，最好保證訪問的數(shù)據(jù)有間隔，讓它們不在一個(gè)Cache line上，減少False Sharing的頻率。

上述內(nèi)容源于前一段的技術(shù)分享，完整PPT在一個(gè)優(yōu)質(zhì)的C++學(xué)習(xí)圈里，來(lái)一起鉆研C++吧。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

cpu

cpu

+關(guān)注

關(guān)注
68

文章
10804

瀏覽量
210829
程序

程序

+關(guān)注

關(guān)注
116

文章
3756

瀏覽量
80751
代碼

代碼

+關(guān)注

關(guān)注
30

文章
4722

瀏覽量
68231

評(píng)論

相關(guān)推薦

Cache和內(nèi)存有什么區(qū)別

Cache（高速緩存）和內(nèi)存（Memory，通常指主存儲(chǔ)器或RAM）是計(jì)算機(jī)存儲(chǔ)系統(tǒng)中兩個(gè)重要的組成部分，它們?cè)谟?jì)算機(jī)的性能和數(shù)據(jù)處理中扮演著不同的角色。以下是對(duì)Cache和內(nèi)存之間區(qū)別的詳細(xì)解析。

發(fā)表于 09-26 15:28 ?792次閱讀

德國(guó)進(jìn)口蔡司工業(yè)CT去散射偽影技術(shù)

CT偽影始終是制約分析、數(shù)據(jù)處理、可靠性以及準(zhǔn)確度的重大難題。毋庸置疑，偽影的種類繁多，像是射線硬化、多材料、散射或者環(huán)狀等均在其列。今日，要與諸位分享的乃是鋁壓鑄行業(yè)里最為常見的散射偽影。即便是

發(fā)表于 09-04 11:20 ?261次閱讀

德國(guó)進(jìn)口蔡司工業(yè)CT去散射<b class='flag-5'>偽</b>影技術(shù)

解析Arm Neoverse N2 PMU事件L2D_CACHE_WR

有客戶希望我們幫忙分析 Eigen gemm 基準(zhǔn)測(cè)試的一些執(zhí)行情況。具體來(lái)說是為什么 L1D_CACHE_WR 的值會(huì)低于 L2D_CACHE_WR，這種情況令人費(fèi)解。

發(fā)表于 09-03 11:42 ?1133次閱讀

解析Arm Neoverse N2 PMU事件L2D_<b class='flag-5'>CACHE</b>_WR

什么是CPU緩存？它有哪些作用？

CPU緩存（Cache Memory）是計(jì)算機(jī)系統(tǒng)中一個(gè)至關(guān)重要的組成部分，它位于CPU與內(nèi)存之間，作為兩者之間的臨時(shí)存儲(chǔ)器。CPU緩存的主要作用是減少

發(fā)表于 08-22 14:54 ?2087次閱讀

Cortex R52內(nèi)核Cache的具體操作（2）

本節(jié)內(nèi)容主要講述CortexR52內(nèi)核Cache的具體操作包括使緩存無(wú)效（invalidate）操作，清除（clean）緩存。有的時(shí)候客戶可能需要對(duì)cache做一些清理，比如invalidate

發(fā)表于 07-15 15:44 ?1169次閱讀

Cortex R52內(nèi)核<b class='flag-5'>Cache</b>的具體操作（2）

Cortex R52內(nèi)核Cache的相關(guān)概念（1）

在開始閱讀本系列文章之前，請(qǐng)先參閱《有關(guān)CR52 MPU配置說明》。因?yàn)檫@篇文章講述了，cache配置所涉及到的寄存器的設(shè)置和MPU的一些基本概念。如果讀者都已經(jīng)理解了上述內(nèi)容，可以跳過。本章內(nèi)容主要講述cache屬性的具體含意、注意事項(xiàng)、以及在RZ/T2M的性能測(cè)試。

發(fā)表于 07-15 10:37 ?1252次閱讀

Cortex R52內(nèi)核<b class='flag-5'>Cache</b>的相關(guān)概念（1）

為什么HAL庫(kù)在操作Flash erase的時(shí)候，需要把I-Cache和D-Cache關(guān)閉呢?

請(qǐng)問為什么HAL庫(kù)在操作Flash erase的時(shí)候，需要把I-Cache和D-Cache關(guān)閉呢? 這有什么原因呢? 有人可以解答嗎?

發(fā)表于 04-07 09:08

請(qǐng)問STM32MP13X的MMU和Cache如何使能？

STM32MP13X的MMU和Cache如何使能？修改了hal_conf里的DATA_CACHE_ENABLE的宏console里還是顯示沒開，在設(shè)置里的Define symbols把NO_CACHE_USE刪了好像還是不行。。

發(fā)表于 03-12 06:46

先楫 HPM片上 Cache使用指南

賈工先楫資深FAE工程師12年產(chǎn)品研發(fā)經(jīng)驗(yàn)，具有變頻器、伺服等工業(yè)產(chǎn)品開發(fā)經(jīng)驗(yàn)，也負(fù)責(zé)過激光投影顯示系統(tǒng)開發(fā)、AI應(yīng)用開發(fā)、PYQT、Linux驅(qū)動(dòng)開發(fā)等工作。概述高速緩存（Cache）主要

發(fā)表于 01-26 10:00 ?718次閱讀

先楫 HPM片上 <b class='flag-5'>Cache</b>使用指南

先楫HPM片上Cache使用指南經(jīng)驗(yàn)分享

高速緩存（Cache）主要是為了解決CPU運(yùn)算速度與內(nèi)存（Memory）讀寫速度不匹配的矛盾而存在，是CPU與存儲(chǔ)設(shè)備之間的臨時(shí)存貯器，容量小，但是交換速度比內(nèi)存快。內(nèi)置高速緩存通常對(duì)CPU

發(fā)表于 01-22 16:07 ?1174次閱讀

深入理解Linux RCU：從硬件說起之內(nèi)存屏障

上一篇文章我們談到了內(nèi)存Cache，并且描述了典型的Cache一致性協(xié)議MESI。Cache的根本目的，是解決內(nèi)存與CPU速度多達(dá)兩個(gè)數(shù)量級(jí)的性能差異。

發(fā)表于 12-25 13:42 ?756次閱讀

buffer和cache的區(qū)別

buffer和cache的區(qū)別緩沖區(qū)（Buffer）和緩存（Cache）是計(jì)算機(jī)系統(tǒng)中用于提高數(shù)據(jù)讀寫效率的兩個(gè)關(guān)鍵概念，它們雖然功能有所重疊，但在實(shí)際應(yīng)用中存在一些差異。在下文中，將詳盡、詳實(shí)

發(fā)表于 12-07 11:00 ?782次閱讀

CPU Cache是如何保證緩存一致性的？

我們介紹`CPU Cache`的組織架構(gòu)及其進(jìn)行**讀操作**時(shí)的尋址方式，但是緩存不僅僅只有讀操作，還有 **寫操作** ，這會(huì)帶來(lái)一個(gè)新的問題

發(fā)表于 12-04 15:05 ?1259次閱讀

EC SRAM映射到CPU Memory空間的共享內(nèi)存設(shè)計(jì)

ShareMemory，顧名思義就是共享內(nèi)存。這個(gè)概念在很多計(jì)算機(jī)系統(tǒng)中都存在，本文特指 EC SRAM 映射到 CPU Memory 空間的共享內(nèi)存設(shè)計(jì)。

發(fā)表于 11-18 15:11 ?1427次閱讀