0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Java層面的工具定位內(nèi)存區(qū)域

倩倩 ? 來(lái)源:芋道源碼 ? 作者:芋道源碼 ? 2022-09-20 10:57 ? 次閱讀


為了更好地實(shí)現(xiàn)對(duì)項(xiàng)目的管理,我們將組內(nèi)一個(gè)項(xiàng)目遷移到MDP框架(基于Spring Boot),隨后我們就發(fā)現(xiàn)系統(tǒng)會(huì)頻繁報(bào)出Swap區(qū)域使用量過(guò)高的異常。筆者被叫去幫忙查看原因,發(fā)現(xiàn)配置了4G堆內(nèi)內(nèi)存,但是實(shí)際使用的物理內(nèi)存竟然高達(dá)7G,確實(shí)不正常。JVM參數(shù)配置是“-XX:MetaspaceSize=256M -XX:MaxMetaspaceSize=256M -XX:+AlwaysPreTouch -XX:ReservedCodeCacheSize=128m -XX:InitialCodeCacheSize=128m, -Xss512k -Xmx4g -Xms4g,-XX:+UseG1GC -XX:G1HeapRegionSize=4M”,實(shí)際使用的物理內(nèi)存如下圖所示:

d7002dc8-388d-11ed-ba43-dac502259ad0.jpgtop命令顯示的內(nèi)存情況

排查過(guò)程

1. 使用Java層面的工具定位內(nèi)存區(qū)域(堆內(nèi)內(nèi)存、Code區(qū)域或者使用unsafe.allocateMemory和DirectByteBuffer申請(qǐng)的堆外內(nèi)存)

筆者在項(xiàng)目中添加-XX:NativeMemoryTracking=detailJVM參數(shù)重啟項(xiàng)目,使用命令jcmd pid VM.native_memory detail查看到的內(nèi)存分布如下:

d734cfd8-388d-11ed-ba43-dac502259ad0.jpgjcmd顯示的內(nèi)存情況

發(fā)現(xiàn)命令顯示的committed的內(nèi)存小于物理內(nèi)存,因?yàn)閖cmd命令顯示的內(nèi)存包含堆內(nèi)內(nèi)存、Code區(qū)域、通過(guò)unsafe.allocateMemory和DirectByteBuffer申請(qǐng)的內(nèi)存,但是不包含其他Native Code(C代碼)申請(qǐng)的堆外內(nèi)存。所以猜測(cè)是使用Native Code申請(qǐng)內(nèi)存所導(dǎo)致的問題。

為了防止誤判,筆者使用了pmap查看內(nèi)存分布,發(fā)現(xiàn)大量的64M的地址;而這些地址空間不在jcmd命令所給出的地址空間里面,基本上就斷定就是這些64M的內(nèi)存所導(dǎo)致。

d79e3856-388d-11ed-ba43-dac502259ad0.jpg

pmap顯示的內(nèi)存情況

2、使用系統(tǒng)層面的工具定位堆外內(nèi)存

因?yàn)楣P者已經(jīng)基本上確定是Native Code所引起,而Java層面的工具不便于排查此類問題,只能使用系統(tǒng)層面的工具去定位問題。

首先,使用了gperftools去定位問題

gperftools的使用方法可以參考gperftools,gperftools的監(jiān)控如下:

d7cb1f56-388d-11ed-ba43-dac502259ad0.jpggperftools監(jiān)控

從上圖可以看出:使用malloc申請(qǐng)的的內(nèi)存最高到3G之后就釋放了,之后始終維持在700M-800M。筆者第一反應(yīng)是:難道Native Code中沒有使用malloc申請(qǐng),直接使用mmap/brk申請(qǐng)的?(gperftools原理就使用動(dòng)態(tài)鏈接的方式替換了操作系統(tǒng)默認(rèn)的內(nèi)存分配器(glibc)。)

然后,使用strace去追蹤系統(tǒng)調(diào)用

因?yàn)槭褂胓perftools沒有追蹤到這些內(nèi)存,于是直接使用命令“strace -f -e”brk,mmap,munmap” -p pid”追蹤向OS申請(qǐng)內(nèi)存請(qǐng)求,但是并沒有發(fā)現(xiàn)有可疑內(nèi)存申請(qǐng)。strace監(jiān)控如下圖所示:

d7fb8a92-388d-11ed-ba43-dac502259ad0.jpg

strace監(jiān)控

接著,使用GDB去dump可疑內(nèi)存

因?yàn)槭褂胹trace沒有追蹤到可疑內(nèi)存申請(qǐng);于是想著看看內(nèi)存中的情況。就是直接使用命令gdp -pid pid進(jìn)入GDB之后,然后使用命令dump memory mem.bin startAddress endAddressdump內(nèi)存,其中startAddress和endAddress可以從/proc/pid/smaps中查找。然后使用strings mem.bin查看dump的內(nèi)容,如下:

d814676a-388d-11ed-ba43-dac502259ad0.jpg

gperftools監(jiān)控

從內(nèi)容上來(lái)看,像是解壓后的JAR包信息。讀取JAR包信息應(yīng)該是在項(xiàng)目啟動(dòng)的時(shí)候,那么在項(xiàng)目啟動(dòng)之后使用strace作用就不是很大了。所以應(yīng)該在項(xiàng)目啟動(dòng)的時(shí)候使用strace,而不是啟動(dòng)完成之后。

再次,項(xiàng)目啟動(dòng)時(shí)使用strace去追蹤系統(tǒng)調(diào)用

項(xiàng)目啟動(dòng)使用strace追蹤系統(tǒng)調(diào)用,發(fā)現(xiàn)確實(shí)申請(qǐng)了很多64M的內(nèi)存空間,截圖如下:

d8368c00-388d-11ed-ba43-dac502259ad0.jpgstrace監(jiān)控

使用該mmap申請(qǐng)的地址空間在pmap對(duì)應(yīng)如下:

d85ca2b4-388d-11ed-ba43-dac502259ad0.jpgstrace申請(qǐng)內(nèi)容對(duì)應(yīng)的pmap地址空間

最后,使用jstack去查看對(duì)應(yīng)的線程

因?yàn)閟trace命令中已經(jīng)顯示申請(qǐng)內(nèi)存的線程ID。直接使用命令jstack pid去查看線程棧,找到對(duì)應(yīng)的線程棧(注意10進(jìn)制和16進(jìn)制轉(zhuǎn)換)如下:

d8b179ba-388d-11ed-ba43-dac502259ad0.jpgstrace申請(qǐng)空間的線程棧

這里基本上就可以看出問題來(lái)了:MCC(美團(tuán)統(tǒng)一配置中心)使用了Reflections進(jìn)行掃包,底層使用了Spring Boot去加載JAR。因?yàn)榻鈮篔AR使用Inflater類,需要用到堆外內(nèi)存,然后使用Btrace去追蹤這個(gè)類,棧如下:

d8d5867a-388d-11ed-ba43-dac502259ad0.jpg

btrace追蹤棧

然后查看使用MCC的地方,發(fā)現(xiàn)沒有配置掃包路徑,默認(rèn)是掃描所有的包。于是修改代碼,配置掃包路徑,發(fā)布上線后內(nèi)存問題解決。

3、為什么堆外內(nèi)存沒有釋放掉呢?

雖然問題已經(jīng)解決了,但是有幾個(gè)疑問:

  • 為什么使用舊的框架沒有問題?
  • 為什么堆外內(nèi)存沒有釋放?
  • 為什么內(nèi)存大小都是64M,JAR大小不可能這么大,而且都是一樣大?
  • 為什么gperftools最終顯示使用的的內(nèi)存大小是700M左右,解壓包真的沒有使用malloc申請(qǐng)內(nèi)存嗎?

帶著疑問,筆者直接看了一下Spring Boot Loader那一塊的源碼。發(fā)現(xiàn)Spring Boot對(duì)Java JDK的InflaterInputStream進(jìn)行了包裝并且使用了Inflater,而Inflater本身用于解壓JAR包的需要用到堆外內(nèi)存。而包裝之后的類ZipInflaterInputStream沒有釋放Inflater持有的堆外內(nèi)存。于是筆者以為找到了原因,立馬向Spring Boot社區(qū)反饋了這個(gè)bug。但是反饋之后,筆者就發(fā)現(xiàn)Inflater這個(gè)對(duì)象本身實(shí)現(xiàn)了finalize方法,在這個(gè)方法中有調(diào)用釋放堆外內(nèi)存的邏輯。也就是說(shuō)Spring Boot依賴于GC釋放堆外內(nèi)存。

筆者使用jmap查看堆內(nèi)對(duì)象時(shí),發(fā)現(xiàn)已經(jīng)基本上沒有Inflater這個(gè)對(duì)象了。于是就懷疑GC的時(shí)候,沒有調(diào)用finalize。帶著這樣的懷疑,筆者把Inflater進(jìn)行包裝在Spring Boot Loader里面替換成自己包裝的Inflater,在finalize進(jìn)行打點(diǎn)監(jiān)控,結(jié)果finalize方法確實(shí)被調(diào)用了。于是筆者又去看了Inflater對(duì)應(yīng)的C代碼,發(fā)現(xiàn)初始化的使用了malloc申請(qǐng)內(nèi)存,end的時(shí)候也調(diào)用了free去釋放內(nèi)存。

此刻,筆者只能懷疑free的時(shí)候沒有真正釋放內(nèi)存,便把Spring Boot包裝的InflaterInputStream替換成Java JDK自帶的,發(fā)現(xiàn)替換之后,內(nèi)存問題也得以解決了。

這時(shí),再返過(guò)來(lái)看gperftools的內(nèi)存分布情況,發(fā)現(xiàn)使用Spring Boot時(shí),內(nèi)存使用一直在增加,突然某個(gè)點(diǎn)內(nèi)存使用下降了好多(使用量直接由3G降為700M左右)。這個(gè)點(diǎn)應(yīng)該就是GC引起的,內(nèi)存應(yīng)該釋放了,但是在操作系統(tǒng)層面并沒有看到內(nèi)存變化,那是不是沒有釋放到操作系統(tǒng),被內(nèi)存分配器持有了呢?

繼續(xù)探究,發(fā)現(xiàn)系統(tǒng)默認(rèn)的內(nèi)存分配器(glibc 2.12版本)和使用gperftools內(nèi)存地址分布差別很明顯,2.5G地址使用smaps發(fā)現(xiàn)它是屬于Native Stack。內(nèi)存地址分布如下:

d94771f4-388d-11ed-ba43-dac502259ad0.jpggperftools顯示的內(nèi)存地址分布

到此,基本上可以確定是內(nèi)存分配器在搗鬼;搜索了一下glibc 64M,發(fā)現(xiàn)glibc從2.11開始對(duì)每個(gè)線程引入內(nèi)存池(64位機(jī)器大小就是64M內(nèi)存),原文如下:

daa424d4-388d-11ed-ba43-dac502259ad0.jpgglib內(nèi)存池說(shuō)明

按照文中所說(shuō)去修改MALLOC_ARENA_MAX環(huán)境變量,發(fā)現(xiàn)沒什么效果。查看tcmalloc(gperftools使用的內(nèi)存分配器)也使用了內(nèi)存池方式。

為了驗(yàn)證是內(nèi)存池搞的鬼,筆者就簡(jiǎn)單寫個(gè)不帶內(nèi)存池的內(nèi)存分配器。使用命令gcc zjbmalloc.c -fPIC -shared -o zjbmalloc.so生成動(dòng)態(tài)庫(kù),然后使用export LD_PRELOAD=zjbmalloc.so替換掉glibc的內(nèi)存分配器。其中代碼Demo如下:

#include
#include
#include
#include
//作者使用的64位機(jī)器,sizeof(size_t)也就是sizeof(long)
void*malloc(size_tsize)
{
long*ptr=mmap(0,size+sizeof(long),PROT_READ|PROT_WRITE,MAP_PRIVATE|MAP_ANONYMOUS,0,0);
if(ptr==MAP_FAILED){
returnNULL;
}
*ptr=size;//First8bytescontainlength.
return(void*)(&ptr[1]);//Memorythatisafterlengthvariable
}

void*calloc(size_tn,size_tsize){
void*ptr=malloc(n*size);
if(ptr==NULL){
returnNULL;
}
memset(ptr,0,n*size);
returnptr;
}
void*realloc(void*ptr,size_tsize)
{
if(size==0){
free(ptr);
returnNULL;
}
if(ptr==NULL){
returnmalloc(size);
}
long*plen=(long*)ptr;
plen--;//Reachtopofmemory
longlen=*plen;
if(size<=?len)?{
returnptr;
}
void*rptr=malloc(size);
if(rptr==NULL){
free(ptr);
returnNULL;
}
rptr=memcpy(rptr,ptr,len);
free(ptr);
returnrptr;
}

voidfree(void*ptr)
{
if(ptr==NULL){
return;
}
long*plen=(long*)ptr;
plen--;//Reachtopofmemory
longlen=*plen;//Readlength
munmap((void*)plen,len+sizeof(long));
}

通過(guò)在自定義分配器當(dāng)中埋點(diǎn)可以發(fā)現(xiàn)其實(shí)程序啟動(dòng)之后應(yīng)用實(shí)際申請(qǐng)的堆外內(nèi)存始終在700M-800M之間,gperftools監(jiān)控顯示內(nèi)存使用量也是在700M-800M左右。但是從操作系統(tǒng)角度來(lái)看進(jìn)程占用的內(nèi)存差別很大(這里只是監(jiān)控堆外內(nèi)存)。

筆者做了一下測(cè)試,使用不同分配器進(jìn)行不同程度的掃包,占用的內(nèi)存如下:

dad088ee-388d-11ed-ba43-dac502259ad0.jpg內(nèi)存測(cè)試對(duì)比

為什么自定義的malloc申請(qǐng)800M,最終占用的物理內(nèi)存在1.7G呢?

因?yàn)樽远x內(nèi)存分配器采用的是mmap分配內(nèi)存,mmap分配內(nèi)存按需向上取整到整數(shù)個(gè)頁(yè),所以存在著巨大的空間浪費(fèi)。通過(guò)監(jiān)控發(fā)現(xiàn)最終申請(qǐng)的頁(yè)面數(shù)目在536k個(gè)左右,那實(shí)際上向系統(tǒng)申請(qǐng)的內(nèi)存等于512k * 4k(pagesize) = 2G。為什么這個(gè)數(shù)據(jù)大于1.7G呢?

因?yàn)椴僮飨到y(tǒng)采取的是延遲分配的方式,通過(guò)mmap向系統(tǒng)申請(qǐng)內(nèi)存的時(shí)候,系統(tǒng)僅僅返回內(nèi)存地址并沒有分配真實(shí)的物理內(nèi)存。只有在真正使用的時(shí)候,系統(tǒng)產(chǎn)生一個(gè)缺頁(yè)中斷,然后再分配實(shí)際的物理Page。

基于 Spring Boot + MyBatis Plus + Vue & Element 實(shí)現(xiàn)的后臺(tái)管理系統(tǒng) + 用戶小程序,支持 RBAC 動(dòng)態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能

  • 項(xiàng)目地址:https://gitee.com/zhijiantianya/ruoyi-vue-pro
  • 視頻教程:https://doc.iocoder.cn/video/

總結(jié)

daec1d2a-388d-11ed-ba43-dac502259ad0.jpg流程圖

整個(gè)內(nèi)存分配的流程如上圖所示。MCC掃包的默認(rèn)配置是掃描所有的JAR包。在掃描包的時(shí)候,Spring Boot不會(huì)主動(dòng)去釋放堆外內(nèi)存,導(dǎo)致在掃描階段,堆外內(nèi)存占用量一直持續(xù)飆升。當(dāng)發(fā)生GC的時(shí)候,Spring Boot依賴于finalize機(jī)制去釋放了堆外內(nèi)存;但是glibc為了性能考慮,并沒有真正把內(nèi)存歸返到操作系統(tǒng),而是留下來(lái)放入內(nèi)存池了,導(dǎo)致應(yīng)用層以為發(fā)生了“內(nèi)存泄漏”。所以修改MCC的配置路徑為特定的JAR包,問題解決。筆者在發(fā)表這篇文章時(shí),發(fā)現(xiàn)Spring Boot的最新版本(2.0.5.RELEASE)已經(jīng)做了修改,在ZipInflaterInputStream主動(dòng)釋放了堆外內(nèi)存不再依賴GC;所以Spring Boot升級(jí)到最新版本,這個(gè)問題也可以得到解決。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • JAVA
    +關(guān)注

    關(guān)注

    19

    文章

    2943

    瀏覽量

    104107
  • 追蹤系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    9244

原文標(biāo)題:唉,一次堆外內(nèi)存泄露讓整個(gè)團(tuán)隊(duì)通宵處理到爆肝!

文章出處:【微信號(hào):芋道源碼,微信公眾號(hào):芋道源碼】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Java語(yǔ)言、idea開發(fā)工具、MYSQL數(shù)據(jù)庫(kù)開發(fā)的UWB定位技術(shù)系統(tǒng)源碼

    Java語(yǔ)言+?idea開發(fā)工具+?MYSQL?數(shù)據(jù)庫(kù)開發(fā)的 UWB定位技術(shù)系統(tǒng)源碼 實(shí)現(xiàn)人員/設(shè)備/車輛實(shí)時(shí)軌跡定位 UWB高精度人員定位
    的頭像 發(fā)表于 06-24 09:33 ?286次閱讀
    <b class='flag-5'>Java</b>語(yǔ)言、idea開發(fā)<b class='flag-5'>工具</b>、MYSQL數(shù)據(jù)庫(kù)開發(fā)的UWB<b class='flag-5'>定位</b>技術(shù)系統(tǒng)源碼

    weblogic設(shè)置jvm內(nèi)存大小

    如何設(shè)置WebLogic服務(wù)器的JVM內(nèi)存大小。 一、了解JVM內(nèi)存 JVM(Java Virtual Machine)是Java應(yīng)用程序的運(yùn)行環(huán)境。JVM使用一個(gè)被稱為堆(Heap)
    的頭像 發(fā)表于 12-05 14:44 ?2644次閱讀

    java虛擬機(jī)內(nèi)存包括遠(yuǎn)空間內(nèi)存

    詳細(xì)介紹JVM內(nèi)存的各個(gè)部分及其作用。 Java堆(Heap) Java堆是JVM管理的最大一塊內(nèi)存區(qū)域,用于存放
    的頭像 發(fā)表于 12-05 14:15 ?308次閱讀

    jvm內(nèi)存區(qū)域中,哪一塊是屬于線程共享

    JVM(Java虛擬機(jī))是一種計(jì)算機(jī)軟件,用于執(zhí)行Java字節(jié)碼。在JVM中,存在多個(gè)內(nèi)存區(qū)域,包括線程共享的內(nèi)存
    的頭像 發(fā)表于 12-05 14:14 ?1092次閱讀

    jvm內(nèi)存區(qū)域由哪幾部分組成

    JVM(Java Virtual Machine)是Java程序運(yùn)行的環(huán)境,在JVM中存在著多個(gè)不同功能的內(nèi)存區(qū)域。這些內(nèi)存
    的頭像 發(fā)表于 12-05 14:10 ?654次閱讀

    jvm運(yùn)行時(shí)內(nèi)存區(qū)域劃分

    內(nèi)存區(qū)域劃分對(duì)于了解Java程序的內(nèi)存使用非常重要,本文將詳細(xì)介紹JVM運(yùn)行時(shí)的內(nèi)存區(qū)域劃分。
    的頭像 發(fā)表于 12-05 14:08 ?416次閱讀

    jvm哪些區(qū)域會(huì)發(fā)生oom

    JVM 是 Java 虛擬機(jī)的縮寫,是Java程序的運(yùn)行平臺(tái)。JVM 內(nèi)存被劃分為不同的區(qū)域,每個(gè)區(qū)域負(fù)責(zé)不同的任務(wù)和存儲(chǔ)不同類型的數(shù)據(jù)。其
    的頭像 發(fā)表于 12-05 11:51 ?1152次閱讀

    jvm內(nèi)存分析命令和工具

    JVM內(nèi)存分析是Java開發(fā)和調(diào)優(yōu)過(guò)程中非常重要的一部分。通過(guò)對(duì)JVM內(nèi)存分析命令和工具的深入了解和使用,可以幫助開發(fā)人員識(shí)別內(nèi)存泄漏、性能
    的頭像 發(fā)表于 12-05 11:07 ?981次閱讀

    jvm內(nèi)存溢出該如何定位解決

    超出限制和堆空間不足。 定位JVM內(nèi)存溢出問題是一個(gè)比較復(fù)雜的任務(wù),需要結(jié)合工具和技術(shù)來(lái)進(jìn)行分析和解決。本文將介紹一些常用的調(diào)試和解決內(nèi)存溢出問題的
    的頭像 發(fā)表于 12-05 11:05 ?1133次閱讀

    jmap dump內(nèi)存的命令是

    jmap dump是Java內(nèi)存映像工具Java Memory Map Tool)的一個(gè)功能,用于生成Java虛擬機(jī)(JVM)中的堆
    的頭像 發(fā)表于 12-05 10:38 ?2699次閱讀

    如何查看java程序的內(nèi)存分布

    要查看Java程序的內(nèi)存分布,首先需要了解Java程序運(yùn)行時(shí)的內(nèi)存模型。 Java程序的內(nèi)存分布
    的頭像 發(fā)表于 11-23 14:47 ?891次閱讀

    java內(nèi)存溢出排查方法

    Java內(nèi)存溢出(Memory overflow)是指Java虛擬機(jī)(JVM)中的堆內(nèi)存無(wú)法滿足對(duì)象分配的需求,導(dǎo)致程序拋出OutOfMemoryError異常。
    的頭像 發(fā)表于 11-23 14:46 ?2390次閱讀

    java內(nèi)存溢出的幾種原因和解決辦法

    Java是一種使用垃圾回收機(jī)制的編程語(yǔ)言,由于自動(dòng)內(nèi)存管理機(jī)制的存在,Java程序中發(fā)生內(nèi)存溢出(Out of Memory)錯(cuò)誤的情況相對(duì)較少。然而,雖然
    的頭像 發(fā)表于 11-23 14:44 ?5207次閱讀

    線程內(nèi)存泄漏問題的定位

    記錄一個(gè)關(guān)于線程內(nèi)存泄漏問題的定位過(guò)程,以及過(guò)程中的收獲。 1. 初步定位 是否存在內(nèi)存泄漏:想到內(nèi)存泄漏,首先查看/proc/meminf
    的頭像 發(fā)表于 11-13 11:38 ?511次閱讀
    線程<b class='flag-5'>內(nèi)存</b>泄漏問題的<b class='flag-5'>定位</b>

    如何寫一個(gè)內(nèi)存泄漏檢測(cè)工具

    如何確定有內(nèi)存泄露問題,如何定位內(nèi)存泄露位置,如何寫一個(gè)內(nèi)存泄漏檢測(cè)工具? 1:概述 內(nèi)存泄露
    的頭像 發(fā)表于 11-11 16:19 ?709次閱讀