0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)線上服務(wù)OOM的問題分享

jf_ro2CN3Fa ? 來(lái)源:蘇三說(shuō)技術(shù) ? 作者:蘇三呀 ? 2022-10-24 10:47 ? 次閱讀

前言

前一段時(shí)間,公司同事的一個(gè)線上服務(wù)OOM的問題,我覺得挺有意思的,在這里跟大家一起分享一下。

我當(dāng)時(shí)其實(shí)也參與了一部分問題的定位。

基于 Spring Boot + MyBatis Plus + Vue & Element 實(shí)現(xiàn)的后臺(tái)管理系統(tǒng) + 用戶小程序,支持 RBAC 動(dòng)態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能

項(xiàng)目地址:https://gitee.com/zhijiantianya/ruoyi-vue-pro

視頻教程:https://doc.iocoder.cn/video/

1 案發(fā)現(xiàn)場(chǎng)

他們有個(gè)mq消費(fèi)者服務(wù),在某一天下午,出現(xiàn)OOM了,導(dǎo)致服務(wù)直接掛掉。

當(dāng)時(shí)我們收到了很多內(nèi)存的報(bào)警郵件。

發(fā)現(xiàn)問題之后,運(yùn)維第一時(shí)間,幫他們dump了當(dāng)時(shí)的內(nèi)存快照,以便于開發(fā)人員好定位問題。

之后,運(yùn)維重啟了該服務(wù),系統(tǒng)暫時(shí)恢復(fù)了正常。

大家都知道,如果出現(xiàn)了線上OOM問題,為了不影響用戶的正常使用,最快的解決辦法就是重啟服務(wù)。

但重啟服務(wù)治標(biāo)不治本,只能臨時(shí)解決一下問題,如果不找到真正的原因,難免下次在某個(gè)不經(jīng)意的時(shí)間點(diǎn),又會(huì)出現(xiàn)OOM問題。

所以,有必要定位一下具體原因。

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 實(shí)現(xiàn)的后臺(tái)管理系統(tǒng) + 用戶小程序,支持 RBAC 動(dòng)態(tài)權(quán)限、多租戶、數(shù)據(jù)權(quán)限、工作流、三方登錄、支付、短信、商城等功能

項(xiàng)目地址:https://gitee.com/zhijiantianya/yudao-cloud

視頻教程:https://doc.iocoder.cn/video/

2 初步定位問題

當(dāng)時(shí)運(yùn)維dump下來(lái)的內(nèi)存快照文件有3G多,太大了,由于公司內(nèi)網(wǎng)限制,沒辦法及時(shí)給到開發(fā)這邊。

沒辦法,只能先從日志文件下手了。

在查日志之前,我們先查看了prometheus上的服務(wù)監(jiān)控。查到了當(dāng)時(shí)那個(gè)mq消費(fèi)者服務(wù)的內(nèi)存使用情況,該服務(wù)的內(nèi)存使用率一直都比較平穩(wěn),從2022-09-26 1429開始,出現(xiàn)了一個(gè)明顯的內(nèi)存飆升情況。

根據(jù)以往經(jīng)驗(yàn)總結(jié)出來(lái)的,在追查日志時(shí),時(shí)間點(diǎn)是一個(gè)非常重要的過(guò)濾條件。

所以,我們當(dāng)時(shí)重點(diǎn)排查了2022-09-26 1429前后5秒鐘的日志。

由于這個(gè)服務(wù),并發(fā)量不大,在那段時(shí)間的日志量并不多。

所以,我們很快就鎖定了excel文件導(dǎo)入導(dǎo)出功能。

該功能的流程圖如下:

f973d034-5341-11ed-a3b6-dac502259ad0.png

用戶通過(guò)瀏覽器上傳excel,調(diào)用文件上傳接口

該接口會(huì)上傳excel到文件服務(wù)器。然后將文件url,通過(guò)mq消息,發(fā)送到mq服務(wù)器。

mq消費(fèi)者消費(fèi)mq消息,從文件服務(wù)器中獲取excel數(shù)據(jù),做業(yè)務(wù)處理,然后把結(jié)果寫入新的excel中。

mq消費(fèi)者將新excel文件上傳到文件服務(wù)器,然后發(fā)websocket消息通知用戶。

用戶收到通知結(jié)果,然后可以下載新的excel。

經(jīng)過(guò)日志分析,時(shí)間點(diǎn)剛好吻合,從excel文件導(dǎo)入之后,mq消費(fèi)者服務(wù)的內(nèi)存使用率一下子飆升。

3. 打不開dump文件

從上面分析我們得出初步的結(jié)論,線上mq消費(fèi)者服務(wù)的OOM問題,是由于excel導(dǎo)入導(dǎo)出導(dǎo)致的。

于是,我們查看了相關(guān)excel文件導(dǎo)入導(dǎo)出代碼,并沒有發(fā)現(xiàn)明顯的異常。

為了找到根本原因,我們不得不把內(nèi)存快照解析出來(lái)。

此時(shí),運(yùn)維把內(nèi)存快照已經(jīng)想辦法發(fā)給了相關(guān)的開發(fā)人員(我的同事)。

那位同事用電腦上安裝的內(nèi)存分析工具:MAT(Memory Analyzer Tool),準(zhǔn)備打開那個(gè)內(nèi)存快照文件。

但由于該文件太大,占了3G多的內(nèi)存,直接打開失敗了。

f97f01b6-5341-11ed-a3b6-dac502259ad0.png

MemoryAnalyzer.ini文件默認(rèn)支持打開的內(nèi)存文件是1G,后來(lái)它將參數(shù)-xmx修改為4096m。

修改之后,文件可以打開了,但打開的內(nèi)容卻有問題。

猛然發(fā)現(xiàn),原來(lái)是JDK版本不匹配導(dǎo)致的。

他用的MAT工具是基于SunJDK,而我們生成環(huán)境用的OpenJDK,二者有些差異。

SunJDK采用JRL協(xié)議發(fā)布,而OpenJDK則采用GPL V2協(xié)議發(fā)布。兩個(gè)協(xié)議雖然都是開放源代碼的,但是在使用上的不同,GPL V2允許在商業(yè)上使用,而JRL只允許個(gè)人研究使用。

所以需要下載一個(gè)基于OpenJDK版本的MAT內(nèi)存分析工具。

4. 進(jìn)一步分析

剛好,另一個(gè)同事的電腦上下載過(guò)OpenJDK版本的MAT內(nèi)存分析工具。

把文件發(fā)給他幫忙分析了一下。

f9992820-5341-11ed-a3b6-dac502259ad0.png

最后發(fā)現(xiàn)org.apache.poi.xssf.usermodel.XSSFSheet類的對(duì)象占用的內(nèi)存是最多的。

f9bca20a-5341-11ed-a3b6-dac502259ad0.png

目前excel的導(dǎo)入導(dǎo)出功能,大部分是基于apache的POI技術(shù),而POI給我們提供了WorkBook接口。

常用的WorkBook接口實(shí)現(xiàn)有三種:

HSSFWorkbook:它是早期使用最多的工具,支持Excel2003以前的版本,Excel的擴(kuò)展名是.xls。只能導(dǎo)出65535條數(shù)據(jù),如果超過(guò)最大記錄條數(shù)會(huì)報(bào)錯(cuò),但不會(huì)出現(xiàn)內(nèi)存溢出。

XSSFWorkbook:它可以操作Excel2003-Excel2007之間的版本,Excel的擴(kuò)展名是.xlsx。最多可以導(dǎo)出104w條數(shù)據(jù),會(huì)創(chuàng)建大量的對(duì)象存放到內(nèi)存中,可能會(huì)導(dǎo)致內(nèi)存溢出。

SXSSFWorkbook:它可以操作Excel2007之后的所有版本,Excel的擴(kuò)展名是.xlsx。SXSSFWorkbook是streaming版本的XSSFWorkbook,它只會(huì)保存最新的rows在內(nèi)存里供查看,以前的rows都會(huì)被寫入到硬盤里。用磁盤空間換內(nèi)存空間,不會(huì)導(dǎo)致內(nèi)存溢出。

看到了這個(gè)類,可以驗(yàn)證之前我們通過(guò)日志分析問題,得出excel導(dǎo)入導(dǎo)出功能引起OOM的結(jié)論,是正確的。

那個(gè)引起OOM問題的功能,剛好使用了XSSFWorkbook處理excel,一次性創(chuàng)建了大量的對(duì)象。

關(guān)鍵代碼如下:

XSSFWorkbookwb=newXSSFWorkbook(newFileInputStream(file));
XSSFSheetsheet=wb.getSheetAt(0);

我們通過(guò)MAT內(nèi)存分析工具,已經(jīng)確定OOM問題的原因了。接下來(lái),最關(guān)鍵的一點(diǎn)是:如何解決這個(gè)問題呢?

5. 如何解決問題?

根據(jù)我們上面的分析,既然XSSFWorkbook在導(dǎo)入導(dǎo)出大excel文件時(shí),會(huì)導(dǎo)致內(nèi)存溢出。那么,我們改成SXSSFWorkbook不就行了?

關(guān)鍵代碼改動(dòng)如下:

XSSFWorkbookwb=newXSSFWorkbook(newFileInputStream(file));
SXSSFWorkbookswb=newSXSSFWorkbook(wb,100);
SXSSFSheetsheet=(SXSSFSheet)swb.createSheet("sheet1");

使用SXSSFWorkbook將XSSFWorkbook封裝了一層,其中100表示excel一次讀入內(nèi)存的最大記錄條數(shù),excel中其余的數(shù)據(jù)將會(huì)生成臨時(shí)文件保存到磁盤上。這個(gè)參數(shù),可以根據(jù)實(shí)際需要調(diào)整。

還有一點(diǎn)非常重要:

sheet.flushRows();

需要在程序的結(jié)尾處加上上面的這段代碼,不然生成的臨時(shí)文件是空的。

這樣調(diào)整之后,問題被暫時(shí)解決了。

此外,順便說(shuō)一句,在使用WorkBook接口的相關(guān)實(shí)現(xiàn)類時(shí),用完之后,要記得調(diào)用close方法及時(shí)關(guān)閉喔,不然也可能會(huì)出現(xiàn)OOM問題。

6. 后續(xù)思考

其實(shí),當(dāng)時(shí)我建議過(guò)使用阿里開源的EasyExcel解決OOM的問題。

但同事說(shuō),excel中有很多樣式,在導(dǎo)出的新excel中要保留之前的樣式,同時(shí)增加一列,返回導(dǎo)入的結(jié)果。

如果使用EasyExcel不太好處理,使用原始的Workbook更好處理一些。

但是使用mq異步導(dǎo)入excel文件這套方案,如果并發(fā)量大的話,任然可能會(huì)出現(xiàn)OOM問題,有安全隱患。

因此,有必要調(diào)整一下mq消費(fèi)者。

后來(lái),mq消費(fèi)者的線程池,設(shè)置成4個(gè)線程消費(fèi),避免消費(fèi)者同時(shí)處理過(guò)多的消息,讀取大量的excel,導(dǎo)致內(nèi)存占用過(guò)多的問題。當(dāng)然線程個(gè)數(shù)參數(shù),可以根據(jù)實(shí)際情況調(diào)整。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8960

    瀏覽量

    85085
  • URL
    URL
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    15298
  • mat
    mat
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    9434

原文標(biāo)題:線上踩坑記:項(xiàng)目中一次OOM的分析定位排查過(guò)程!

文章出處:【微信號(hào):芋道源碼,微信公眾號(hào):芋道源碼】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    ESP8266從Littlefs加載文件時(shí)它崩潰了的原因?

    在我的 ESP8266 中獲得了個(gè)帶有大量 javascript 的網(wǎng)絡(luò)服務(wù)器的程序。 當(dāng)我嘗試從 Littlefs 加載文件時(shí)它崩潰了。這可能不是原因,但是,我遇到了內(nèi)存不足的 OOM
    發(fā)表于 05-10 09:24

    linux內(nèi)核oom機(jī)制分析

    Linux 內(nèi)核有個(gè)機(jī)制叫OOM killer(Out-Of-Memory killer),該機(jī)制會(huì)監(jiān)控那些占用內(nèi)存過(guò)大,尤其是瞬間很快消耗大量?jī)?nèi)存的進(jìn)程,為了防止內(nèi)存耗盡而內(nèi)核會(huì)把該進(jìn)程殺掉。典型
    發(fā)表于 11-13 17:01 ?1276次閱讀
    linux內(nèi)核<b class='flag-5'>oom</b>機(jī)制分析

    運(yùn)營(yíng)商應(yīng)如何打造“看到即買到”的線上服務(wù)?

    為了打造“看到即買到”的線上服務(wù)能力,運(yùn)營(yíng)商需要找到并開放更多的線上入口,從過(guò)去的一對(duì)一點(diǎn)式服務(wù)升級(jí)為點(diǎn)對(duì)面的融合
    發(fā)表于 10-10 09:04 ?1973次閱讀

    一個(gè)線上虛擬展館多少錢?

    展館也由此火爆了起來(lái),許多展館紛紛推出線上游覽服務(wù),運(yùn)用5G、3D、VR/AR、AI等多種先進(jìn)技術(shù),結(jié)合圖像、視頻、語(yǔ)音,以第/第三視角規(guī)劃動(dòng)線導(dǎo)覽,讓客戶身臨其境體驗(yàn)虛擬展館,提升獲客效率。
    的頭像 發(fā)表于 10-25 14:24 ?1103次閱讀
    做<b class='flag-5'>一個(gè)</b><b class='flag-5'>線上</b>虛擬展館多少錢?

    OOM Killer機(jī)制學(xué)習(xí)

    當(dāng)系統(tǒng)內(nèi)存不足以分配時(shí),Linux內(nèi)核會(huì)使用OOM Killer(Out-Of-Memory Killer)機(jī)制釋放內(nèi)存,該機(jī)制通過(guò)系列比較選擇出最適合的進(jìn)程并將其kill掉,從而達(dá)到保障系統(tǒng)穩(wěn)定運(yùn)行的目的。那么在內(nèi)核中,
    的頭像 發(fā)表于 12-19 16:17 ?1107次閱讀

    什么是OOM機(jī)制?怎么防止進(jìn)程因?yàn)?b class='flag-5'>OOM機(jī)制而被殺掉?

    有時(shí)候我們會(huì)發(fā)現(xiàn)系統(tǒng)中某個(gè)進(jìn)程會(huì)突然掛掉,通過(guò)查看系統(tǒng)日志發(fā)現(xiàn)是由于 OOM機(jī)制 導(dǎo)致進(jìn)程被殺掉。
    的頭像 發(fā)表于 02-06 11:45 ?2741次閱讀

    圖解析K8S OOM和CPU節(jié)流

    使用 Kubernetes 時(shí),內(nèi)存不足 (OOM) 錯(cuò)誤和 CPU 節(jié)流是云應(yīng)用程序中資源處理的主要難題。
    的頭像 發(fā)表于 02-15 17:17 ?1268次閱讀

    什么是OOM機(jī)制?怎么防止進(jìn)程因?yàn)?b class='flag-5'>OOM機(jī)制而被殺掉?

    有時(shí)候我們會(huì)發(fā)現(xiàn)系統(tǒng)中某個(gè)進(jìn)程會(huì)突然掛掉,通過(guò)查看系統(tǒng)日志發(fā)現(xiàn)是由于 OOM機(jī)制 導(dǎo)致進(jìn)程被殺掉。
    的頭像 發(fā)表于 06-21 08:59 ?7809次閱讀
    什么是<b class='flag-5'>OOM</b>機(jī)制?怎么防止進(jìn)程因?yàn)?b class='flag-5'>OOM</b>機(jī)制而被殺掉?

    OOM會(huì)導(dǎo)致JVM虛擬機(jī)退出嗎

    OutOfMemoryError (OOM)。 這種錯(cuò)誤是 Error 的個(gè)子類,通常表示某種無(wú)法恢復(fù)的問題。 回到主題,先說(shuō)下結(jié)論: OutOfMemoryError 本身不會(huì)直接導(dǎo)致JVM退出,但由于其
    的頭像 發(fā)表于 09-30 10:14 ?745次閱讀

    如何部署個(gè)MQTT服務(wù)

    1. 選擇哪種MQTT實(shí)現(xiàn)方案 根據(jù)前面的介紹,可以知道,要想使用MQTT,必須要有個(gè)服務(wù)端。這個(gè)服務(wù)端既可以自己部署,也可以使用公有云
    的頭像 發(fā)表于 11-09 15:29 ?1013次閱讀

    jvm哪些區(qū)域會(huì)發(fā)生oom

    of Memory,OOM),本文將詳細(xì)介紹 JVM 內(nèi)容可能發(fā)生 OOM 的區(qū)域。OOM 是指應(yīng)用程序在申請(qǐng)分配內(nèi)存時(shí),沒有足夠的內(nèi)存供其使用,導(dǎo)致程序無(wú)法正常執(zhí)行。 堆(Heap)區(qū)域: 堆是 JVM 中最大的
    的頭像 發(fā)表于 12-05 11:51 ?1329次閱讀

    Java oom異常的原因分析

    據(jù),而棧內(nèi)存用于存儲(chǔ)方法調(diào)用和局部變量。 當(dāng)程序需要使用更多內(nèi)存時(shí),會(huì)向操作系統(tǒng)請(qǐng)求更多的內(nèi)存空間。如果操作系統(tǒng)無(wú)法分配足夠的內(nèi)存空間,就會(huì)導(dǎo)致OOM異常的發(fā)生。 導(dǎo)致OOM異常的原因有多種,下面將詳細(xì)介紹些常見的原因。 內(nèi)存
    的頭像 發(fā)表于 12-05 13:43 ?731次閱讀

    oom異常的原因和解決方法

    OOM異常的原因 OOM異常的出現(xiàn)通常是由于以下幾個(gè)原因造成的: 1.1 內(nèi)存泄漏 內(nèi)存泄漏是指資源在使用完畢后沒有被正確釋放或回收,從而導(dǎo)致內(nèi)存不斷占用的現(xiàn)象。常見的內(nèi)存泄漏問題包括對(duì)象未被
    的頭像 發(fā)表于 12-05 13:45 ?6275次閱讀

    Java怎么排查oom異常

    Java中的OOM(Out of Memory)異常是指當(dāng)Java虛擬機(jī)的堆內(nèi)存不足以容納新的對(duì)象時(shí)拋出的異常。OOM異常是種常見的運(yùn)行時(shí)異常,經(jīng)常出現(xiàn)在長(zhǎng)時(shí)間運(yùn)行的Java應(yīng)用程序或處理大數(shù)
    的頭像 發(fā)表于 12-05 13:47 ?1189次閱讀

    1.2MB數(shù)據(jù)如何吃掉10GB內(nèi)存

    個(gè)特殊請(qǐng)求引發(fā)服務(wù)器內(nèi)存用量暴漲進(jìn)而導(dǎo)致進(jìn)程 OOM 的慘案。
    的頭像 發(fā)表于 11-04 15:53 ?139次閱讀
    1.2MB數(shù)據(jù)如何吃掉10GB內(nèi)存