0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么會有進程被kill掉的情況?

Linux閱碼場 ? 來源:卯時卯刻 ? 作者:卯時卯刻 ? 2021-05-03 11:49 ? 次閱讀

先來看段代碼:

0a348222-9e23-11eb-8b86-12bb97331649.png

這段代碼非常簡單,就是先用mmap的方式,為該進程分配10GiB的虛擬內(nèi)存,然后再用page寫的方式,讓操作系統(tǒng)為這10GiB虛擬內(nèi)存,分配對應的物理內(nèi)存,最后sleep,等待我們測試。

運行下:

0a40d66c-9e23-11eb-8b86-12bb97331649.png

沒啥問題,和我們預期的一樣,正常執(zhí)行。

打開另一個終端,執(zhí)行以下命令,看下它的內(nèi)存占用:

0a5cb210-9e23-11eb-8b86-12bb97331649.png

上圖中的VSZ指的是虛擬內(nèi)存,RSS指的是物理內(nèi)存,單位都是KiB,所以該進程虛擬內(nèi)存和物理內(nèi)存的使用,都約等于10GiB,沒問題。

我們再開個終端,再執(zhí)行下這個程序:

0a664b22-9e23-11eb-8b86-12bb97331649.png

第二次執(zhí)行這個程序也沒問題,但奇怪的是,此時第一次執(zhí)行的那個程序卻被kill掉了:

0a6e7a9a-9e23-11eb-8b86-12bb97331649.png

這是為什么呢?

上面我們說到,該程序的邏輯是分配10GiB的物理內(nèi)存,所以運行兩次,也就是要分配20GiB的物理內(nèi)存。

但在我們的測試機器上,物理內(nèi)存一共才16GiB,所以,運行兩個這樣的進程肯定是不行的。

在第二次執(zhí)行該程序,且向操作系統(tǒng)申請物理內(nèi)存時,操作系統(tǒng)會發(fā)現(xiàn),物理內(nèi)存已經(jīng)沒有了。

此時,為了防止整個系統(tǒng)crash掉,linux內(nèi)核會觸發(fā) OOM/Out of Memory killing 機制,即按照一定的規(guī)則選擇一個進程,將其kill掉,以便回收物理內(nèi)存,以此來保證機器整體的穩(wěn)定運行。

同時,該kill事件,也會被記錄到內(nèi)核日志中,且可通過dmesg命令等方式查看。

比如上面第一個進程被kill掉的事件記錄如下:

0a76c196-9e23-11eb-8b86-12bb97331649.png

看上面紅色字體行,該行是說,進程14134因為out of memory被linux內(nèi)核kill掉了,該進程正是上面我們第一次執(zhí)行的那個程序。

linux內(nèi)核的oom killing機制,其實是一種棄車保帥的做法,因為如果我們不kill掉某進程,來釋放物理內(nèi)存的話,那很有可能會導致后續(xù)系統(tǒng)級別的crash,兩害相權(quán)取其輕,操作系統(tǒng)只能這樣處理,歸根結(jié)底,是我們對進程使用物理內(nèi)存的規(guī)劃不足,才導致了這種情況。

那為什么不在第二次執(zhí)行該程序時,在調(diào)用mmap分配虛擬內(nèi)存時就直接報錯,返回無法分配內(nèi)存呢?

這是因為,經(jīng)過多年觀察,linux內(nèi)核的開發(fā)人員發(fā)現(xiàn),絕大部分程序在分配了很大的虛擬內(nèi)存之后,在大部分時間里,并不會一直使用這么多的物理內(nèi)存。

所以,為了更合理更高效的利用物理內(nèi)存資源,linux內(nèi)核允許虛擬內(nèi)存的overcommit,即,例如在上面執(zhí)行mmap分配虛擬內(nèi)存時,linux內(nèi)核并不會嚴格檢查,所有運行中的進程分配的虛擬內(nèi)存加起來,是否超過了整個物理內(nèi)存大小。

這也就解釋了為什么上面第二次運行該程序時,mmap是沒有報錯的。

但是,雖然mmap的虛擬內(nèi)存分配成功了,但當真正使用該內(nèi)存時,比如上面的寫內(nèi)存,此時要分配物理內(nèi)存,則是有可能失敗的,因為虛擬內(nèi)存的overcommit,很可能導致后續(xù)的物理內(nèi)存不足。

如果真的發(fā)生了這種情況,就會觸發(fā)linux內(nèi)核的oom killing機制,即linux內(nèi)核中的oom killer會按一定的規(guī)則,選一個進程,將其kill掉,這個上面我們已經(jīng)演示過了。

那為什么不kill掉第二個進程,而是kill掉第一個呢?

這個和linux內(nèi)核中oom killer的選擇策略有關(guān),我們直接看源碼:

0aa91f38-9e23-11eb-8b86-12bb97331649.png

當進程請求操作系統(tǒng)為其分配物理內(nèi)存時,如果此時物理內(nèi)存已經(jīng)沒有了,則會觸發(fā)上圖中的out_of_memory函數(shù)。

該函數(shù)中,會使用select_bad_process選擇要被kill掉的進程,然后使用oom_kill_process將其kill掉,來釋放物理內(nèi)存。

在看select_bad_process之前,我們先看下oom_kill_process:

0ab88afe-9e23-11eb-8b86-12bb97331649.png

該函數(shù)調(diào)用了__oom_kill_process:

0ac0c048-9e23-11eb-8b86-12bb97331649.png

在上面的函數(shù)中,通過向victim進程發(fā)送SIGKILL這個signal(我們平時使用的kill -9命令,就是用的這個signal),將其kill掉,然后該kill事件,會被記錄到內(nèi)核日志中。

注意,這里記錄的日志格式,正好和我們上面用dmesg輸出的,14134進程被kill掉事件日志格式完全一樣。

kill掉進程的過程就是這樣,我們再來看下select_bad_process函數(shù)是如何選擇要被kill掉進程的:

0ae7db74-9e23-11eb-8b86-12bb97331649.png

在該函數(shù)中,會遍歷系統(tǒng)中的所有進程,然后使用oom_evaluate_task這個函數(shù),對各個進程進行評估:

0b25afbc-9e23-11eb-8b86-12bb97331649.png

oom_evaluate_task函數(shù)中,會使用oom_badness,計算某進程badness的點數(shù),點數(shù)越高,越容易被kill掉。

如果badness的點數(shù)是LONG_MIN這個特殊值,則直接跳過該進程,即該進程不會成為被kill掉的對象,如果badness點數(shù)小于之前選擇進程的badness點數(shù),同樣也跳過該進程,即被kill掉的進程badness點數(shù)要是最大的。

遍歷中選擇的進程,及其badness的點數(shù),會被賦值到oc-》chosen和oc-》chosen_points里,oc-》chosen最終指向的進程,就是上面oom_kill_process里kill掉的進程。

我們再來看下badness點數(shù)是如何計算的:

0b9e1fce-9e23-11eb-8b86-12bb97331649.png

該函數(shù)主體邏輯分成兩部分,一部分是,在某些情況下,該進程的badness點數(shù)直接返回LONG_MIN,即不會被kill掉。

這些情況包括,oom_score_adj的值為OOM_SCORE_ADJ_MIN,即-1000,或者該進程已經(jīng)在被kill的過程中了,或者該進程在vfork過程中。

該函數(shù)邏輯的另外一部分就是計算進程的badness點數(shù),其大致計算規(guī)則為:

points = 該進程占用的物理內(nèi)存總數(shù) + 總物理內(nèi)存 * oom_score_adj值的千分比。

oom_score_adj的值,是進程獨有的,是可以通過寫 /proc/[pid]/oom_score_adj 的方式調(diào)整的,取值范圍為 -1000 到 1000。

該值越大,進程總的badness點數(shù)就會越大,進程也就越容易被kill掉。

該值越小,進程總的badness點數(shù)就會越小,該進程也就越不容易被kill掉。

上面我們還提到oom_score_adj有一個特殊值為OOM_SCORE_ADJ_MIN,即-1000,表示該進程不能被kill掉。

各進程的oom_score_adj的值默認為0。

綜上可知,linux內(nèi)核中oom killer選擇被kill進程的方式,就是看各進程badness點數(shù)的大小。

默認情況下,因為各進程的oom_score_adj的值都為0,所以進程占用的物理內(nèi)存越大,其badness點數(shù)也就越大,其也就越容易被kill掉。

這也就解釋了,為什么上面在第二次執(zhí)行那個程序時,被kill掉的是第一次執(zhí)行的那個進程,而不是第二次執(zhí)行的進程,因為第一次執(zhí)行的那個進程,占用的物理內(nèi)存更大。

其實,調(diào)整linux內(nèi)核中oom killer行為的方式有很多,不止修改oom_score_adj值這一種方法。

比如,通過修改 /proc/sys/vm/panic_on_oom 的值,可以讓整個系統(tǒng)在物理內(nèi)存不夠時,直接panic,而不是選擇性的kill掉某個進程。

比如,通過修改 /proc/sys/vm/overcommit_memory 的值,可以使上面第二次執(zhí)行的測試程序,在使用mmap分配虛擬內(nèi)存時,就直接報錯,說內(nèi)存不夠。

比如,通過修改 /proc/[pid]/oom_adj 值的方式,同樣可以達到修改 /proc/[pid]/oom_score_adj 的目的,不過這個在內(nèi)核2.6.36版本之后已經(jīng)不推薦使用。

oom killer行為調(diào)整的相關(guān)參數(shù),其具體詳解可以看proc的man文檔:

https://man.archlinux.org/man/proc.5

聊了這么多,那理解linux內(nèi)核的oom killer機制,對于我們實際應用有哪些幫助呢?

我們假設(shè)以下場景:

假如,我們有一臺機器,上面跑著一個非常重要的服務,比如數(shù)據(jù)庫,或者某個應用進程等。

它非常耗內(nèi)存,但是正常情況下,它使用的物理內(nèi)存肯定不會高于實際總物理內(nèi)存大小。

有一天我們需要在這臺機器上執(zhí)行一項任務,如果這個任務也比較耗內(nèi)存,那很可能在執(zhí)行這項任務時,整臺機器的物理內(nèi)存就完全不夠用了,此時,就會觸發(fā)linux內(nèi)核的oom killing機制。

又因為在不調(diào)整oom_score_adj值的情況下,linux內(nèi)核中的oom killer默認kill掉的,就是占用物理內(nèi)存最多的那個進程,一般來說,就是我們數(shù)據(jù)庫進程,或其他應用進程,假設(shè)這個進程又是線上的一個重要服務,那它被kill掉了,你想一下這會是多么嚴重的一個事故。

那怎么避免呢?

此時,我們就可以使用上面提到的,用于調(diào)整進程badness點數(shù)的,oom_score_adj 這個參數(shù)。

比如,我們可以通過 echo -1000 》 /proc/[pid]/oom_score_adj 命令,將oom_score_adj的值設(shè)置為-1000,即該進程不能被kill掉。

又比如,還是通過上面的echo命令,將oom_score_adj的值修改為一個較小的值,來降低它被kill掉的概率。

但是,這些方法其實都不是完美的解決方式。

雖然該機器上的這個重要服務不被kill掉了,但操作系統(tǒng)為了保證整個系統(tǒng)不crash,還是會kill掉其他各種進程。

如果那些進程不重要還好,萬一重要的話,還是會相當嚴重的。

甚至,如果操作系統(tǒng)找不到可以kill掉的進程,那整個系統(tǒng)就會crash,這個就更嚴重了。

所以,最好的方式,還是人為去避免物理內(nèi)存不足的情況,在機器上跑各種程序時,要提前對整個物理內(nèi)存的使用,有個規(guī)劃和預判,最好是能預留出一些內(nèi)存,以防各種誤操作。

好了,該篇文章就講這些內(nèi)容,如果以后你發(fā)現(xiàn)你的進程,莫名奇妙就沒有了,可以通過dmesg等方式看下內(nèi)核日志,確定下你的進程是否被oom kill掉了。

希望本文對你有所幫助,可以的話也幫忙點個贊。

原文標題:為什么我的進程被kill掉了

文章出處:【微信公眾號:Linuxer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關(guān)注

    關(guān)注

    19

    文章

    7383

    瀏覽量

    87641
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4728

    瀏覽量

    68250

原文標題:為什么我的進程被kill掉了

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一文搞懂Linux進程的睡眠和喚醒

    ): 進程在等待某個條件滿足(如I/O操作),可以信號喚醒。 Linux通過內(nèi)核提供的系統(tǒng)調(diào)用來控制進程的睡眠。常用的系統(tǒng)調(diào)用有: sleep(): 使進程暫停指定的秒數(shù)。 usl
    發(fā)表于 11-04 15:15

    TLV320AIC3268在沒有任何模擬輸入的情況下,只要使能了micpag的M端CM信號,I2S的輸出端口就會有信號發(fā)出,為什么?

    現(xiàn)在做的項目遇到了這樣的一個問題:一路Single end信號進入codec模擬端,經(jīng)過AD送給ASI1,通信方式是I2S,在沒有任何模擬輸入的情況下(所有模擬信號隔直電容焊),只要使能了
    發(fā)表于 10-24 06:08

    android系統(tǒng)使用appe播放audio資源,相關(guān)進程kill之后appe無法再次打開的原因?

    android系統(tǒng)使用appe播放audio資源,相關(guān)進程kill之后appe無法再次打開,原因是appe資源被占用。 在Ti提供的demo中,通過 signal(SIGKILL
    發(fā)表于 10-23 07:56

    OPA657用作TIA進行光電信號探測時,輸出端會有信號抬高的問題怎么解決?

    OPA657用作TIA進行光電信號探測時,輸出端會有信號抬高的問題,是不是必須要通過調(diào)零來解決該問題呢?該如何調(diào)零呢?謝謝了!
    發(fā)表于 09-18 07:26

    嵌入式學習-常見的shell命令之其他命令

    進程,區(qū)別ps -el 可以更直觀看到進程的賬戶信息等6、Kill強制終止進程命令命令:kill功能:強制終止
    發(fā)表于 08-22 09:42

    常見的shell命令之其他命令

    進程,區(qū)別ps -el 可以更直觀看到進程的賬戶信息等6、Kill強制終止進程命令命令:kill功能:強制終止
    發(fā)表于 08-21 09:49

    INA188為何會有壓降的情況產(chǎn)生 ?

    我目前使用感測器的 0~5V 輸出連接到 INA188 的輸入端時會有 15mV 的壓降,即全幅輸出 5.000V 會變成 4.985V,在不接 INA188 時直接測量則無 15mV 的壓降,RG 為 50K 0.1% (放大2倍,使用正負12V雙電源),請問為何會有
    發(fā)表于 08-14 07:22

    STM32F103多次喚醒后會有死機情況怎么解決?

    使用STM32F103,從停止模式喚醒時調(diào)用以下函數(shù)進行時鐘初始化,外部晶振故障的情況下,單片機多次喚醒后會有死機情況,懷疑是在外部晶振故障的情況下啟動外部晶振,
    發(fā)表于 03-28 09:13

    當TPWM模塊kill事件模式為電平觸發(fā)時,如何設(shè)置電平極性,電平長短,以及Kill事件標記位?

    當TPWM模塊kill事件模式為電平觸發(fā)時,如何設(shè)置電平極性,電平長短,以及Kill事件標記位
    發(fā)表于 02-19 06:52

    普通探頭測高壓會有什么情況

    普通探頭測高壓會有什么情況? 普通探頭是一種常用于測量高壓的儀器。在使用普通探頭測量高壓時,可能會遇到一些情況和問題。本文將詳細介紹普通探頭測量高壓的原理、使用方法、注意事項以及常見問題及解決方法等
    的頭像 發(fā)表于 01-08 15:40 ?459次閱讀

    AD5410輸出0的問題怎么解決?

    我們在應該該芯片時,現(xiàn)場出現(xiàn)一個輸出0的問題,可是現(xiàn)場出現(xiàn)輸出隨機0的情況,附件是我們的原理圖。具體設(shè)計如下: 1. 使用內(nèi)部電源(DVcc) 2. 使用內(nèi)部Rset 3. 設(shè)置輸出
    發(fā)表于 12-14 06:16

    linux查看weblogic進程

    和性能情況。本文將詳細介紹在Linux系統(tǒng)中如何查看WebLogic進程。 一、使用ps命令查看WebLogic進程 打開終端,使用以下命令查看所有WebLogic進程及其詳細信息:
    的頭像 發(fā)表于 12-05 16:07 ?1764次閱讀

    為什么不建議用kill-9關(guān)閉程序?

    相信不少Linux運維小伙伴在實際運維中經(jīng)常會用到kill -9 進程ID 這個命令來干掉程序。實際真的合理嗎,今天就讓我們一起來看看為什么技術(shù)牛人都不建議用kill -9關(guān)閉程序,看看該命令背后是咋樣的!
    的頭像 發(fā)表于 12-04 09:39 ?2501次閱讀
    為什么不建議用<b class='flag-5'>kill</b>-9關(guān)閉程序?

    devc怎么注釋一段代碼

    DevC中,有兩種類型的注釋符號可供使用:單行注釋和多行注釋。 單行注釋:用于注釋單行代碼。在要注釋的代碼行前面添加兩個斜杠(//),該行代碼將被注釋。 示例: int x = 5 ; // printf("x的值是:%d", x); // 這行代碼
    的頭像 發(fā)表于 11-22 10:23 ?2317次閱讀

    c語言怎么把代碼全部注釋

    要將C語言代碼全部注釋,即不讓代碼編譯和執(zhí)行,可以使用注釋語句來實現(xiàn)。C語言提供兩種注釋方式:單行注釋和多行注釋。 單行注釋:使用雙斜杠(//)來注釋一行代碼。 示例: // 這是一行注釋的例子
    的頭像 發(fā)表于 11-22 10:21 ?6480次閱讀