一、什么是僵死進(jìn)程?
一般情況下,程序調(diào)用exit(包括_exit和_Exit,它們的區(qū)別這里不做解釋),它的絕大多數(shù)內(nèi)存和相關(guān)的資源已經(jīng)被內(nèi)核釋放掉,但是在進(jìn)程表中這個進(jìn)程項(entry)還保留著(進(jìn)程ID,退出狀態(tài),占用的資源等等),你可能會問,為什么這么麻煩,直接釋放完資源不就行了嗎?這是因為有時它的父進(jìn)程想了解它的退出狀態(tài)。在子進(jìn)程退出但還未被其父進(jìn)程“收尸”之前,該子進(jìn)程就是僵死進(jìn)程,或者僵尸進(jìn)程。如果父進(jìn)程先于子進(jìn)程去世,那么子進(jìn)程將被init進(jìn)程收養(yǎng),這個時候init就是這個子進(jìn)程的父進(jìn)程。
所以一旦出現(xiàn)父進(jìn)程長期運行,而又沒有顯示調(diào)用wait或者waitpid,同時也沒有處理SIGCHLD信號,這個時候init進(jìn)程就沒有辦法來替子進(jìn)程收尸,這個時候,子進(jìn)程就真的成了“僵尸”了。
二、僵死進(jìn)程與孤兒進(jìn)程的區(qū)別?
回答這個問題很簡單,就是爸爸(父進(jìn)程)和兒子(子進(jìn)程)誰先死的問題!
如果當(dāng)兒子還在世的時候,爸爸去世了,那么兒子就成孤兒了,這個時候兒子就會被init收養(yǎng),換句話說,init進(jìn)程充當(dāng)了兒子的爸爸,所以等到兒子去世的時候,就由init進(jìn)程來為其收尸。
如果當(dāng)爸爸還活著的時候,兒子死了,這個時候如果爸爸不給兒子收尸,那么兒子就會變成僵尸進(jìn)程。
三、僵死進(jìn)程的危害?
- 僵死進(jìn)程的PID還占據(jù)著,意味著海量的子進(jìn)程會占據(jù)滿進(jìn)程表項,會使后來的進(jìn)程無法fork.
- 僵死進(jìn)程的內(nèi)核棧無法被釋放掉(1K 或者 2K大?。?,為啥會留著它的內(nèi)核棧,因為在棧的最低端,有著thread_info結(jié)構(gòu),它包含著 struct_task 結(jié)構(gòu),這里面包含著一些退出信息。
四、避免僵死進(jìn)程的方法
網(wǎng)上搜了下,總結(jié)有三種方方法:
① 程序中顯示的調(diào)用signal(SIGCHLD, SIG_IGN)來忽略SIGCHLD信號,這樣子進(jìn)程結(jié)束后,由內(nèi)核來wai和釋放資源
② fork兩次,第一次fork的子進(jìn)程在fork完成后直接退出,這樣第二次fork得到的子進(jìn)程就沒有爸爸了,它會自動被老祖宗init收養(yǎng),init會負(fù)責(zé)釋放它的資源,這樣就不會有“僵尸”產(chǎn)生了
③ 對子進(jìn)程進(jìn)行wait,釋放它們的資源,但是父進(jìn)程一般沒工夫在那里守著,等著子進(jìn)程的退出,所以,一般使用信號的方式來處理,在收到SIGCHLD信號的時候,在信號處理函數(shù)中調(diào)用wait操作來釋放他們的資源。
五、對每個避免僵死進(jìn)程方法的解析與總結(jié)
首先我們讓我們來看一個生成僵尸進(jìn)程的程序zombie.c如下:
#include < stdio.h >
#include < stdlib.h >
#include < unistd.h >
int main(int argc, const char *argv[])
{
int i;
pid_t pid;
for (i = 0; i < 10; i++) {
if ((pid = fork()) == 0) /* child */
_exit(0);
}
sleep(10);
exit(EXIT_SUCCESS);
}
運行程序,在10s睡眠期間使用ps查看進(jìn)程,你會發(fā)現(xiàn)有10個標(biāo)記為“defunct”的僵尸進(jìn)程:
接下來看第一種方法,程序avoid_zombie1.c如下:
#include < stdio.h >
#include < stdlib.h >
#include < signal.h >
#include < unistd.h >
#include < errno.h >
int main(int argc, const char *argv[])
{
pid_t pid;
if (SIG_ERR == signal(SIGCHLD, SIG_IGN)) {
perror("signal error");
_exit(EXIT_FAILURE);
}
while (1) {
if ((pid = fork()) == 0) /* child */
_exit(0);
}
exit(EXIT_SUCCESS);
}
程序運行期間通過ps命令的確沒有發(fā)現(xiàn)僵尸進(jìn)程的存在。
在man文檔中有這段話:
Note that even though the default disposition of SIGCHLD is "ignore", explicitly setting the disposition to SIG_IGN results in different treatment of zombie process children.
意思是說盡管系統(tǒng)對信號SIGCHLD的默認(rèn)處理就是“ignore”,但是顯示的設(shè)置成SIG_IGN的處理方式在在這里會表現(xiàn)不同的處理方式(即子進(jìn)程結(jié)束后,資源由系統(tǒng)自動收回,所以不會產(chǎn)生僵尸進(jìn)程),這是信號SIGCHLD與其他信號的不同之處。
在man文檔中同樣有這樣一段話:
The original POSIX standard left the behavior of setting SIGCHLD to SIG_IGN unspecified. 看來這個方法不是每個平臺都使用,尤其在一些老的系統(tǒng)中,兼容性不是很好,所以如果你在寫一個可移植的程序的話,不推薦使用這個方法。
第二種方法,即通過兩次fork來避免僵尸進(jìn)程,我們來看一個例子avoid_zombie2.c:
#include < stdio.h >
#include < stdlib.h >
#include < signal.h >
#include < unistd.h >
#include < errno.h >
int main(int argc, const char *argv[])
{
pid_t pid;
while (1) {
if ((pid = fork()) == 0) { /* child */
if ((pid = fork()) > 0)
_exit(0);
sleep(1);
printf("grandchild, parent id = %ldn",
(long)getppid());
_exit(0);
}
if (waitpid(-1, NULL, 0) != pid) {
perror("waitpid error");
_exit(EXIT_FAILURE);
}
}
exit(EXIT_SUCCESS);
}
這的確是個有效的辦法,但是我想這個方法不適宜網(wǎng)絡(luò)并發(fā)服務(wù)器中,應(yīng)為fork的效率是不高的。
最后來看第三種方法, 也是最通用的方法
先看我們的測試程序avoid_zombie3.c
#include < stdio.h >
#include < stdlib.h >
#include < errno.h >
#include < string.h >
#include < libgen.h >
#include < signal.h >
#include < unistd.h >
#include < sys/wait.h >
#include < sys/types.h >
void avoid_zombies_handler(int signo)
{
pid_t pid;
int exit_status;
int saved_errno = errno;
while ((pid = waitpid(-1, &exit_status, WNOHANG)) > 0) {
/* do nothing */
}
errno = saved_errno;
}
int main(int argc, char *argv[])
{
pid_t pid;
int status;
struct sigaction child_act;
memset(&child_act, 0, sizeof(struct sigaction));
child_act.sa_handler = avoid_zombies_handler;
child_act.sa_flags = SA_RESTART | SA_NOCLDSTOP;
sigemptyset(&child_act.sa_mask);
if (sigaction(SIGCHLD, &child_act, NULL) == -1) {
perror("sigaction error");
_exit(EXIT_FAILURE);
}
while (1) {
if ((pid = fork()) == 0) { /* child process */
_exit(0);
} else if (pid > 0) { /* parent process */
}
}
_exit(EXIT_SUCCESS);
}
首先需要知道三點:
- 當(dāng)某個信號的信號處理函數(shù)被調(diào)用時,該信號會被操作系統(tǒng)阻塞(默認(rèn)sa_flags不設(shè)置SA_NODEFER標(biāo)志)。
2.當(dāng)某個信號的信號處理函數(shù)被調(diào)用時,該信號阻塞時,該信號又多次發(fā)生,那么操作系統(tǒng)并不將它們排隊,而是只保留第一次的,后續(xù)的被拋棄。
還有一點我們必須清楚的是
- wait系列函數(shù)與信號SIGCHLD是沒有任何關(guān)系的,即wait系列函數(shù)并不是信號SIGCHLD驅(qū)動的。
這個時候,肯定有人有疑問了,既然會丟棄信號,那怎么保證可以收回所有的僵尸進(jìn)程呢?
關(guān)于這個問題,我們可以這樣來理解,當(dāng)子進(jìn)程結(jié)束時,不管有沒有產(chǎn)生SIGCHLD信號,或者子進(jìn)程產(chǎn)生了SIGCHLD信號,而不管父進(jìn)程有沒有收到SIGCHLD信號,這都與子進(jìn)程已經(jīng)終止這個事實無關(guān),就是說,子進(jìn)程終止與信號其實沒有任何關(guān)系,只是操作系統(tǒng)在子進(jìn)程終止時會發(fā)送信號SIGCHLD給父進(jìn)程,告之其子進(jìn)程終止的消息,這樣的話,父進(jìn)程就可以做相應(yīng)的操作了。而wait系列函數(shù)的目的就是收回子進(jìn)程終止時殘留在進(jìn)程列表中的信息,所以任何時候調(diào)用while ((pid = waitpid(-1, &exit_status, WNOHANG)) > 0)都可以收回所有的僵尸進(jìn)程信息(可以參考下面的程序)。但是這里為什么放在信號處理函數(shù)中處理了,這樣做的原因是:子進(jìn)程什么時候結(jié)束是個異步事件,而信號機(jī)制就是用來處理異步事件的,所以當(dāng)子進(jìn)程結(jié)束時,可以迅速的收回其殘余信息,這樣系統(tǒng)中就不會積累大量的僵尸進(jìn)程了。
也可以這樣來理解:系統(tǒng)把所有的僵尸進(jìn)程串在一起形成一個僵尸進(jìn)程鏈表,而while ((pid = waitpid(-1, &exit_status, WNOHANG)) > 0)就是來清空這個鏈表的,直到waitpid()返回0,表明已經(jīng)沒有僵尸進(jìn)程了,或者返回-1,表明出錯(當(dāng)錯誤碼errno為ECHILD的時候同樣表明已經(jīng)不存在僵尸進(jìn)程了)。
了解了以上知識點,就能理解為什么while ((pid = waitpid(-1, &exit_status, WNOHANG)) > 0)能夠回收所有的僵尸進(jìn)程了。
我們可以在上面的信號處理函數(shù)中加入相應(yīng)的打印信息:
static int num1 = 0
static int num2 = 0;
void avoid_zombies_handler(int signo)
{
pid_t pid;
int exit_status;
int saved_errno = errno;
printf("num1 = %dn", ++num1);
while ((pid = waitpid(-1, &exit_status, WNOHANG)) > 0) {
printf("num2 = %dn", ++num2);
}
errno = saved_errno;
}
打印的結(jié)果你會發(fā)現(xiàn),當(dāng)num1遞增1的時候,即每調(diào)用一次信號處理函數(shù),num2一般會遞增很多,即while循環(huán)了很多次,所以盡管有的SIGCHLD信號被丟棄了,但是我們不用擔(dān)心子進(jìn)程的殘余信息會收不回來。退出while循環(huán)時,證明此時系統(tǒng)中已經(jīng)沒有僵尸進(jìn)程了,所以退出信號處理函數(shù)后,阻塞的唯一SIGCHLD信號會再次觸發(fā)該信號處理函數(shù),這樣我們就不用擔(dān)心了。我們不防做個最壞的打算,即之前的信號全部被丟棄了,只有最后一次的SIGCHLD信號被捕獲,從而觸發(fā)了信號處理函數(shù),這樣我們也不用擔(dān)心,因為while循環(huán)會一次性收回全部的僵尸進(jìn)程信息,只是這次循環(huán)的次數(shù)要多得多罷了,當(dāng)然這只是假設(shè),一般系統(tǒng)不會出現(xiàn)這樣的情況(可以參考本文最后一個程序事例)。
為了證明wait系統(tǒng)函數(shù)與信號SIGCHLD沒有任何關(guān)系,我們可以做個簡單的實驗,代碼如下:
#include < stdio.h >
#include < stdlib.h >
#include < unistd.h >
#include < sys/wait.h >
#include < sys/types.h >
int main(int argc, char *argv[])
{
int i;
pid_t pid;
for (i = 0; i < 5; i++) {
if ((pid = fork()) == 0) /* child */
_exit(0);
}
sleep(10);
while (waitpid(-1, NULL, WNOHANG) > 0) {
/* do nothing */
}
sleep(10);
_exit(EXIT_SUCCESS);
}
以下是打印結(jié)果:
可以看到第一次sleep時系統(tǒng)中積累了5個僵尸進(jìn)程,第二次sleep時,那5個僵尸進(jìn)程都被收回了。這個也明顯的看到了使用信號處理函數(shù)的優(yōu)勢,即可以保證系統(tǒng)不會積累大量的僵尸進(jìn)程,它可以迅速的清理掉系統(tǒng)中的僵尸進(jìn)程。
-
Linux
+關(guān)注
關(guān)注
87文章
11212瀏覽量
208723 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
2978瀏覽量
73818 -
程序
+關(guān)注
關(guān)注
116文章
3762瀏覽量
80757 -
WAIT
+關(guān)注
關(guān)注
0文章
4瀏覽量
2503
發(fā)布評論請先 登錄
相關(guān)推薦
評論