IO多路復用——select，poll，epoll

IO多路復用是一種操作系統(tǒng)技術，旨在提高系統(tǒng)處理多個輸入輸出操作的性能和資源利用率。與傳統(tǒng)的多線程或多進程模型相比，IO多路復用避免了因阻塞IO而導致的資源浪費和低效率問題。它通過將多個IO操作合并到一個系統(tǒng)調(diào)用中，允許程序同時等待多個文件描述符（如sockets、文件句柄等）變?yōu)榭勺x或可寫狀態(tài)，然后再執(zhí)行實際的IO操作。

在IO多路復用的實現(xiàn)中，常用的系統(tǒng)調(diào)用包括select()、poll()和epoll()。這些機制允許程序監(jiān)視多個描述符，一旦某個描述符就緒（通常是讀就緒或?qū)懢途w），程序就會被通知進行相應的讀寫操作。這個過程通常涉及兩個階段：

等待數(shù)據(jù)到達：程序等待數(shù)據(jù)從IO設備傳輸?shù)絻?nèi)核空間。在這個階段，IO多路復用的系統(tǒng)調(diào)用會阻塞，直到至少有一個描述符準備好進行IO操作。
數(shù)據(jù)復制：當一個或多個描述符就緒時，程序負責將數(shù)據(jù)從內(nèi)核空間復制到用戶空間（進程或線程的緩沖區(qū)）。這第二個階段是實際的讀寫操作，它在IO多路復用的上下文中是同步的，因為程序需要自己執(zhí)行數(shù)據(jù)的讀寫。

盡管select()、poll()和epoll()都是同步IO操作，但它們提供了一種有效的方式來處理并發(fā)IO，降低了系統(tǒng)開銷，并提高了并發(fā)處理能力。與此不同，異步IO（AIO）模型進一步簡化了IO操作，因為它允許操作系統(tǒng)自動處理數(shù)據(jù)從內(nèi)核到用戶空間的復制過程，無需程序顯式調(diào)用讀寫操作。這意味著在異步IO模型中，讀寫操作由操作系統(tǒng)在后臺完成，從而進一步提高了應用程序的效率和響應性。

select

概述

系統(tǒng)提供了select函數(shù)來實現(xiàn)多路復用輸入/輸出模型
select系統(tǒng)調(diào)用是用來讓我們的程序監(jiān)視多個文件描述符的狀態(tài)變化的
程序會停在select函數(shù)等待，直到被監(jiān)視的文件描述符有一個或者多個發(fā)生了狀態(tài)改變。

函數(shù)

intselect(intnfds,fd_set*readfds,fd_set*writefds,
fd_set*exceptfds,structtimeval*timeout);

函數(shù)參數(shù)：

參數(shù)	說明
nfds	是需要監(jiān)視的最大的文件描述符值+1
readfds	需要檢測的可讀文件描述符的集合
writefds	需要檢測的可寫文件描述符的集合
exceptfds	需要檢測的異常文件描述符的集合
timeout	當timeout等于NULL：則表示select()沒有timeout，select將一直被阻塞，直到某個文件描述符上發(fā)生了事件; 當timeout為0：僅檢測描述符集合的狀態(tài)，然后立即返回，并不等待外部事件的發(fā)生。當timeout為特定的時間值：如果在指定的時間段里沒有事件發(fā)生，select將超時返回。
返回	——
> 0	返回文件描述詞狀態(tài)已改變的個數(shù)
== 0	代表在描述詞狀態(tài)改變前已超過timeout時間，沒有返回
< 0	錯誤原因存于errno，此時參數(shù)readfds，writefds, exceptfds和timeout的值變成不可預測，錯誤值可能為： EBADF：文件描述詞為無效的或該文件已關閉 EINTR：此調(diào)用被信號所中斷 EINVAL：參數(shù)n 為負值 ENOMEM：核心內(nèi)存不足

其中：可讀，可寫，異常文件描述符的集合是一個fd_set類型，fd_set是系統(tǒng)提供的位圖類型，位圖的位置是否是1，表示是否關系該事件。例如：

輸入時：假如我們要關心0123文件描述符
00000000->00001111比特位的位置，表示文件描述符的編號
比特位的內(nèi)容0or1表示是否需要內(nèi)核關心
輸出時：
00000100->此時表示文件描述符的編號
比特位的內(nèi)容0or1哪些用戶關心的fd上面的讀事件已經(jīng)就緒了，這里表示2描述符就緒了

系統(tǒng)提供了關于fd_set的接口，便于我們使用位圖：

voidFD_CLR(intfd,fd_set*set);//用來清除描述詞組set中相關fd的位
intFD_ISSET(intfd,fd_set*set);//用來測試描述詞組set中相關fd的位是否為真
voidFD_SET(intfd,fd_set*set);//用來設置描述詞組set中相關fd的位
voidFD_ZERO(fd_set*set);//用來清除描述詞組set的全部位

執(zhí)行流程：

執(zhí)行fd_set set; FD_ZERO(&set);則set用位表示是0000,0000。
若fd＝5,執(zhí)行FD_SET(fd,&set);后set變?yōu)?001,0000(第5位置為1) 。
若再加入fd＝2，fd=1,則set變?yōu)?001,0011 。
執(zhí)行select(6,&set,0,0,0)阻塞等待，表示最大文件描述符+1是6，監(jiān)控可讀事件，立即返回。
若fd=1,fd=2上都發(fā)生可讀事件，則select返回，此時set變?yōu)?000,0011。注意：沒有事件發(fā)生的fd=5被清空。

優(yōu)缺點

優(yōu)點：

可監(jiān)控的文件描述符個數(shù)取決與sizeof(fd_set)的值。一般大小是1024，但是fd_set的大小可以調(diào)整。
將fd加入select監(jiān)控集的同時，還要再使用一個數(shù)據(jù)結構array保存放到select監(jiān)控集中的fd。①是用于再select 返回后，array作為源數(shù)據(jù)和fd_set進行FD_ISSET判斷。②是select返回后會把以前加入的但并無事件發(fā)生的fd清空，則每次開始select前都要重新從array取得fd逐一加入(FD_ZERO最先)，掃描array的同時取得fd最大值maxfd，用于select的第一個參數(shù)。

缺點：

每次調(diào)用select, 都需要手動設置fd集合, 從接口使用角度來說也非常不便。
每次調(diào)用select，都需要把fd集合從用戶態(tài)拷貝到內(nèi)核態(tài)，這個開銷在fd很多時會很大。
同時每次調(diào)用select都需要在內(nèi)核遍歷傳遞進來的所有fd，這個開銷在fd很多時也很大。
select支持的文件描述符數(shù)量太小。

實例

#include
#include
#include
#include
#include
#include

conststaticintMAXLINE=1024;
conststaticintSERV_PORT=10001;

intmain()
{
inti,maxi,maxfd,listenfd,connfd,sockfd;
/*nready描述字的數(shù)量*/
intnready,client[FD_SETSIZE];
intn;
/*創(chuàng)建描述字集合，由于select函數(shù)會把未有事件發(fā)生的描述字清零，所以我們設置兩個集合*/
fd_setrset,allset;
charbuf[MAXLINE];
socklen_tclilen;
structsockaddr_incliaddr,servaddr;
/*創(chuàng)建socket*/
listenfd=socket(AF_INET,SOCK_STREAM,0);
/*定義sockaddr_in*/
memset(&servaddr,0,sizeof(servaddr));
servaddr.sin_family=AF_INET;
servaddr.sin_port=htons(SERV_PORT);
servaddr.sin_addr.s_addr=htonl(INADDR_ANY);

bind(listenfd,(structsockaddr*)&servaddr,sizeof(servaddr));
listen(listenfd,100);
/*listenfd是第一個描述字*/
/*最大的描述字，用于select函數(shù)的第一個參數(shù)*/
maxfd=listenfd;
/*client的數(shù)量，用于輪詢*/
maxi=-1;
/*init*/
for(i=0;iclient[i]=-1;
FD_ZERO(&allset);
FD_SET(listenfd,&allset);

for(;;)
{
rset=allset;
/*只select出用于讀的描述字，阻塞無timeout*/
nready=select(maxfd+1,&rset,NULL,NULL,NULL);
if(FD_ISSET(listenfd,&rset))
{
clilen=sizeof(cliaddr);
connfd=accept(listenfd,(structsockaddr*)&cliaddr,&clilen);
/*尋找第一個能放置新的描述字的位置*/
for(i=0;i{
if(client[i]<0)
{
client[i]=connfd;
break;
}
}
/*找不到，說明client已經(jīng)滿了*/
if(i==FD_SETSIZE)
{
printf("Toomanyclients,overstack.\n");
return-1;
}
FD_SET(connfd,&allset);//設置fd
/*更新相關參數(shù)*/
if(connfd>maxfd)maxfd=connfd;
if(i>maxi)maxi=i;
if(nready<=1)continue;
elsenready--;
}

for(i=0;i<=maxi?;?i++)
{
if(client[i]<0)continue;
sockfd=client[i];
if(FD_ISSET(sockfd,&rset))
{
n=read(sockfd,buf,MAXLINE);
if(n==0)
{
/*當對方關閉的時候，server關閉描述字，并將set的sockfd清空*/
close(sockfd);
FD_CLR(sockfd,&allset);
client[i]=-1;
}
else
{
buf[n]='\0';
printf("Socket%dsaid:%s\n",sockfd,buf);
write(sockfd,buf,n);//Writebacktoclient
}
nready--;
if(nready<=0)break;
}
}

}
return0;
}

poll

概述

poll和select實現(xiàn)原理基本類似
poll只為了解決select的兩個硬傷：①等待的fd是有上限的，(底層類似鏈表儲存實現(xiàn)，而不是位圖)。②每次要對關心的fd進行事件重置，(pollfd結構包含了要監(jiān)視的event和發(fā)生的event，使用前后不用初始化fd_set)。

函數(shù)

intpoll(structpollfd*fds,nfds_tnfds,inttimeout);

//pollfd結構
structpollfd{
intfd;/*filedescriptor*/
shortevents;/*requestedevents*/
shortrevents;/*returnedevents*/
};

函數(shù)參數(shù)：

參數(shù)	說明
fds	是一個poll函數(shù)監(jiān)聽的結構列表. 每一個元素中, 包含了三部分內(nèi)容: 文件描述符, 監(jiān)聽的事件集合, 返回的事件集合
nfds	表示fds數(shù)組的長度
timeout	表示poll函數(shù)的超時時間, 單位是毫秒(ms)
返回	——
> 0	表示poll由于監(jiān)聽的文件描述符就緒而返回
== 0	表示poll函數(shù)等待超時
< 0	表示出錯

優(yōu)缺點

優(yōu)點：

pollfd結構包含了要監(jiān)視的event和發(fā)生的event，不再使用select“參數(shù)-值”傳遞的方式. 接口使用比 select更方便。
poll并沒有最大數(shù)量限制 (但是數(shù)量過大后性能也是會下降)。

缺點：

和select函數(shù)一樣，poll返回后，需要輪詢pollfd來獲取就緒的描述符。
每次調(diào)用poll都需要把大量的pollfd結構從用戶態(tài)拷貝到內(nèi)核中。
同時連接的大量客戶端在一時刻可能只有很少的處于就緒狀態(tài), 因此隨著監(jiān)視的描述符數(shù)量的增長, 其效率也會線性下降。

實例

#include
#include
#include
#include
#include
#include

#defineMAXLINE1024
#defineOPEN_MAX16//一些系統(tǒng)會定義這些宏
#defineSERV_PORT10001

intmain()
{
inti,maxi,listenfd,connfd,sockfd;
intnready;
intn;
charbuf[MAXLINE];
socklen_tclilen;
structpollfdclient[OPEN_MAX];

structsockaddr_incliaddr,servaddr;
listenfd=socket(AF_INET,SOCK_STREAM,0);
memset(&servaddr,0,sizeof(servaddr));
servaddr.sin_family=AF_INET;
servaddr.sin_port=htons(SERV_PORT);
servaddr.sin_addr.s_addr=htonl(INADDR_ANY);

bind(listenfd,(structsockaddr*)&servaddr,sizeof(servaddr));
listen(listenfd,10);
client[0].fd=listenfd;
client[0].events=POLLRDNORM;
for(i=1;i{
client[i].fd=-1;
}
maxi=0;

for(;;)
{
nready=poll(client,maxi+1,INFTIM);
if(client[0].revents&POLLRDNORM)
{
clilen=sizeof(cliaddr);
connfd=accept(listenfd,(structsockaddr*)&cliaddr,&clilen);
for(i=1;i{
if(client[i].fd<0)
{
client[i].fd=connfd;
client[i].events=POLLRDNORM;
break;
}
}
if(i==OPEN_MAX)
{
printf("toomanyclients!\n");
}
if(i>maxi)maxi=i;
nready--;
if(nready<=0)continue;
}

for(i=1;i<=maxi;i++)
{
if(client[i].fd<0)continue;
sockfd=client[i].fd;
if(client[i].revents&(POLLRDNORM|POLLERR))
{
n=read(client[i].fd,buf,MAXLINE);
if(n<=0)
{
close(client[i].fd);
client[i].fd=-1;
}
else
{
buf[n]='\0';
printf("Socket%dsaid:%s\n",sockfd,buf);
write(sockfd,buf,n);//Writebacktoclient
}
nready--;
if(nready<=0)break;//nomorereadabledescriptors
}
}
}
return0;
}

epoll

概述

epoll:是為處理大批量句柄而作了改進的poll（真的是大改進）
epoll是IO多路復用技術，在實現(xiàn)上維護了一個用于返回觸發(fā)事件的Socket的鏈表和一個記錄監(jiān)聽事件的紅黑樹，epoll的高效體現(xiàn)在：

對監(jiān)聽事件的修改是 logN(紅黑樹)。
用戶程序無需遍歷所有的Socket(發(fā)生事件的Socket被放到鏈表中直接返回)。
內(nèi)核無需遍歷所有的套接字，內(nèi)核使用回調(diào)函數(shù)在事件發(fā)生時直接轉到對應的處理函數(shù)。

函數(shù)

epoll_create：創(chuàng)建一個epoll的句柄，用完之后, 必須調(diào)用close()關閉。

intepoll_create(intsize);

epoll_ctl：它不同于select()是在監(jiān)聽事件時告訴內(nèi)核要監(jiān)聽什么類型的事件, 而是在這里先注冊要監(jiān)聽的事件類型。

intepoll_ctl(intepfd,intop,intfd,structepoll_event*event);

typedefunionepoll_data
{
void*ptr;
intfd;
uint32_tu32;
uint64_tu64;
}epoll_data_t;

structepoll_event
{
uint32_tevents;
epoll_data_tdata;
}EPOLL_PACKED;

events參數(shù)的宏集合：

EPOLLIN :表示對應的文件描述符可以讀(包括對端SOCKET正常關閉)。
EPOLLOUT :表示對應的文件描述符可以寫。
EPOLLPRI :表示對應的文件描述符有緊急的數(shù)據(jù)可讀(這里應該表示有帶外數(shù)據(jù)到來)。
EPOLLERR :表示對應的文件描述符發(fā)生錯誤。
EPOLLHUP :表示對應的文件描述符被掛斷。
EPOLLET :將EPOLL設為邊緣觸發(fā)(Edge Triggered)模式, 這是相對于水平觸發(fā)(Level Triggered)來說的。
EPOLLONESHOT：只監(jiān)聽一次事件, 當監(jiān)聽完這次事件之后, 如果還需要繼續(xù)監(jiān)聽這個socket的話, 需要再次把這個socket加入到EPOLL隊列里

函數(shù)參數(shù)：

參數(shù)	說明
epfd	epoll_create()的返回值(epoll的句柄)
op	表示動作，用三個宏來表示： EPOLL_CTL_ADD ：注冊新的fd到epfd中 EPOLL_CTL_MOD ：修改已經(jīng)注冊的fd的監(jiān)聽事件 EPOLL_CTL_DEL ：從epfd中刪除一個fd
fd	需要監(jiān)聽的fd
event	內(nèi)核需要監(jiān)聽的事件

epoll_wait：收集在epoll監(jiān)控的事件中已經(jīng)發(fā)送的事件

intepoll_wait(intepfd,structepoll_event*events,intmaxevents,inttimeout);

參數(shù)	說明
epfd	epoll_create()的返回值(epoll的句柄)
events	是分配好的epoll_event結構體數(shù)組。epoll將會把發(fā)生的事件賦值到events數(shù)組中 (events不可以是空指針，內(nèi)核只負責把數(shù)據(jù)復制到這個events數(shù)組中，不會去幫助我們在用戶態(tài)中分配內(nèi)存)
maxevents	通知內(nèi)核這個events有多大，這個maxevents的值不能大于創(chuàng)建epoll_create()時的size
timeout	超時時間 (毫秒，0會立即返回，-1是永久阻塞)
返回	——
> 0	返回對應I/O上已準備好的文件描述符數(shù)目
== 0	表示已超時
< 0	表示失敗

執(zhí)行流程：

當某一進程調(diào)用epoll_create方法時，Linux內(nèi)核會創(chuàng)建一個eventpoll結構體，這個結構體中有兩個成員與epoll的使用方式密切相關。
每一個epoll對象都有一個獨立的eventpoll結構體，用于存放通過epoll_ctl方法向epoll對象中添加進來的事件。
這些事件都會掛載在紅黑樹中，如此，重復添加的事件就可以通過紅黑樹而高效的識別出來(紅黑樹的插入時間效率是lgn，其中n為樹的高度)。
而所有添加到epoll中的事件都會與設備(網(wǎng)卡)驅(qū)動程序建立回調(diào)關系，也就是說，當響應的事件發(fā)生時會調(diào)用這個回調(diào)方法。
這個回調(diào)方法在內(nèi)核中叫ep_poll_callback,它會將發(fā)生的事件添加到rdlist雙鏈表中。
在epoll中，對于每一個事件，都會建立一個epitem結構體。
當調(diào)用epoll_wait檢查是否有事件發(fā)生時，只需要檢查eventpoll對象中的rdlist雙鏈表中是否有epitem元素即可。
如果rdlist不為空，則把發(fā)生的事件復制到用戶態(tài)，同時將事件數(shù)量返回給用戶. 這個操作的時間復雜度是O(1)。

優(yōu)缺點

優(yōu)點：

接口使用方便: 雖然拆分成了三個函數(shù)，但是反而使用起來更方便高效，不需要每次循環(huán)都設置關注的文件描述符，也做到了輸入輸出參數(shù)分離開。
數(shù)據(jù)拷貝輕量: 只在合適的時候調(diào)用 EPOLL_CTL_ADD 將文件描述符結構拷貝到內(nèi)核中，這個操作并不頻繁(而select/poll都是每次循環(huán)都要進行拷貝)。
事件回調(diào)機制: 避免使用遍歷，而是使用回調(diào)函數(shù)的方式，將就緒的文件描述符結構加入到就緒隊列中，epoll_wait 返回直接訪問就緒隊列就知道哪些文件描述符就緒，這個操作時間復雜度O(1)，即使文件描述符數(shù)目很多，效率也不會受到影響。
沒有數(shù)量限制: 文件描述符數(shù)目無上限。

缺點：

不能跨平臺，epoll 是 Linux 特有的 API，不太容易移植到其他操作系統(tǒng)上

實例

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include
#include

#defineMAXLINE1024
#defineOPEN_MAX16//一些系統(tǒng)會定義這些宏
#defineSERV_PORT10001

intmain()
{
inti,maxi,listenfd,connfd,sockfd,epfd,nfds;
intn;
charbuf[MAXLINE];
structepoll_eventev,events[20];
socklen_tclilen;
structpollfdclient[OPEN_MAX];

structsockaddr_incliaddr,servaddr;
listenfd=socket(AF_INET,SOCK_STREAM,0);
memset(&servaddr,0,sizeof(servaddr));
servaddr.sin_family=AF_INET;
servaddr.sin_port=htons(SERV_PORT);
servaddr.sin_addr.s_addr=htonl(INADDR_ANY);

bind(listenfd,(structsockaddr*)&servaddr,sizeof(servaddr));
listen(listenfd,10);

epfd=epoll_create(256);
ev.data.fd=listenfd;
ev.events=EPOLLIN|EPOLLET;
epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

for(;;)
{
nfds=epoll_wait(epfd,events,20,500);
for(i=0;i{
if(listenfd==events[i].data.fd)
{
clilen=sizeof(cliaddr);
connfd=accept(listenfd,(structsockaddr*)&cliaddr,&clilen);
if(connfd0)
{
perror("connfd);
exit(1);
}
ev.data.fd=connfd;
ev.events=EPOLLIN|EPOLLET;
epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);
}
elseif(events[i].events&EPOLLIN)
{
if((sockfd=events[i].data.fd)0)
continue;
n=recv(sockfd,buf,MAXLINE,0);
if(n<=?0)
{
close(sockfd);
events[i].data.fd=-1;
}
else
{
buf[n]='\0';
printf("Socket%dsaid:%s\n",sockfd,buf);
ev.data.fd=sockfd;
ev.events=EPOLLOUT|EPOLLET;
epoll_ctl(epfd,EPOLL_CTL_MOD,connfd,&ev);
}
}
elseif(events[i].events&EPOLLOUT)
{
sockfd=events[i].data.fd;
send(sockfd,"Hello!",7,0);

ev.data.fd=sockfd;
ev.events=EPOLLIN|EPOLLET;
epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
}
else
{
printf("Thisisnotavaible!");
}
}
}
close(epfd);
return0;
}

總結

select 和 poll 是兩種傳統(tǒng)的 I/O 多路復用技術，它們允許服務器應用程序同時監(jiān)控多個網(wǎng)絡連接，以便在連接準備就緒時進行讀寫操作。盡管這兩種技術在處理大量并發(fā)連接時非常有用，但隨著連接數(shù)的增加，它們的性能會逐漸下降，因為它們需要在每次調(diào)用時遍歷整個文件描述符集合，這在連接數(shù)非常多時會導致效率問題。
為了解決這個問題，epoll 作為 select 和 poll 的一種改進方案，在 Linux 系統(tǒng)中被引入。epoll 提供了一種更為高效的事件驅(qū)動模型，它可以顯著提高處理大量并發(fā)連接的性能。與 select 和 poll 不同，epoll 不會對整個文件描述符集合進行線性遍歷，而是使用一組特殊的數(shù)據(jù)結構來跟蹤哪些文件描述符已經(jīng)準備好 I/O 操作。這種機制使得 epoll 能夠快速地通知應用程序哪些連接是活躍的，而無需對所有連接進行不必要的檢查。
epoll 的另一個優(yōu)點是它能夠處理大量文件描述符而不會顯著增加資源消耗，這使得它非常適合需要處理成千上萬甚至更多并發(fā)連接的高性能網(wǎng)絡服務器。因此，在 Linux 系統(tǒng)上，epoll 常被視為 select 和 poll 的替代方案，特別是在構建高性能網(wǎng)絡應用程序時。