本文整理了一些TCP/IP協(xié)議簇中需要必知必會的十大問題,既是面試高頻問題,又是程序員必備基礎素養(yǎng)。
TCP/IP十個問題
一、TCP/IP模型
TCP/IP協(xié)議模型(Transmission Control Protocol/Internet Protocol),包含了一系列構(gòu)成互聯(lián)網(wǎng)基礎的網(wǎng)絡協(xié)議,是Internet的核心協(xié)議。
基于TCP/IP的參考模型將協(xié)議分成四個層次,它們分別是鏈路層、網(wǎng)絡層、傳輸層和應用層。下圖表示TCP/IP模型與OSI模型各層的對照關系。
TCP/IP協(xié)議族按照層次由上到下,層層包裝。最上面的是應用層,這里面有http,ftp,等等我們熟悉的協(xié)議。而第二層則是傳輸層,著名的TCP和UDP協(xié)議就在這個層次。第三層是網(wǎng)絡層,IP協(xié)議就在這里,它負責對數(shù)據(jù)加上IP地址和其他的數(shù)據(jù)以確定傳輸?shù)哪繕恕5谒膶邮菙?shù)據(jù)鏈路層,這個層次為待傳送的數(shù)據(jù)加入一個以太網(wǎng)協(xié)議頭,并進行CRC編碼,為最后的數(shù)據(jù)傳輸做準備。
上圖清楚地表示了TCP/IP協(xié)議中每個層的作用,而TCP/IP協(xié)議通信的過程其實就對應著數(shù)據(jù)入棧與出棧的過程。入棧的過程,數(shù)據(jù)發(fā)送方每層不斷地封裝首部與尾部,添加一些傳輸?shù)?a target="_blank">信息,確保能傳輸?shù)侥康牡?。出棧的過程,數(shù)據(jù)接收方每層不斷地拆除首部與尾部,得到最終傳輸?shù)臄?shù)據(jù)。
上圖以HTTP協(xié)議為例,具體說明。
二、數(shù)據(jù)鏈路層
物理層負責0、1比特流與物理設備電壓高低、光的閃滅之間的互換。
數(shù)據(jù)鏈路層負責將0、1序列劃分為數(shù)據(jù)幀從一個節(jié)點傳輸?shù)脚R近的另一個節(jié)點,這些節(jié)點是通過MAC來唯一標識的(MAC,物理地址,一個主機會有一個MAC地址)。
封裝成幀: 把網(wǎng)絡層數(shù)據(jù)報加頭和尾,封裝成幀,幀頭中包括源MAC地址和目的MAC地址。
透明傳輸:零比特填充、轉(zhuǎn)義字符。
可靠傳輸: 在出錯率很低的鏈路上很少用,但是無線鏈路WLAN會保證可靠傳輸。
差錯檢測(CRC):接收者檢測錯誤,如果發(fā)現(xiàn)差錯,丟棄該幀。
三、網(wǎng)絡層
1.IP協(xié)議
IP協(xié)議是TCP/IP協(xié)議的核心,所有的TCP,UDP,IMCP,IGMP的數(shù)據(jù)都以IP數(shù)據(jù)格式傳輸。要注意的是,IP不是可靠的協(xié)議,這是說,IP協(xié)議沒有提供一種數(shù)據(jù)未傳達以后的處理機制,這被認為是上層協(xié)議:TCP或UDP要做的事情。
1.1 IP地址
在數(shù)據(jù)鏈路層中我們一般通過MAC地址來識別不同的節(jié)點,而在IP層我們也要有一個類似的地址標識,這就是IP地址。
32位IP地址分為網(wǎng)絡位和地址位,這樣做可以減少路由器中路由表記錄的數(shù)目,有了網(wǎng)絡地址,就可以限定擁有相同網(wǎng)絡地址的終端都在同一個范圍內(nèi),那么路由表只需要維護一條這個網(wǎng)絡地址的方向,就可以找到相應的這些終端了。
A類IP地址:?0.0.0.0~127.0.0.0?? B類IP地址:128.0.0.1~191.255.0.0?? C類IP地址:192.168.0.0~239.255.255.0
1.2 IP協(xié)議頭
這里只介紹:八位的TTL字段。這個字段規(guī)定該數(shù)據(jù)包在穿過多少個路由之后才會被拋棄。某個IP數(shù)據(jù)包每穿過一個路由器,該數(shù)據(jù)包的TTL數(shù)值就會減少1,當該數(shù)據(jù)包的TTL成為零,它就會被自動拋棄。?
這個字段的最大值也就是255,也就是說一個協(xié)議包也就在路由器里面穿行255次就會被拋棄了,根據(jù)系統(tǒng)的不同,這個數(shù)字也不一樣,一般是32或者是64。
2.ARP及RARP協(xié)議
ARP 是根據(jù)IP地址獲取MAC地址的一種協(xié)議。
ARP(地址解析)協(xié)議是一種解析協(xié)議,本來主機是完全不知道這個IP對應的是哪個主機的哪個接口,當主機要發(fā)送一個IP包的時候,會首先查一下自己的ARP高速緩存(就是一個IP-
MAC地址對應表緩存)。
如果查詢的IP-MAC值對不存在,那么主機就向網(wǎng)絡發(fā)送一個ARP協(xié)議廣播包,這個廣播包里面就有待查詢的IP地址,而直接收到這份廣播的包的所有主機都會查詢自己的IP地址,如果收到廣播包的某一個主機發(fā)現(xiàn)自己符合條件,那么就準備好一個包含自己的MAC地址的ARP包傳送給發(fā)送ARP廣播的主機。
而廣播主機拿到ARP包后會更新自己的ARP緩存(就是存放IP-
MAC對應表的地方)。發(fā)送廣播的主機就會用新的ARP緩存數(shù)據(jù)準備好數(shù)據(jù)鏈路層的的數(shù)據(jù)包發(fā)送工作。
RARP協(xié)議的工作與此相反,不做贅述。
3. ICMP協(xié)議
IP協(xié)議并不是一個可靠的協(xié)議,它不保證數(shù)據(jù)被送達,那么,自然的,保證數(shù)據(jù)送達的工作應該由其他的模塊來完成。其中一個重要的模塊就是ICMP(網(wǎng)絡控制報文)協(xié)議。ICMP不是高層協(xié)議,而是IP層的協(xié)議。
當傳送IP數(shù)據(jù)包發(fā)生錯誤。比如主機不可達,路由不可達等等,ICMP協(xié)議將會把錯誤信息封包,然后傳送回給主機。給主機一個處理錯誤的機會,這
也就是為什么說建立在IP層以上的協(xié)議是可能做到安全的原因。
四、ping
ping可以說是ICMP的最著名的應用,是TCP/IP協(xié)議的一部分。利用“ping”命令可以檢查網(wǎng)絡是否連通,可以很好地幫助我們分析和判定網(wǎng)絡故障。
例如:當我們某一個網(wǎng)站上不去的時候。通常會ping一下這個網(wǎng)站。ping會回顯出一些有用的信息。一般的信息如下:
ping這個單詞源自聲納定位,而這個程序的作用也確實如此,它利用ICMP協(xié)議包來偵測另一個主機是否可達。原理是用類型碼為0的ICMP發(fā)請
求,受到請求的主機則用類型碼為8的ICMP回應。
ping程序來計算間隔時間,并計算有多少個包被送達。用戶就可以判斷網(wǎng)絡大致的情況。我們可以看到, ping給出來了傳送的時間和TTL的數(shù)據(jù)。
Traceroute是用來偵測主機到目的主機之間所經(jīng)路由情況的重要工具,也是最便利的工具。
Traceroute的原理是非常非常的有意思,它收到到目的主機的IP后,首先給目的主機發(fā)送一個TTL=1的UDP數(shù)據(jù)包,而經(jīng)過的第一個路由器收到這個數(shù)據(jù)包以后,就自動把TTL減1,而TTL變?yōu)?以后,路由器就把這個包給拋棄了,并同時產(chǎn)生
一個主機不可達的ICMP數(shù)據(jù)報給主機。主機收到這個數(shù)據(jù)報以后再發(fā)一個TTL=2的UDP數(shù)據(jù)報給目的主機,然后刺激第二個路由器給主機發(fā)ICMP數(shù)據(jù)
報。如此往復直到到達目的主機。這樣,traceroute就拿到了所有的路由器IP。
六、TCP/UDP
TCP/UDP都是是傳輸層協(xié)議,但是兩者具有不同的特性,同時也具有不同的應用場景,下面以圖表的形式對比分析。
面向報文
面向報文的傳輸方式是應用層交給UDP多長的報文,UDP就照樣發(fā)送,即一次發(fā)送一個報文。因此,應用程序必須選擇合適大小的報文。若報文太長,則IP層需要分片,降低效率。若太短,會是IP太小。
面向字節(jié)流
面向字節(jié)流的話,雖然應用程序和TCP的交互是一次一個數(shù)據(jù)塊(大小不等),但TCP把應用程序看成是一連串的無結(jié)構(gòu)的字節(jié)流。TCP有一個緩沖,當應用程序傳送的數(shù)據(jù)塊太長,TCP就可以把它劃分短一些再傳送。
關于擁塞控制,流量控制,是TCP的重點,后面講解。
TCP和UDP協(xié)議的一些應用
什么時候應該使用TCP?
當對網(wǎng)絡通訊質(zhì)量有要求的時候,比如:整個數(shù)據(jù)要準確無誤的傳遞給對方,這往往用于一些要求可靠的應用,比如HTTP、HTTPS、FTP等傳輸文件的協(xié)議,POP、SMTP等郵件傳輸?shù)膮f(xié)議。
什么時候應該使用UDP?
當對網(wǎng)絡通訊質(zhì)量要求不高的時候,要求網(wǎng)絡通訊速度能盡量的快,這時就可以使用UDP。
七、DNS
DNS(Domain Name
System,域名系統(tǒng)),因特網(wǎng)上作為域名和IP地址相互映射的一個分布式數(shù)據(jù)庫,能夠使用戶更方便的訪問互聯(lián)網(wǎng),而不用去記住能夠被機器直接讀取的IP數(shù)串。通過主機名,最終得到該主機名對應的IP地址的過程叫做域名解析(或主機名解析)。DNS協(xié)議運行在UDP協(xié)議之上,使用端口號53。
八、TCP連接的建立與終止
1.三次握手
TCP是面向連接的,無論哪一方向另一方發(fā)送數(shù)據(jù)之前,都必須先在雙方之間建立一條連接。在TCP/IP協(xié)議中,TCP協(xié)議提供可靠的連接服務,連接是通過三次握手進行初始化的。三次握手的目的是同步連接雙方的序列號和確認號并交換
TCP窗口大小信息。
第一次握手:?建立連接??蛻舳税l(fā)送連接請求報文段,將SYN位置為1,Sequence
Number為x;然后,客戶端進入SYN_SEND狀態(tài),等待服務器的確認;
第二次握手:?服務器收到SYN報文段。服務器收到客戶端的SYN報文段,需要對這個SYN報文段進行確認,設置Acknowledgment Number為x+1(Sequence Number+1);同時,自己自己還要發(fā)送SYN請求信息,將SYN位置為1,Sequence
Number為y;服務器端將上述所有信息放到一個報文段(即SYN+ACK報文段)中,一并發(fā)送給客戶端,此時服務器進入SYN_RECV狀態(tài);
第三次握手:?客戶端收到服務器的SYN+ACK報文段。然后將Acknowledgment
Number設置為y+1,向服務器發(fā)送ACK報文段,這個報文段發(fā)送完畢以后,客戶端和服務器端都進入ESTABLISHED狀態(tài),完成TCP三次握手。
為什么要三次握手?
為了防止已失效的連接請求報文段突然又傳送到了服務端,因而產(chǎn)生錯誤。
具體例子:“已失效的連接請求報文段”的產(chǎn)生在這樣一種情況下:client發(fā)出的第一個連接請求報文段并沒有丟失,而是在某個網(wǎng)絡結(jié)點長時間的滯留了,以致延誤到連接釋放以后的某個時間才到達server。本來這是一個早已失效的報文段。但server收到此失效的連接請求報文段后,就誤認為是client再次發(fā)出的一個新的連接請求。于是就向client發(fā)出確認報文段,同意建立連接。假設不采用“三次握手”,那么只要server發(fā)出確認,新的連接就建立了。由于現(xiàn)在client并沒有發(fā)出建立連接的請求,因此不會理睬server的確認,也不會向server發(fā)送數(shù)據(jù)。但server卻以為新的運輸連接已經(jīng)建立,并一直等待client發(fā)來數(shù)據(jù)。這樣,server的很多資源就白白浪費掉了。采用“三次握手”的辦法可以防止上述現(xiàn)象發(fā)生。例如剛才那種情況,client不會向server的確認發(fā)出確認。server由于收不到確認,就知道client并沒有要求建立連接。”
2.四次揮手
當客戶端和服務器通過三次握手建立了TCP連接以后,當數(shù)據(jù)傳送完畢,肯定是要斷開TCP連接的啊。那對于TCP的斷開連接,這里就有了神秘的“四次分手”。
第一次分手:?主機1(可以是客戶端,也可以是服務器端),設置Sequence
Number,向主機2發(fā)送一個FIN報文段;此時,主機1進入FIN_WAIT_1狀態(tài);這表示主機1沒有數(shù)據(jù)要發(fā)送給主機2了;
第二次分手:?主機2收到了主機1發(fā)送的FIN報文段,向主機1回一個ACK報文段,Acknowledgment Number為Sequence Number加1;主機1進入FIN_WAIT_2狀態(tài);主機2告訴主機1,我“同意”你的關閉請求;
第三次分手:?主機2向主機1發(fā)送FIN報文段,請求關閉連接,同時主機2進入LAST_ACK狀態(tài);
第四次分手:?主機1收到主機2發(fā)送的FIN報文段,向主機2發(fā)送ACK報文段,然后主機1進入TIME_WAIT狀態(tài);主機2收到主機1的ACK報文段以后,就關閉連接;此時,主機1等待2MSL后依然沒有收到回復,則證明Server端已正常關閉,那好,主機1也可以關閉連接了。
為什么要四次分手?
TCP協(xié)議是一種面向連接的、可靠的、基于字節(jié)流的運輸層通信協(xié)議。TCP是全雙工模式,這就意味著,當主機1發(fā)出FIN報文段時,只是表示主機1已經(jīng)沒有數(shù)據(jù)要發(fā)送了,主機1告訴主機2,它的數(shù)據(jù)已經(jīng)全部發(fā)送完畢了;但是,這個時候主機1還是可以接受來自主機2的數(shù)據(jù);當主機2返回ACK報文段時,表示它已經(jīng)知道主機1沒有數(shù)據(jù)發(fā)送了,但是主機2還是可以發(fā)送數(shù)據(jù)到主機1的;當主機2也發(fā)送了FIN報文段時,這個時候就表示主機2也沒有數(shù)據(jù)要發(fā)送了,就會告訴主機1,我也沒有數(shù)據(jù)要發(fā)送了,之后彼此就會愉快的中斷這次TCP連接。
為什么要等待2MSL?
MSL:報文段最大生存時間,它是任何報文段被丟棄前在網(wǎng)絡內(nèi)的最長時間。?
原因有二:
保證TCP協(xié)議的全雙工連接能夠可靠關閉
保證這次連接的重復數(shù)據(jù)段從網(wǎng)絡中消失
第一點:如果主機1直接CLOSED了,那么由于IP協(xié)議的不可靠性或者是其它網(wǎng)絡原因,導致主機2沒有收到主機1最后回復的ACK。那么主機2就會在超時之后繼續(xù)發(fā)送FIN,此時由于主機1已經(jīng)CLOSED了,就找不到與重發(fā)的FIN對應的連接。所以,主機1不是直接進入CLOSED,而是要保持TIME_WAIT,當再次收到FIN的時候,能夠保證對方收到ACK,最后正確的關閉連接。
第二點:如果主機1直接CLOSED,然后又再向主機2發(fā)起一個新連接,我們不能保證這個新連接與剛關閉的連接的端口號是不同的。也就是說有可能新連接和老連接的端口號是相同的。一般來說不會發(fā)生什么問題,但是還是有特殊情況出現(xiàn):假設新連接和已經(jīng)關閉的老連接端口號是一樣的,如果前一次連接的某些數(shù)據(jù)仍然滯留在網(wǎng)絡中,這些延遲數(shù)據(jù)在建立新連接之后才到達主機2,由于新連接和老連接的端口號是一樣的,TCP協(xié)議就認為那個延遲的數(shù)據(jù)是屬于新連接的,這樣就和真正的新連接的數(shù)據(jù)包發(fā)生混淆了。所以TCP連接還要在TIME_WAIT狀態(tài)等待2倍MSL,這樣可以保證本次連接的所有數(shù)據(jù)都從網(wǎng)絡中消失。
九、TCP流量控制
如果發(fā)送方把數(shù)據(jù)發(fā)送得過快,接收方可能會來不及接收,這就會造成數(shù)據(jù)的丟失。所謂?流量控制?就是讓發(fā)送方的發(fā)送速率不要太快,要讓接收方來得及接收。
利用?滑動窗口機制?可以很方便地在TCP連接上實現(xiàn)對發(fā)送方的流量控制。
設A向B發(fā)送數(shù)據(jù)。在連接建立時,B告訴了A:“我的接收窗口是 rwnd = 400 ”(這里的 rwnd 表示 receiver window)
。因此,發(fā)送方的發(fā)送窗口不能超過接收方給出的接收窗口的數(shù)值。請注意,TCP的窗口單位是字節(jié),不是報文段。假設每一個報文段為100字節(jié)長,而數(shù)據(jù)報文段序號的初始值設為1。大寫ACK表示首部中的確認位ACK,小寫ack表示確認字段的值ack。
從圖中可以看出,B進行了三次流量控制。第一次把窗口減少到 rwnd = 300 ,第二次又減到了 rwnd = 100 ,最后減到 rwnd = 0,即不允許發(fā)送方再發(fā)送數(shù)據(jù)了。這種使發(fā)送方暫停發(fā)送的狀態(tài)將持續(xù)到主機B重新發(fā)出一個新的窗口值為止。B向A發(fā)送的三個報文段都設置了 ACK = 1,只有在ACK=1時確認號字段才有意義。
TCP為每一個連接設有一個持續(xù)計時器(persistence timer)。只要TCP連接的一方收到對方的零窗口通知,就啟動持續(xù)計時器。若持續(xù)計時器設置的時間到期,就發(fā)送一個零窗口控測報文段(攜1字節(jié)的數(shù)據(jù)),那么收到這個報文段的一方就重新設置持續(xù)計時器。
十、TCP擁塞控制
1.慢開始和擁塞避免
發(fā)送方維持一個擁塞窗口 cwnd ( congestion window
)的狀態(tài)變量。擁塞窗口的大小取決于網(wǎng)絡的擁塞程度,并且動態(tài)地在變化。發(fā)送方讓自己的發(fā)送窗口等于擁塞窗口。
發(fā)送方控制擁塞窗口的原則是:只要網(wǎng)絡沒有出現(xiàn)擁塞,擁塞窗口就再增大一些,以便把更多的分組發(fā)送出去。但只要網(wǎng)絡出現(xiàn)擁塞,擁塞窗口就減小一些,以減少注入到網(wǎng)絡中的分組數(shù)。
慢開始算法:
當主機開始發(fā)送數(shù)據(jù)時,如果立即讓大量數(shù)據(jù)字節(jié)注入到網(wǎng)絡,那么就有可能引起網(wǎng)絡擁塞,因為現(xiàn)在并不清楚網(wǎng)絡的負荷情況。?
因此,較好的方法是 先探測一下,即由小到大逐漸增大發(fā)送窗口,也就是說,由小到大逐漸增大擁塞窗口數(shù)值。
通常在剛剛開始發(fā)送報文段時,先把擁塞窗口 cwnd
設置為一個最大報文段MSS的數(shù)值。而在每收到一個對新的報文段的確認后,把擁塞窗口增加至多一個MSS的數(shù)值。用這樣的方法逐步增大發(fā)送方的擁塞窗口 cwnd
,可以使分組注入到網(wǎng)絡的速率更加合理。
每經(jīng)過一個傳輸輪次,擁塞窗口 cwnd 就加倍。一個傳輸輪次所經(jīng)歷的時間其實就是往返時間RTT。
不過“傳輸輪次”更加強調(diào):把擁塞窗口cwnd所允許發(fā)送的報文段都連續(xù)發(fā)送出去,并收到了對已發(fā)送的最后一個字節(jié)的確認。
另,慢開始的“慢”并不是指cwnd的增長速率慢,而是指在TCP開始發(fā)送報文段時先設置cwnd=1,使得發(fā)送方在開始時只發(fā)送一個報文段(目的是試探一下網(wǎng)絡的擁塞情況),然后再逐漸增大cwnd。
為了防止擁塞窗口cwnd增長過大引起網(wǎng)絡擁塞,還需要設置一個慢開始門限ssthresh狀態(tài)變量。慢開始門限ssthresh的用法如下:
當 cwnd < ssthresh 時,使用上述的慢開始算法。
當 cwnd > ssthresh 時,停止使用慢開始算法而改用擁塞避免算法。
當 cwnd = ssthresh 時,既可使用慢開始算法,也可使用擁塞控制避免算法。
擁塞避免
讓擁塞窗口cwnd緩慢地增大,即每經(jīng)過?一個往返時間RTT?就把發(fā)送方的?擁塞窗口cwnd加1,而不是加倍
。這樣擁塞窗口cwnd按線性規(guī)律緩慢增長,比慢開始算法的擁塞窗口增長速率緩慢得多。
無論在慢開始階段還是在擁塞避免階段,只要發(fā)送方判斷網(wǎng)絡出現(xiàn)擁塞(其根據(jù)就是沒有收到確認),就要把慢開始門限ssthresh設置為出現(xiàn)擁塞時的發(fā)送
方窗口值的一半(但不能小于2)。然后把擁塞窗口cwnd重新設置為1,執(zhí)行慢開始算法。
這樣做的目的就是要迅速減少主機發(fā)送到網(wǎng)絡中的分組數(shù),使得發(fā)生 擁塞的路由器有足夠時間把隊列中積壓的分組處理完畢。
如下圖,用具體數(shù)值說明了上述擁塞控制的過程?,F(xiàn)在發(fā)送窗口的大小和擁塞窗口一樣大。
2.快重傳和快恢復
快重傳
快重傳算法首先要求接收方每收到一個失序的報文段后就立即發(fā)出重復確認(為的是使發(fā)送方及早知道有報文段沒有到達對方)而不要等到自己發(fā)送數(shù)據(jù)時才進行捎帶確認。
接收方收到了M1和M2后都分別發(fā)出了確認?,F(xiàn)在假定接收方?jīng)]有收到M3但接著收到了M4。
顯然,接收方不能確認M4,因為M4是收到的失序報文段。根據(jù) 可靠傳輸原理,接收方可以什么都不做,也可以在適當時機發(fā)送一次對M2的確認。
但按照快重傳算法的規(guī)定,接收方應及時發(fā)送對M2的重復確認,這樣做可以讓
發(fā)送方及早知道報文段M3沒有到達接收方。發(fā)送方接著發(fā)送了M5和M6。接收方收到這兩個報文后,也還要再次發(fā)出對M2的重復確認。這樣,發(fā)送方共收到了
接收方的四個對M2的確認,其中后三個都是重復確認。
快重傳算法還規(guī)定,發(fā)送方只要一連收到三個重復確認就應當立即重傳對方尚未收到的報文段M3,而不必 繼續(xù)等待M3設置的重傳計時器到期。
由于發(fā)送方盡早重傳未被確認的報文段,因此采用快重傳后可以使整個網(wǎng)絡吞吐量提高約20%。
快恢復
與快重傳配合使用的還有快恢復算法,其過程有以下兩個要點:
當發(fā)送方連續(xù)收到三個重復確認,就執(zhí)行“乘法減小”算法,把慢開始門限ssthresh減半。
與慢開始不同之處是現(xiàn)在不執(zhí)行慢開始算法(即擁塞窗口cwnd現(xiàn)在不設置為1),而是把cwnd值設置為 慢開始門限ssthresh減半后的數(shù)值,然后開始執(zhí)行擁塞避免算法(“加法增大”),使擁塞窗口緩慢地線性增大。?
編輯:黃飛
?
評論
查看更多