伺服器開發中網路故障排查經驗漫談

04-21

寫在前面的話

「聽見學生時代愛聽的歌，加上太累，回家路上一下子想了好多，腳步慢了，眼眶濕了，不是感傷，而是生活呀，需要這麼多力量。過去那些跌跌撞撞忙碌的日子，怎麼說呢，多少有點像在逃避吧，聽起來不像是真的。」

以上這段話訴說了我的經歷，我也曾迷惘和無助過。也有很多朋友找到我，希望我做一些經驗分享和職業規劃指導。為此我特地開辦了一個微信公眾號『easyserverdev』。如果有任何技術或者職業方面的問題需要我提供幫助，可通過這個公眾號與我取得聯繫，此公眾號不僅分享高性能伺服器開發經驗和故事，同時也免費為廣大技術朋友提供技術答疑和職業解惑助，你有任何問題都可以在微信公眾號直接留言，我會儘快回復您。

http://weixin.qq.com/r/DS_qsp3Em8DkrdnR93of (二維碼自動識別)

正文

一、操作系統提供的網路介面

為了能更好的排查網路通信問題，我們需要熟悉操作系統提供的以下網路介面函數，列表如下：

注意：這裡以bekeley提供的標準為例，不包括特定操作系統上特有的介面函數（如Windows平台的WSASend，linux的accept4），也不包括實際與網路數據來往不相關的函數（如select、linux的epoll），這裡只討論與tcp相關的介面函數，像與udp相關的函數sendto/recvfrom等函數與此類似。

下面討論一下以上函數的一些使用注意事項：

以上函數如果調用出錯後，返回值均為-1；但是返回值是-1，不一定代表出錯，這還得根據對應的套接字模式（阻塞與非阻塞模式）。

2. 默認使用的socket函數創建的套接字是阻塞模式的，可以調用相關介面函數將其設置為非阻塞模式（Windows平台可以使用ioctlsocket函數，linux平台可以使用fcntl函數，具體設置方法可以參考這裡。）。阻塞模式和非阻塞模式的套接字，對伺服器的連接伺服器和網路數據的收發行為影響很大。詳情如下：

阻塞模式下，connect函數如果不能立刻連上伺服器，會導致執行流阻塞在那裡一會兒，直到connect連接成功或失敗或網路超時；而非阻塞模式下，無論是否連接成功connect將立即返回，此時如果未連接成功，返回值將是-1，錯誤碼是EINPROGRESS，表示連接操作仍然在進行中。Linux平台後續可以通過使用select/poll等函數檢測該socket是否可寫來判斷連接是否成功。

阻塞套接字模式下，send函數如果由於對端tcp窗口太小，不足以將全部數據發送出去，將阻塞執行流，直到出錯或超時或者全部發送出去為止；同理recv函數如果當前協議棧系統緩衝區中無數據可讀，也會阻塞執行流，直到出錯或者超時或者讀取到數據。send和recv函數的超時時間可以參考下文關於常用socket選項的介紹。

非阻塞套接字模式下，如果由於對端tcp窗口太小，不足以將數據發出去，它將立刻返回，不會阻塞執行流，此時返回值為-1，錯誤碼是EAGAIN或EWOULDBLOCK，表示當前數據發不出去，希望你下次再試。但是返回值如果是-1，也可能是真正的出錯了，也可能得到錯誤碼EINTR，表示被linux信號中斷了，這點需要注意一下。recv函數與send函數情形一樣。

3. send函數雖然名稱叫「send」，但是其並不是將數據發送到網路上去，只是將數據從應用層緩衝區中拷貝到協議棧內核緩衝區中，具體什麼時候發送到網路上去，與協議棧本身行為有關係（socket選項nagle演算法與這個有關係，下文介紹常見套接字選項時會介紹），這點需要特別注意，所以即使send函數返回一個大於0的值n，也不能表明已經有n個位元組發送到網路上去了。同樣的道理，recv函數也不是從網路上收取數據，只是從協議棧內核緩衝區拷貝數據至應用層緩衝區，並不是真正地從網路上收數據，所以，調用recv時，操作系統的協議棧已經將數據從網路上收到自己的內核緩衝區中了，recv僅僅是一次數據拷貝操作而已。

4. 由於套接字實現是收發全雙工的，收和發通道相互獨立，不會相互影響，shutdown函數是用來選擇關閉socket收發通道中某一路（當然，也可以兩路都關閉），其how參數取值一般有三個：SHUT_RD/SHUT_WR/SHUT_RDWR，SHUT_RD表示關閉收消息鏈路，即該套接字不能再收取數據，同理SHUT_WR表示關閉套接字發消息鏈路，但是這裡有個問題，有時候我們需要等待緩衝區中數據發送完後再關閉連接怎麼辦？這裡就要用到套接字選項LINGER，關於這個選項請參考下文常見的套接字選項介紹。最後，SHUT_RDWR同時關閉收消息鏈路和發消息鏈路。通過上面的分析，我們得出結論，shutdown函數並不會要求操作系統底層回收套接字等資源，真正會回收資源是close函數，這個函數會要求操作系統回收相關套接字資源，並釋放對ip地址與埠號二元組的佔用，但是由於tcp四次揮手最後一個階段有個TIME_WAIT狀態（關於這個狀態下文介紹tcp三次握手和四次回收時會詳細介紹），導致與該socket相關的埠號資源不會被立即釋放，有時候為了達到釋放埠用來複用，我們會設置套接字選項SOL_REUSEPORT（關於這個選項，下文會介紹）。綜合起來，我們關閉一個套接字，一般會先調用shutdown函數再調用close函數，這就是所謂的優雅關閉：

5. 常見的套接字選項

嚴格意義上說套接字選項是有不同層級的（level），如socket級別、TCP級別、IP級別，這裡我們不區分具體的級別。

SO_SNDTIMEO與SO_RCVTIMEO

這兩個選項用於設置阻塞模式下套接字，SO_SNDTIMEO用於在send數據由於對端tcp窗口太小，發不出去而最大的阻塞時長；SO_RCVTIMEO用於recv函數因接受緩衝區無數據而阻塞的最大阻塞時長。如果你需要獲取它們的默認值，請使用getsockopt函數。

TCP_NODELAY

操作系統底層協議棧默認有這樣一個機制，為了減少網路通信次數，會將send等函數提交給tcp協議棧的多個小的數據包合併成一個大的數據包，最後再一次性發出去，也就是說，如果你調用send函數往內核協議棧緩衝區拷貝了一個數據，這個數據也許不會馬上發到網路上去，而是要等到協議棧緩衝區積累到一定量的數據後才會一次性發出去，我們把這種機制叫做nagle演算法。默認打開了這個機制，有時候我們希望關閉這種機制，讓send的數據能夠立刻發出去，我們可以選擇關閉這個演算法，這就可以通過設置套接字選項TCP_NODELAY，即關閉nagle演算法。

SO_LINGER

linger這個單詞本身的意思，是「暫停、逗留」。這個選項的用處是用於解決，當需要關閉套接字時，協議棧發送緩衝區中尚有未發送出去的數據，等待這些數據發完的最長等待時間。

SO_REUSEADDR/SO_REUSEPORT

一個埠，尤其是作為伺服器端埠在四次揮手的最後一步，有一個為TIME_WAIT的狀態，這個狀態一般持續2MSL（MSL，maximum segment life，最大生存周期，RFC上建議是2分鐘）。這個狀態存在原因如下：1. 保證發出去的ack能被送達（超時會重發ack）2. 讓遲來的報文有足夠的時間被丟棄，反過來說，如果不存在這個狀態，那麼可以立刻復用這個地址和埠號，那麼可能會收到老的連接遲來的數據，這顯然是不好的。為了立即回收復用埠號，我們可以通過開啟套接字SO_REUSEADDR/SO_REUSEPORT。

SO_KEEPALIVE

默認情況下，當一個連接長時間沒有數據來往，會被系統防火牆之類的服務關閉。為了避免這種現象，尤其是一些需要長連接的應用場景下，我們需要使用心跳包機制，即定時從兩端定時發一點數據，這種行為叫做「保活」。而tcp協議棧本身也提供了這種機制，那就是設置套接字SO_KEEPALIVE選項，開啟這個選項後，tcp協議棧會定時發送心跳包探針，但是這個默認時間比較長（2個小時），我們可以繼續通過相關選項改變這個默認值。

二、常用的網路故障排查工具

1.ping

ping命令可用於測試網路是否連通。

2.telnet

命令使用格式：

telnet ip或域名 port

例如：

telnet 120.55.94.78 8888

telnet http://www.baidu.com 80

結合ping和telnet命令我們就可以判斷一個伺服器地址上的某個埠號是否可以對外提供服務。

由於我們使用的開發機器以windows居多，默認情況下，windows系統的telnet命令是沒有打開的，我們可以在【控制面板】- 【程序】- 【程序和功能】- 【打開或關閉Windows功能】中打開telnet功能。

3.host命令

host 命令可以解析域名得到對應的ip地址。例如，我們要得到http://www.baidu.com這個域名的ip地址，可以輸入：

得到http://www.google.com的ip地址可以輸入：

4 .netstat命令

常見的選項有：

-a (all)顯示所有選項，netstat默認不顯示LISTEN相關

-t (tcp)僅顯示tcp相關選項

-u (udp)僅顯示udp相關選項

-n 拒絕顯示別名，能顯示數字的全部轉化成數字。(重要)

-l 僅列出有在 Listen (監聽) 的服務狀態

-p 顯示建立相關鏈接的程序名(macOS中表示協議 -p protocol)

-r 顯示路由信息，路由表

-e 顯示擴展信息，例如uid等

-s 按各個協議進行統計 (重要)

-c 每隔一個固定時間，執行該netstat命令。

5. lsof命令

lsof，即list opened filedescriptor，即列出當前操作系統中打開的所有文件描述符，socket也是一種file descriptor，常見的選項是:

-i 列出系統打開的socket fd

-P 不要顯示埠號別名

-n 不要顯示ip地址別名（如localhost會用127.0.0.1來代替）

+c w 程序列名稱最大可以顯示到w個字元。

常見的選項組合為lsof –i –Pn：

可以看到列出了當前偵聽的socket，和連接socket的tcp狀態。

6.pstack

嚴格意義上來說，這個不算網路排查故障和調試命令，但是我們可以利用這個命令來查看某個進程的線程數量和線程調用堆棧是否運行正常。指令使用格式：

pstack pid

即，pstack 進程號，如：

7.nc命令

即netcat命令，這個工具在排查網路故障時非常有用，因而被業績稱為網路界的「瑞士軍刀」。常見的用法如下：

模擬伺服器端在指定ip地址和埠號上偵聽

nc –l 0.0.0.0 8888

模擬客戶端連接到指定ip地址和埠號

nc 0.0.0.0 8888

我們知道客戶端連接伺服器一般都是操作系統隨機分配一個可用的埠號連接到伺服器上去，這個指令甚至可以指定使用哪個埠號連接，如：

nc –p 12345 127.0.0.1 8888

客戶端使用埠12345去連接伺服器127.0.0.1::8888。

使用nc命令發消息和發文件

客戶端

伺服器

8 .tcpdump

這個是linux系統自帶的抓包工具，功能非常強大，默認需要開啟root許可權才能使用。

其常見的選項有：

-i 指定網卡

-X –XX 列印十六進位的網路數據包

-n –nn 不顯示ip地址和埠的別名

-S 以絕對值顯示包的ISN號（包序列號）

常用的過濾條件有如下形式：

tcpdump –i any 『port 8888』

tcpdump –i any 『tcp port 8888』

tcpdump –i any 『tcp src port 8888』

tcpdump –i any 『tcp src port 8888 and udp dst port 9999』

tcpdump -i any src host 127.0.0.1 and tcp src port 12345 -XX -nn -vv

關於tcpdump命令接下來將會以對tcp三次握手和四次揮手的包數據進行抓包來分析。

三、 tcp三次握手和四次揮手過程解析

熟練地掌握tcp三次握手和四次揮手過程的每一個細節是我們排查網路問題的基礎。

下面我們來通過tcpdump抓包能實戰一下三次握手的過程，假設我的伺服器端的地址是 127.0.0.0.1 : 12345，使用nc命令創建一個伺服器程序並在這個地址上進行偵聽：

nc –v -l 127.0.0.0.112345

然後在客戶端機器上開啟tcpdump工具：

然後在客戶端使用nc命令創建一個客戶端去連接伺服器：

我們抓到的包如下：

圖片看不清，可以放大來看。上面我們需要注意的是：

三次握手過程是客戶端先給伺服器發送一個SYN，然後伺服器應答一個SYN+ACK，應答的序列號是遞增1的，表示應答哪個請求，即從4004096087遞增到4004096088，接著客戶端再應答一個ACK。這個時候，我們發現發包序列號和應答序列號都變成1了，這是tcpdump使用相對序號，我們加上-S選項後就變成絕對序列號了。

這是正常的tcp三次握手，假如我們連接的伺服器ip地址存在，但監聽埠號並不存在，我們看下tcpdump抓包結果：

這個時候客戶端發送SYN，伺服器應答ACK+RST：

這個應答包會導致客戶端的connect連接失敗。

還有一種情況就是客戶端訪問一個很遙遠的ip，或者網路繁忙，伺服器對客戶端發送的網路SYN報文沒有應答，會出現什麼情況呢？

我們先將防火牆的已有規則都清理掉: iptables -F

然後給防火牆的INPUT鏈上增加一個規則，丟棄本地網卡lo（也就是127.0.0.1這個迴環地址）上的所有SYN包：

iptables -I INPUT -p tcp --syn -i lo -j DROP

接著，我們看到tcpdump抓到的數據包如下：

連接不上，一共重試了5次，重試的時間間隔是1秒，2秒，4秒，8秒，16秒，最後返回失敗。這個重試次數在/proc/sys/net/ipv4/tcp_syn_retries 內核參數中設置，默認為6。

四次揮手與三次握手基本上類似，這裡就不貼出tcpdump抓包的詳情了。實際的網路開發中，尤其是高QPS的伺服器程序，可能在在伺服器程序所在的系統上留下大量非ESTABLISHED的中間狀態，如CLOSE_WAIT/TIME_WAIT，我們可以使用以下指令來統計這些狀態信息：

netstat -n | awk /^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}

得到結果可能類似：

讓我們再貼一張tcp三次握手和四次揮手更清晰的圖吧。

下面看下一般比較關心的三種TCP狀態

SYN_RECV

服務端收到建立連接的SYN沒有收到ACK包的時候處在SYN_RECV狀態。有兩個相關係統配置：

net.ipv4.tcp_synack_retries，整形，默認值是5

對於遠端的連接請求SYN，內核會發送SYN ＋ ACK數據報，以確認收到上一個 SYN連接請求包。這是三次握手機制的第二個步驟。這裡決定內核在放棄連接之前所送出的 SYN+ACK 數目。不應該大於255，默認值是5，對應於180秒左右時間。通常我們不對這個值進行修改，因為我們希望TCP連接不要因為偶爾的丟包而無法建立。

net.ipv4.tcp_syncookies

一般伺服器都會設置net.ipv4.tcp_syncookies=1來防止SYN Flood攻擊。假設一個用戶向伺服器發送了SYN報文後突然死機或掉線，那麼伺服器在發出SYN+ACK應答報文後是無法收到客戶端的ACK報文的（第三次握手無法完成），這種情況下伺服器端一般會重試（再次發送SYN+ACK給客戶端）並等待一段時間後丟棄這個未完成的連接，這段時間的長度我們稱為SYN Timeout，一般來說這個時間是分鐘的數量級（大約為30秒-2分鐘）。這些處在SYNC_RECV的TCP連接稱為半連接，並存儲在內核的半連接隊列中，在內核收到對端發送的ack包時會查找半連接隊列，並將符合的requst_sock信息存儲到完成三次握手的連接的隊列中，然後刪除此半連接。大量SYNC_RECV的TCP連接會導致半連接隊列溢出，這樣後續的連接建立請求會被內核直接丟棄，這就是SYN Flood攻擊。能夠有效防範SYN Flood攻擊的手段之一，就是SYN Cookie。SYN Cookie原理由D. J. Bernstain和 Eric Schenk發明。SYN Cookie是對TCP伺服器端的三次握手協議作一些修改，專門用來防範SYN Flood攻擊的一種手段。它的原理是，在TCP伺服器收到SYN包並返回SYN+ACK包時，不分配一個專門的數據區，而是根據這個SYN包計算出一個cookie值。在收到ACK包時，TCP伺服器在根據那個cookie值檢查這個TCP ACK包的合法性。如果合法，再分配專門的數據區進行處理未來的TCP連接。觀測服務上SYN_RECV連接個數為：7314，對於一個高並發連接的通訊伺服器，這個數字比較正常。

CLOSE_WAIT

發起TCP連接關閉的一方稱為client，被動關閉的一方稱為server。被動關閉的server收到FIN後，但未發出ACK的TCP狀態是CLOSE_WAIT。出現這種狀況一般都是由於server端代碼的問題，如果你的伺服器上出現大量CLOSE_WAIT，應該要考慮檢查代碼。

TIME_WAIT

根據三次握手斷開連接規定，發起socket主動關閉的一方 socket將進入TIME_WAIT狀態。TIME_WAIT狀態將持續2MSL。TIME_WAIT狀態下的socket不能被回收使用。具體現象是對於一個處理大量短連接的伺服器，如果是由伺服器主動關閉客戶端的連接，將導致伺服器端存在大量的處於TIME_WAIT狀態的socket，甚至比處於Established狀態下的socket多的多，嚴重影響伺服器的處理能力，甚至耗盡可用的socket，停止服務。TIME_WAIT是TCP協議用以保證被重新分配的socket不會受到之前殘留的延遲重發報文影響的機制,是必要的邏輯保證。和TIME_WAIT狀態有關的系統參數有一般由3個，本機設置如下：

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_fin_timeout = 30

net.ipv4.tcp_fin_timeout，默認60s，減小fin_timeout，減少TIME_WAIT連接數量。

net.ipv4.tcp_tw_reuse = 1表示開啟重用。允許將TIME-WAIT sockets重新用於新的TCP連接，默認為0，表示關閉；

net.ipv4.tcp_tw_recycle = 1表示開啟TCP連接中TIME-WAIT sockets的快速回收，默認為0，表示關閉。

我們這裡總結一下這些與tcp狀態的選項：

u net.ipv4.tcp_syncookies=1 表示開啟SYN Cookies。當出現SYN等待隊列溢出時，啟用cookie來處理，可防範少量的SYN攻擊。默認為0，表示關閉。

u net.ipv4.tcp_tw_reuse=1 表示開啟重用。允許將TIME-WAIT套接字重新用於新的TCP連接。默認為0，表示關閉。

u net.ipv4.tcp_tw_recycle=1 表示開啟TCP連接中TIME-WAIT套接字的快速回收。默認為0，表示關閉。

u net.ipv4.tcp_fin_timeout=30 表示如果套接字由本端要求關閉，這個參數決定了它保持在FIN-WAIT-2狀態的時間。

u net.ipv4.tcp_keepalive_time=1200 表示當keepalive啟用時，TCP發送keepalive消息的頻度。默認是2小時，這裡改為20分鐘。

u net.ipv4.ip_local_port_range=1024 65000 表示向外連接的埠範圍。默認值很小：32768～61000，改為1024～65000。

u net.ipv4.tcp_max_syn_backlog=8192 表示SYN隊列的長度，默認為1024，加大隊列長度為8192，可以容納更多等待連接的網路連接數。

u net.ipv4.tcp_max_tw_buckets=5000 表示系統同時保持TIME_WAIT套接字的最大數量，如果超過這個數字，TIME_WAIT套接字將立刻被清除並列印警告信息。默認為180000，改為5000。

注意

上文中提到的兩個參數：

net.ipv4.tcp_tw_recycle

net.ipv4.tcp_tw_reuse

在實際linux內核參數調優時並不建議開啟。原因是關於這兩個選項會影響在NAT網路中的，區域網伺服器組之間通信，而在非NAT網路中不影響服務端與客戶端的通信，所以在NAT網路中不建議開啟。至於原因，可參見：http://www.cnxct.com/coping-with-the-tcp-time_wait-state-on-busy-linux-servers-in-chinese-and-dont-enable-tcp_tw_recycle/

四、關於跨系統與跨語言之間的網路通信連通問題

如何在Java語言中去解析C++的網路數據包，如何在C++中解析Java的網路數據包，對於很多人來說是一件很困難的事情，所以只能變著法子使用第三方的庫。其實使用tcpdump工具可以很容易解決與分析。

首先，我們需要明確位元組序列這樣一個概念，即我們說的大端編碼(big endian)和小端編碼(little endian)，x86和x64系列的cpu使用小端編碼，而數據在網路上傳輸，以及Java語言中，使用的是大端編碼。那麼這是什麼意思呢？

我們舉個例子，看一個x64機器上的32位數值在內存中的存儲方式：

i在內存中的地址序列是0x003CF7C4~ 0x003CF7C8，值為40 e2 01 00。

十六進位0001e240正好等於10進位123456，也就是說小端編碼中權重高的的位元組值存儲在內存地址高（地址值較大）的位置，權重值低的位元組值存儲在內存地址低（地址值較小）的位置，也就是所謂的高高低低。

相反，大端編碼的規則應該是高低低高，也就是說權值高位元組存儲在內存地址低的位置，權值低的位元組存儲在內存地址高的位置。

所以，如果我們一個C++程序的int32值123456不作轉換地傳給Java程序，那麼Java按照大端編碼的形式讀出來的值是：十六進位40E20100 = 十進位1088553216。

所以，我們要麼在發送方將數據轉換成網路位元組序（大端編碼），要麼在接收端再進行轉換。

下面看一下如果C++端傳送一個如下數據結構，Java端該如何解析（由於Java中是沒有指針的，也無法操作內存地址，導致很多人無從下手），下面利用tcpdump來解決這個問題的思路。

我們客戶端發送的數據包：

其結構體定義如下：

利用tcpdump抓到的包如下：

放大一點：

我們白色標識出來就是我們收到的數據包。這裡我想說明兩點：

如果我們知道發送端發送的位元組流，再比照接收端收到的位元組流，我們就能檢測數據包的完整性，或者利用這個來排查一些問題；
對於Java程序只要按照這個順序，先利用java.net.Socket的輸出流java.io.DataOutputStream對象readByte、readInt32、readInt32、readBytes、readBytes方法依次讀出一個char、int32、int32、16個位元組的位元組數組、63個位元組數組即可，為了還原像int32這樣的整形值，我們需要做一些小端編碼向大端編碼的轉換。

五、常見的問題總結

1. CentOS配置信息存儲位置

上文中涉及到的配置信息位於/etc/sysctl.conf，修改後執行以下命令讓配置生效：

/sbin/sysctl -p

2. 涉及到的配置信息

l net.ipv4.tcp_syncookies=1

表示開啟SYN Cookies。當出現SYN等待隊列溢出時，啟用cookie來處理，可防範少量的SYN攻擊。默認為0，表示關閉。

l net.ipv4.tcp_tw_reuse=1

表示開啟重用。允許將TIME-WAIT套接字重新用於新的TCP連接。默認為0，表示關閉。

l net.ipv4.tcp_tw_recycle=1

表示開啟TCP連接中TIME-WAIT套接字的快速回收。默認為0，表示關閉。

l net.ipv4.tcp_fin_timeout=30

表示如果套接字由本端要求關閉，這個參數決定了它保持在FIN-WAIT-2狀態的時間。

l net.ipv4.tcp_keepalive_time=1200

表示當keepalive啟用時，TCP發送keepalive消息的頻度。默認是2小時。

l net.ipv4.ip_local_port_range=1024

65000 表示向外連接的埠範圍。默認值很小：32768～61000。

l net.ipv4.tcp_max_syn_backlog=8192

表示SYN隊列的長度，默認為1024。

l net.ipv4.tcp_max_tw_buckets=5000

表示系統同時保持TIME_WAIT套接字的最大數量，如果超過這個數字，TIME_WAIT套接字將立刻被清除並列印警告信息。默認為180000。

以上參數當前值可以通過查看/proc/sys/net/ipv4/xx，xx為參數名稱，如查看/proc/sys/net/ipv4/tcp_fin_timeout：

3. 當客戶端C連接伺服器S成功後，如果伺服器先關閉，客戶端C不關閉，伺服器S將處於FIN_WAIT_2狀態，客戶端C處於CLOSE_WAIT狀態，伺服器的FIN_WAIT_2狀態將在net.ipv4.tcp_fin_timeout後被回收，默認30秒，在這個期間不會被複用；客戶端C處於CLOSE_WAIT狀態將一直持續到進程結束或者操作系統重啟，否則操作系統不會回收CLOSE_WAIT狀態的連接，因為這個錯誤是可以避免的，其根本原因就是客戶端沒關閉連接導致，應該去檢查你的代碼。

同樣的道理，如果是客戶端C先關閉，伺服器S未關閉，則客戶端C處於FIN_WAIT_2狀態，伺服器器端處於CLOSE_WAIT狀態，與上面的情況類似。但是，我這裡需要強調一點是：如果兩個處於相互連接狀態的端較遠，當中間的鏈路出現故障（如路由器斷電），且該鏈路是兩端的必經之路，那麼除非發送數據監測，否則兩端的tcp協議棧本身是監測不到這個連接斷開的問題，這個時候，我們需要使用類似於「保活」機制的心跳包來監測，並及時發現這種「死鏈」，關閉套接字或者重連。

4. 每一路連接以（源地址，源埠號，目標地址，目標埠號）這樣一個四元組唯一確定，假設目標地址和目標埠號確定的情況下，由源地址+源埠號確定，源地址一般可以認為是固定的，所以現在連接數量由可用埠號數量來確定，這個參數由net.ipv4.ip_local_port_range確定，默認值32768~61000，大約28000個左右。

5. 當發生網路故障時，我們需要除了需要關注機器的內存、磁碟、線程棧等狀態外，還需要關注一下，服務上的連接狀態，確認是否存在不正常的tcp三次握手或者四次揮手的中間狀態（如CLOSE_WAIT和TIME_WAIT）狀態，另外就是查看下臨近的防火牆上來往的數據是否正常。在CentOS 7上我們可以使用iptables等命令查看和修改相關防火牆規則。

限於作者水平和經驗有限，文中如果不當的地方，歡迎提出意見。

全文完。

張小方寫於2018年3月29日

參考資料：

? 《TCP/IP詳解卷一：協議》

? 《TCP/IP詳解卷二：實現》

? 游雙《Linux高性能伺服器編程》

? https://man.cx/?page=iptables(8)

? https://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux

? https://blog.csdn.net/chinalinuxzend/article/details/1792184

? https://www.zhihu.com/question/29212769

? https://blog.csdn.net/launch_225/article/details/9211731

? https://www.cnblogs.com/splenday/articles/7668589.html

? http://man.linuxde.net/ss

? http://www.cnxct.com/coping-with-the-tcp-time_wait-state-on-busy-linux-servers-in-chinese-and-dont-enable-tcp_tw_recycle/

? https://www.cnblogs.com/xkus/p/7463135.html