標籤:

從零實現一個http伺服器

從零實現一個http伺服器

weixin.qq.com/r/DS_qsp3 (二維碼自動識別)

我始終覺得,天生的出身很重要,但後天的努力更加重要,所以如今的很多「科班」往往不如後天努力的「非科班」。所以,我們需要重新給「專業」和「專家」下一個定義:所謂專業,就是別人搞你不搞,這就是你的「專業」;你和別人同時搞,你比別人搞的好,就是「專家」。

說到http協議和http請求,很多人都知道,但是他們真的「知道」嗎?我面試過很多求職者,一說到http協議,他們能滔滔不絕,然後我問他http協議的具體格式是啥樣子的?很多人不清楚,不清楚就不清楚吧,他甚至能將http協議的頭扯到html文檔頭部<head>。當我問http GET和POST請求的時候,GET請求是什麼形式一般人都可以答出來,但是POST請求的數據放在哪裡,伺服器如何識別和解析這些POST數據,很多人又說不清道不明了。當說到http伺服器時,很多人離開了apache、Nginx這樣現成的http server之外,自己實現一個http伺服器無從下手,如果實際應用場景有需要使用到一些簡單http請求時,使用apache、Nginx這樣重量級的http伺服器程序實在勞師動眾,你可以嘗試自己實現一個簡單的。

上面提到的問題,如果您不能清晰地回答出來,可以閱讀一下這篇文章,這篇文章在不僅介紹http的格式,同時帶領大家從零實現一個簡單的http伺服器程序。

一、項目背景

最近很多朋友希望我的flamingo伺服器支持http協議,我自己也想做一個微信小程序,小程序通過http協議連接通過我的flamingo伺服器進行聊天。flamingo是一個開源的即時通訊軟體,目前除了伺服器端,還有pc端、android端,後面會支持更多的終端。關於flamingo的介紹您可以參考這裡:blog.csdn.net/analogous,這是我不斷維護一個項目,其最新代碼下載地址是:github.com/baloonwj/fla,更新日誌:github.com/baloonwj/fla。下面是flamingo的部分截圖:

二、http協議介紹

1. http協議是應用層協議,一般建立在tcp協議的基礎之上(當然你的實現非要基於udp也是可以的),也就是說http協議的數據收發是通過tcp協議的。

2. http協議也分為head和body兩部分,但是我們一般說的html中的<head>和<body>標記不是http協議的頭和身體,它們都是http協議的body部分。

那麼http協議的頭到底長啥樣子呢?我們來介紹一下http協議吧。

http協議的格式如下:

GET或POST 請求的url路徑(一般是去掉域名的路徑) HTTP協議版本號欄位1名: 欄位1值
欄位2名: 欄位2值
...欄位n名 : 欄位n值

http協議包體內容

也就是說http協議由兩部分組成:包頭和包體,包頭與包體之間使用一個
分割,由於http協議包頭的每一行都是以
結束,所以http協議包頭一般以

結束。

舉個例子,比如我們在瀏覽器中請求hootina.org/index_2013.這個網址,這是一個典型的GET方法,瀏覽器組裝的http數據包格式如下:

GET /index_2013.php HTTP/1.1
Host: www.hootina.org
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8

上面這個請求只有包頭沒有包體,http協議的包體不是必須的,也就是說GET請求一般沒有包體。

如果GET請求帶參數,那麼一般是附加在請求的url後面,參數與參數之間使用&分割,例如請求hootina.org/index_2013.,我們看下這個請求組裝的的http協議包格式:

GET /index_2013.php?param1=value1&param2=value2&param3=value3 HTTP/1.1
Host: www.hootina.org
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8

對比一下,你現在知道http協議的GET參數放在協議包的什麼位置了吧。

那麼POST的數據放在什麼位置呢?我們再12306網站(kyfw.12306.cn/otn/login)中登陸輸入用戶名和密碼:

然後發現瀏覽器以POST方式組裝了http協議包發送了我們的用戶名、密碼和其他一些信息,組裝的包格式如下:

POST /passport/web/login HTTP/1.1
Host: kyfw.12306.cn
Connection: keep-alive
Content-Length: 55
Accept: application/json, text/javascript, */*; q=0.01
Origin: https://kyfw.12306.cn
X-Requested-With: XMLHttpRequest
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36
Content-Type: application/x-www-form-urlencoded; charset=UTF-8
Referer: https://kyfw.12306.cn/otn/login/init
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
Cookie: _passport_session=0b2cc5b86eb74bcc976bfa9dfef3e8a20712; _passport_ct=18d19b0930954d76b8057c732ce4cdcat8137; route=6f50b51faa11b987e576cdb301e545c4; RAIL_EXPIRATION=1526718782244; RAIL_DEVICEID=QuRAhOyIWv9lwWEhkq03x5Yl_livKZxx7gW6_-52oTZQda1c4zmVWxdw5Zk79xSDFHe9LJ57F8luYOFp_yahxDXQAOmEV8U1VgXavacuM2UPCFy3knfn42yTsJM3EYOy-hwpsP-jTb2OXevJj5acf40XsvsPDcM7; BIGipServerpool_passport=300745226.50215.0000; BIGipServerotn=1257243146.38945.0000; BIGipServerpassport=1005060362.50215.0000

username=balloonwj%40qq.com&password=iloveyou&appid=otn

其中username=balloonwj%40qq.com&password=iloveyou&appid=otn就是我們的POST數據,但是大家需要注意的以下幾種,不要搞錯:

1. 我的用戶名是balloonwj@qq.com,到POST裡面變成balloonwj%40qq.com,其中%40是@符號的16進位轉碼形式。這個碼錶可以參考這裡:w3school.com.cn/tags/ht

2.這裡有三個變數,分別是username、password和appid,他們之間使用&符號分割,但是請注意的是,這不意味著傳遞多個POST變數時必須使用&符號分割,只不過這裡是瀏覽器html表單(輸入用戶名和密碼的文本框是html表單的一種)分割多個變數採用的默認方式而已。你可以根據你的需求,來自由定製,只要讓伺服器知道你的解析方式即可。比如可以這麼分割:

方法一:username=balloonwj%40qq.com|password=iloveyou|appid=otn方法二:username:balloonwj%40qq.com
password:iloveyou
appid:otn
方法三username,password,appid=balloonwj%40qq.com,iloveyou,otn

不管怎麼分割,只要你能自己按一定的規則解析出來就可以了。

不知道你注意到沒有,上面的POST數據放在http包體中,伺服器如何解析呢?可能你沒明白我的意思,看下圖:

如上圖所示,由於http協議是基於tcp協議的,tcp協議是流式協議,包頭部分可以通過多出的
來分界,包體部分如何分界呢?這是協議本身要解決的問題。目前一般有兩種方式,第一種方式就是在包頭中有個content-Length欄位,這個欄位的值的大小標識了POST數據的長度,上圖中55就是數據username=balloonwj%40qq.com&password=iloveyou&appid=otn的長度,伺服器收到一個數據包後,先從包頭解析出這個欄位的值,再根據這個值去讀取相應長度的作為http協議的包體數據。還有一個格式叫做http chunked技術(分塊),大致意思是將大包分成小包,具體的詳情有興趣的讀者可以自行搜索學習。

三、http客戶端實現

如果您能掌握以上說的http協議,你就可以自己通過代碼組裝http協議發送http請求了(也是各種開源http庫的做法)。我們先簡單地介紹一下如何模擬發送http。舉個例子,我們要請求hootina.org/index_2013.,那麼我們可以先通過域名得到ip地址,即通過socket API gethostbyname()得到hootina.org的ip地址,由於http伺服器默認的埠號是80,有了域名和ip地址之後,我們使用socket API connect()去連接伺服器,然後根據上面介紹的格式組裝成http協議包,利用socket API send()函數發出去,如果伺服器有應答,我們可以使用socket API recv()去接受數據,接下來就是解析數據(先解析包頭和包體)。

四、http伺服器實現

我們這裡簡化一些問題,假設客戶端發送的請求都是GET請求,當客戶端發來http請求之後,我們拿到http包後就做相應的處理。我們以為我們的flamingo伺服器實現一個支持http格式的註冊請求為例。假設用戶在瀏覽器裡面輸入以下網址,就可以實現一個註冊功能:

120.55.94.78:12345/regi{"username": "13917043329", "nickname": "balloon", "password": "123"}

這裡我們的http協議使用的是12345埠號而不是默認的80埠。如何偵聽12345埠,這個是非常基礎的知識了,這裡就不介紹了。當我們收到數據以後:

void HttpSession::OnRead(const std::shared_ptr<TcpConnection>& conn, Buffer* pBuffer, Timestamp receivTime){ //LOG_INFO << "Recv a http request from " << conn->peerAddress().toIpPort(); string inbuf; //先把所有數據都取出來 inbuf.append(pBuffer->peek(), pBuffer->readableBytes()); //因為一個http包頭的數據至少

,所以大於4個字元 //小於等於4個字元,說明數據未收完,退出,等待網路底層接著收取 if (inbuf.length() <= 4) return; //我們收到的GET請求數據包一般格式如下: /* GET /register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22} HTTP/1.1
Host: 120.55.94.78:12345
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN, zh; q=0.9, en; q=0.8

*/ //檢查是否以

結束,如果不是說明包頭不完整,退出 string end = inbuf.substr(inbuf.length() - 4); if (end != "

") return; //以
分割每一行 std::vector<string> lines; StringUtil::Split(inbuf, lines, "
"); if (lines.size() < 1 || lines[0].empty()) { conn->forceClose(); return; } std::vector<string> chunk; StringUtil::Split(lines[0], chunk, " "); //chunk中至少有三個字元串:GET+url+HTTP版本號 if (chunk.size() < 3) { conn->forceClose(); return; } LOG_INFO << "url: " << chunk[1] << " from " << conn->peerAddress().toIpPort(); //inbuf = /register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22} std::vector<string> part; //通過?分割成前後兩端,前面是url,後面是參數 StringUtil::Split(chunk[1], part, "?"); //chunk中至少有三個字元串:GET+url+HTTP版本號 if (part.size() < 2) { conn->forceClose(); return; } string url = part[0]; string param = part[1].substr(2); if (!Process(conn, url, param)) { LOG_ERROR << "handle http request error, from:" << conn->peerAddress().toIpPort() << ", request: " << pBuffer->retrieveAllAsString(); } //短連接,處理完關閉連接 conn->forceClose();}

代碼注釋都寫的很清楚,我們先利用
分割得到每一行,其中第一行的數據是:

GET /register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22} HTTP/1.1

其中%22是雙引號的url轉碼形式,%20是空格的url轉碼形式,然後我們根據空格分成三段,其中第二段就是我們的網址和參數:

/register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22}

然後我們根據網址與參數之間的問號將這個分成兩段:第一段是網址,第二段是參數:

bool HttpSession::Process(const std::shared_ptr<TcpConnection>& conn, const std::string& url, const std::string& param){ if (url.empty()) return false; if (url == "/register.do") { OnRegisterResponse(param, conn); } else if (url == "/login.do") { OnLoginResponse(param, conn); } else if (url == "/getfriendlist.do") { } else if (url == "/getgroupmembers.do") { } else return false; return true;}

然後我們根據url匹配網址,如果是註冊請求,會走註冊處理邏輯:

void HttpSession::OnRegisterResponse(const std::string& data, const std::shared_ptr<TcpConnection>& conn){ string retData; string decodeData; URLEncodeUtil::Decode(data, decodeData); BussinessLogic::RegisterUser(decodeData, conn, false, retData); if (!retData.empty()) { std::string response; URLEncodeUtil::Encode(retData, response); MakeupResponse(retData, response); conn->send(response); LOG_INFO << "Response to client: cmd=msg_type_register" << ", data=" << retData << conn->peerAddress().toIpPort();; }}

註冊結果放在retData中,為了發給客戶端,我們將結果中的特殊字元如雙引號轉碼,如返回結果是:

{"code":0, "msg":"ok"}

會被轉碼成:

{%22code%22:0,%20%22msg%22:%22ok%22}

然後,將數據組裝成http協議發給客戶端,給客戶端的應答協議與http請求協議有一點點差別,就是將請求的url路徑換成所謂的http響應碼,如200表示應答正常返回、404頁面不存在。應答協議格式如下:

GET或POST 響應碼 HTTP協議版本號欄位1名: 欄位1值
欄位2名: 欄位2值
...欄位n名 : 欄位n值

http協議包體內容

舉個例子如:

HTTP/1.1 200 OK
Content-Type: text/html
Content-Length:42

{%22code%22:%200,%20%22msg%22:%20%22ok%22}

注意,包頭中的Content-Length長度必須正好是包體{%22code%22:%200,%20%22msg%22:%20%22ok%22}的長度,這裡是42。這也符合我們瀏覽器的返回結果:

當然,需要注意的是,我們一般說http連接一般是短連接,這裡我們也實現了這個功能(看上面的代碼:conn->forceClose();),不管一個http請求是否成功,伺服器處理後立馬就關閉連接。

當然,這裡還有一些沒處理好的地方,如果你仔細觀察上面的代碼就會發現這個問題,就是不滿足一個http包頭時的處理,如果某個客戶端(不是使用瀏覽器)通過程序模擬了一個連接請求,但是遲遲不發含有

的數據,這路連接將會一直佔用。我們可以判斷收到的數據長度,防止別有用心的客戶端給我們的伺服器亂髮數據。我們假定,我們能處理的最大url長度是2048,如果用戶發送的數據累積不含

,且超過2048個,我們認為連接非法,將連接斷開。代碼修改成如下形式:

void HttpSession::OnRead(const std::shared_ptr<TcpConnection>& conn, Buffer* pBuffer, Timestamp receivTime){ //LOG_INFO << "Recv a http request from " << conn->peerAddress().toIpPort(); string inbuf; //先把所有數據都取出來 inbuf.append(pBuffer->peek(), pBuffer->readableBytes()); //因為一個http包頭的數據至少

,所以大於4個字元 //小於等於4個字元,說明數據未收完,退出,等待網路底層接著收取 if (inbuf.length() <= 4) return; //我們收到的GET請求數據包一般格式如下: /* GET /register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22} HTTP/1.1
Host: 120.55.94.78:12345
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN, zh; q=0.9, en; q=0.8

*/ //檢查是否以

結束,如果不是說明包頭不完整,退出 string end = inbuf.substr(inbuf.length() - 4); if (end != "

") return; //超過2048個字元,且不含

,我們認為是非法請求 else if (inbuf.length() >= MAX_URL_LENGTH) { conn->forceClose(); return; } //以
分割每一行 std::vector<string> lines; StringUtil::Split(inbuf, lines, "
"); if (lines.size() < 1 || lines[0].empty()) { conn->forceClose(); return; } std::vector<string> chunk; StringUtil::Split(lines[0], chunk, " "); //chunk中至少有三個字元串:GET+url+HTTP版本號 if (chunk.size() < 3) { conn->forceClose(); return; } LOG_INFO << "url: " << chunk[1] << " from " << conn->peerAddress().toIpPort(); //inbuf = /register.do?p={%22username%22:%20%2213917043329%22,%20%22nickname%22:%20%22balloon%22,%20%22password%22:%20%22123%22} std::vector<string> part; //通過?分割成前後兩端,前面是url,後面是參數 StringUtil::Split(chunk[1], part, "?"); //chunk中至少有三個字元串:GET+url+HTTP版本號 if (part.size() < 2) { conn->forceClose(); return; } string url = part[0]; string param = part[1].substr(2); if (!Process(conn, url, param)) { LOG_ERROR << "handle http request error, from:" << conn->peerAddress().toIpPort() << ", request: " << pBuffer->retrieveAllAsString(); } //短連接,處理完關閉連接 conn->forceClose();}

但這隻能解決發送非法數據的情況,如果一個客戶端連上來不給我們發任何數據,這段邏輯就無能為力了。如果不斷有客戶端這麼做,會浪費我們大量的連接資源,所以我們還需要一個定時器去定時檢測哪些http連接超過一定時間內沒給我們發數據,找到後將連接斷開。這又涉及到伺服器定時器如何設計了,關於這部分請參考我寫的其他文章。

限於作者經驗水平有限,文中難免有錯亂之處,歡迎拍磚。另外,關於上面的代碼,可以去github上下載,地址是:

github.com/baloonwj/fla

全文完。

歡迎關注公眾號『easyserverdev』。如果有任何技術或者職業方面的問題需要我提供幫助,可通過這個公眾號與我取得聯繫,此公眾號不僅分享高性能伺服器開發經驗和故事,同時也免費為廣大技術朋友提供技術答疑和職業解惑,您有任何問題都可以在微信公眾號直接留言,我會儘快回復您。

weixin.qq.com/r/DS_qsp3 (二維碼自動識別)


推薦閱讀:

TAG:HTTP | Web伺服器 |