爬蟲

又稱網路爬蟲,所以在講解爬蟲之前,我們有必要了解一下什麼是網路?網路是由若干節點和連接這些節點的鏈路構成,然後網路與網路之間所串連成的龐大網路叫做互聯網,而我們今天要講的HTTP(HyperText Transfer Protocol 超文本傳輸協議)是互聯網上應用最為廣泛的一種網路協議,它是由萬維網協會(World Wide Web Consortium)制定發布。

文章主要以一次HTTP請求的整個過程來講解(DNS解析不講):HTTP起源、TCP/IP協議、建立TCP連接、客戶端請求、服務端響應、斷開TCP連接,文章最後還捎帶講了與HTTP相關知識。文章較長,建議收藏或轉發後閱讀!

一、簡介

1.起源

今天我們能夠在網路中暢遊,都得益於一位計算機科學家蒂姆·伯納斯·李的構想。1991年8月6日,蒂姆·伯納斯·李在位於歐洲粒子物理研究所(CERN)的NeXT計算機上,正式公開運行世界上第一個Web網站(http://info.cern.ch ),建立起基本的互聯網基礎概念和技術體系,由此開啟了網路信息時代的序幕。

伯納斯·李的提案包含了網路的基本概念並逐步建立了所有必要的工具:
  1. 提出HTTP (Hypertext Transfer Protocol) 超文本傳輸協議,允許用戶通過單擊超鏈接訪問資源;
  2. 提出使用HTML超文本標記語言(Hypertext Markup Language)作為創建網頁的標準;
  3. 創建了統一資源定位器URL (Uniform Resource Locator)作為網站地址系統,就是沿用至今的www URL格式;
  4. 創建第一個Web瀏覽器,稱為萬維網瀏覽器,這也是一個Web編輯器;
  5. 創建第一個Web伺服器(http://info.cern.ch)以及描述項目本身的第一個Web頁面。

2.特點

HTTP 協議一共有五大特點:

  1. 支持客戶/伺服器模式。
  2. 簡單快速:客戶向伺服器請求服務時,只需傳送請求方法和路徑。
  3. 靈活:HTTP允許傳輸任意類型的數據對象。正在傳輸的類型由Content-Type(Content-Type是HTTP包中用來表示內容類型的標識)加以標記。
  4. 無連接:無連接的含義是限制每次連接只處理一個請求。伺服器處理完客戶的請求,並收到客戶的應答後,即斷開連接。採用這種方式可以節省傳輸時間。
  5. 無狀態:無狀態是指協議對於事務處理沒有記憶能力,伺服器不知道客戶端是什麼狀態。即我們給伺服器發送 HTTP 請求之後,伺服器根據請求,會給我們發送數據過來,但是,發送完,不會記錄任何信息(Cookie和Session孕育而生,後期再講)。

二、TCP/IP協議

我們經常聽到一句話就是:HTTP是一個基於TCP/IP協議簇來傳遞數據

如何理解上面那句話?我們來看看TCP/IP四層模型就明白了。

從上圖我們可以清晰的看到HTTP使用的傳輸層協議為TCP協議,而網路層使用的是IP協議(當然還使用了很多其他協議),所以說HTTP是一個基於TCP/IP協議簇來傳遞數據

同樣我們可以看到ping走的ICMP協議,這也就是為什麼有時候我們開vps可以上網,但是ping google卻ping不通的原因,因為走的是不同的協議。

那TCP/IP協議簇大致是如何工作的,我們再來看看下圖:

我們可以看到在數據發送端是一層一層封裝數據,數據接收端一層一層拆封,最後應用層獲得數據。

三、建立TCP連接

我們知道了TCP/IP協議簇大致的工作原理之後,我們來看看HTTP是如何建立連接的。

1.TCP包頭信息

前面咱們講過HTTP是一個基於TCP/IP協議簇來傳遞數據,所以這HTTP建立連接也就是建立TCP連接,TCP如何建立連接,一起來看看TCP包信息結構吧。

TCP報文包=TCP頭信息+TCP數據體,而在TCP頭信息中包含了6種控制位(上圖紅色框中),這六種標誌位就代表著TCP連接的狀態:

  1. URG:緊急數據(urgent data)—這是一條緊急信息
  2. ACK:確認已收到
  3. PSH:提示接收端應用程序應該立即從tcp接受緩衝區中讀走數據
  4. RST:表示要求對方重新建立連接
  5. SYN:表示請求建立一個連接
  6. FIN:表示通知對方本端要關閉連接了

2.建立連接過程

了解了TCP包頭信息之後,我們就可以正式看看TCP建立連接的三次握手了。

三次握手講解:
  1. 客戶端發送位碼為syn=1,隨機產生seq number=1234567的數據包到伺服器,伺服器由SYN=1知道客戶端要求建立聯機(客戶端:我要連接你)
  2. 伺服器收到請求後要確認聯機信息,向A發送ack number=(客戶端的seq+1),syn=1,ack=1,隨機產生seq=7654321的包(伺服器:好的,你來連吧)
  3. 客戶端收到後檢查ack number是否正確,即第一次發送的seq number+1,以及位碼ack是否為1,若正確,客戶端會再發送ack number=(伺服器的seq+1),ack=1,伺服器收到後確認seq值與ack=1則連接建立成功。(客戶端:好的,我來了)

面試官:為什麼http建立連接需要三次握手,不是兩次或四次

答:三次是最少的安全次數,兩次不安全,四次浪費資源

四、客戶端請求

客戶端與伺服器連接上了之後,客戶端就可以開始向伺服器請求資源,就可以開始發送HTTP請求了。

1.HTTP請求報文結構

我們之前說過TCP報文包=TCP頭信息+TCP數據體,TCP頭信息我們已經講了,現在來講TCP數據體,也就是我們的HTTP請求報文

2.HTTP請求實例

來看看實際的HTTP請求例子:

  1. ①是請求方法,HTTP/1.1 定義的請求方法有8種:GET、POST、PUT、DELETE、PATCH、HEAD、OPTIONS、TRACE,最常的兩種GET和POST,如果是RESTful介面的話一般會用到GET、POST、DELETE、PUT
  2. ②為請求對應的URL地址,它和報文頭的Host屬性組成完整的請求URL
  3. ③是協議名稱及版本號
  4. ④是HTTP的報文頭,報文頭包含若干個屬性,格式為「屬性名:屬性值」,服務端據此獲取客戶端的信息
  5. ⑤是報文體,它將一個頁面表單中的組件值通過param1=value1&param2=value2的鍵值對形式編碼成一個格式化串,它承載多個請求參數的數據。不但報文體可以傳遞請求參數,請求URL也可以通過類似於「/chapter15/user.html? param1=value1&param2=value2」的方式傳遞請求參數。

請求頭參數非常多,豬哥就不一一說明,只說明兩個低級的反扒參數:

  1. User-Agent:客戶端使用的操作系統和瀏覽器的名稱和版本,有些網站會限制請求瀏覽器
  2. Referer:先前網頁的地址,表示此請求來自哪裡,有些網站會限制請求來源

五、服務端響應

伺服器在收到客戶端請求處理完需要響應並返回給客戶端,而HTTP響應報文結構與請求結構體一致。

1.HTTP響應報文結構

2.HTTP響應實例

3.響應狀態碼

響應報文中我們重點關注下:伺服器的響應狀態碼,面試也很容易問到,下面豬哥只列出分類,詳細狀態碼自行上網查找了解。

六、斷開連接

在伺服器響應完畢後,一次會話就結束了,請問這時候連接會斷開嗎?

1.長短連接

是否斷開我們需要區分HTTP版本:

  • 在HTTP/1.0版本的時候,客戶端與伺服器完成一個請求/響應之後,會將之前建立的TCP連接斷開,下次請求的時候又要重新建立TCP連接,這也被稱為短連接
  • 在HTTP1.0發布僅半年後(1997年1月) ,HTTP/1.1版本發布並帶來一個新的功能:在客戶端與伺服器完成一次請求/響應之後,允許不斷開TCP連接,這意味著下次請求就直接使用這個TCP連接而不再需要重新握手建立新連接,這也被稱為長連接

注意:長連接是指一次TCP連接允許多次HTTP會話,HTTP永遠都是一次請求/響應,會話結束,HTTP本身不存在長連接之說。

早在1999年HTTP1.1就推廣普及,所以現在瀏覽器在請求時請求頭中都會攜帶一個參數:Connection:keep-alive,這表示瀏覽器要求與伺服器建立長連接,而伺服器也可以設置是否願意建立長連接。

2.長連接優缺點

對於伺服器來說建立長連接有優點也有缺點:

  • 優點:當網站中有大量靜態資源(圖片、css、js等)就可以開啟長連接,這也幾張圖片就可以通過一次TCP連接發送。
  • 缺點:當客戶端請求一次時候不在請求,而伺服器卻開著長連接資源被佔用著,這是嚴重浪費資源。

所以是否開啟長連接,長連接時間都需要根據網站自身來合理設置。

ps:大家不要小看這一個TCP連接,在一次客戶端HTTP完整的請求中(DNS定址、建立TCP連接、請求、等待、解析網頁、斷開TCP連接)建立TCP連接佔用的時間比還是很大的。

3.斷開連接過程

在建立TCP連接時是三次握手,而斷開TCP連接是四次揮手!

在前面講TCP/IP協議時我們說過標誌位:FIN表示通知對方本端要關閉連接了,**那斷開連接為何需要四次揮手呢?**這裡給大家的課後作業,可以在留言中給出你的理解,看看是否正確。

七、題外話

1.面試必考題:http三次握手、四次揮手

面試官:為何建立連接需要三次握手而關閉連接卻需要四次揮手。給大家的課後作業,在留言中給出你的見解!

2.http2.0

HTTP/1.1已經為我們服務了20年,而HTTP/2.0其實在2015就發布了,但是還沒有推廣開來,關於HTTP/2.0新特性大家也可以去網上查閱相關資料

3.http&rpc

因為http響應慢請求頭體積大等缺點,所以在微服務時代,大家都使用rpc來調用服務,rpc相關概念感興趣同學自行網上學習。

4.http&https

http還有兩個很大的缺點就是明文不能保證完整性,所以目前會漸漸被HTTPS代替,HTTPS知識豬哥下期將會為大家講解。


作者:豬哥66

鏈接:imooc.com/article/28787

來源:慕課網

本文原創發佈於慕課網 ,轉載請註明出處,謝謝合作

推薦閱讀:

相关文章