阿里P8架構師談：如何搭建億級並發系統的性能指標體系

億級規模數量級的並發系統是非常龐大的，對於這個數量級，我們既要在戰略上重視它，又要在戰術上藐視它。今天我想從《如何搭建億級並發系統的性能指標體系》談起，希望這對大家在做一些架構設計時會有所裨益，詳解如下：

一、性能指標的分類

為了更好的去監控整個系統的性能，做好全流程的優化，主要分為3類：

1.感知系統性能

這類指標主要從工程師的角度去衡量，如後端的：

響應時間
當前並發的用戶數
請求數
請求的錯誤率等等。

2.用戶體驗性能

用戶實際感覺網頁是否載入延遲

首屏時間
白屏時間
完全載入時間之類

3.系統性能

這類指標重點查看伺服器：

伺服器的cpu
內存
網路帶寬
流量等等物理資源。

對於上述的每一類，衡量標準可能都不一樣，在數據展示方面，主要通過趨勢圖和匯總表格來展現，下面對這3類指標分別細說，這類指標主要為工程師設計，來衡量業務後端的處理速度，主要從以下幾個方面去衡量：

1）響應時間

響應時間是性能的主要kpi。

首先對每個業務的整體(集羣)響應時間有個衡量：

95%的響應時間：將一段時間內所有請求的響應時間中取一個值，使95%的請求響應時間均小於或等於它，此值即為95%請求覆蓋的響應時間。
90%的響應時間：將一段時間內所有請求的響應時間中取一個值，使90%的請求響應時間均小於或等於它，此值即為90%請求覆蓋的響應時間。
50%的響應時間：將一段時間內所有請求的響應時間中取一個值，使50%的請求響應時間均小於或等於它，此值即為50%請求覆蓋的響應時間。

另外為了方便工程師的優化，對具體到每個請求url都做了更精細化的統計，不光統計了上述的指標，還增加了：

最大響應時間：某請求的某段時間範圍內響應時間的最大值。
最小響應時間: 某請求的某段時間範圍內響應時間的最小值。
時間標準差：某請求某段時間範圍內的波動情況，用來衡量某請求是否存在很大波動，標準差越大，波動越大。

2）請求數（按天或小時統計）

根據不同的時間維度去統計系統每天或每小時的請求數。

3）錯誤率

關於錯誤率的統計主要有以下幾種：

connection timeout:http請求中出現504的次數和比例。
error response：http請求中出現500的次數和比例。
錯誤網關數：http請求中出現502的次數和比例。
異常日誌統計:統計業務中出現得異常的數量和趨勢。

二、用戶體驗性能

這類指標從用戶的角度出發，通過模擬用戶請求或對真實用戶抽樣，來監控用戶對網站的實際體驗效果，主要利用js來收集不同瀏覽器下訪問網站的載入速度和性能；對於一次完整用戶請求來說，http請求可以劃分為如下幾個階段：

DNS：域名解析階段，通常在幾毫秒左右
TCP：建立網路連接
Requesting：發送請求
WebServer處理
Transferring：傳輸數據
Parsing：瀏覽器解析。幾個重要的時間點為：
a. 首屏時間客戶端第一屏資源載入完畢
b. domready時間 DOM解析完畢，可以進行動態修改
c. load時間所有資源載入完畢

對於上述的幾個階段，設立了多種時間參數（每個參數又有 90% 和 50% 兩種指標）來衡量，具體如下：

阿里P8架構師談：如何搭建億級並發系統的性能指標體系

更多高並發架構設計專題：

熱門新聞

週熱門

阿里P8架構師談：如何搭建億級並發系統的性能指標體系

更多高並發架構設計專題：

JVM簡述下包括什麼，有什麼用？

各位Coder都是怎麼學習新技術的？

印裔天才7歲教人程式設計人工智能 成IBM最年輕程序員

編寫C語言程序經常要用很多函數，怎樣定義自己的函數？為什麼要定義函數，不麻煩嗎？

作為程序猿，你在不節衣縮食的情況下，用了多久積累了自己的第一個100萬？

我國CNC編程員人數多達800萬人，但為何CNC編程崗位人才缺口巨大？

一個星期能入門c++語言嗎？

關於華為方舟編譯器，你怎麼看？

在新年被分手是什麼心情？

有哪些高質量linux運維，架構師，自動化運維的自學網站？

超長文本，用什麼資料庫儲存？

什麼是jvm雙親委派模型？有什麼用？

現階段最值得學的編程語言是什麼？

怎麼才能看到案例或者問題就知道用哪種代碼解決？

有一些大公司，為什麼還要使用過時的技術？

熱門新聞

週熱門

印裔天才7歲教人程式設計人工智能成IBM最年輕程序員