阿里P8架构师谈：如何搭建亿级并发系统的性能指标体系

亿级规模数量级的并发系统是非常庞大的，对于这个数量级，我们既要在战略上重视它，又要在战术上藐视它。今天我想从《如何搭建亿级并发系统的性能指标体系》谈起，希望这对大家在做一些架构设计时会有所裨益，详解如下：

一、性能指标的分类

为了更好的去监控整个系统的性能，做好全流程的优化，主要分为3类：

1.感知系统性能

这类指标主要从工程师的角度去衡量，如后端的：

响应时间
当前并发的用户数
请求数
请求的错误率等等。

2.用户体验性能

用户实际感觉网页是否载入延迟

首屏时间
白屏时间
完全载入时间之类

3.系统性能

这类指标重点查看伺服器：

伺服器的cpu
内存
网路带宽
流量等等物理资源。

对于上述的每一类，衡量标准可能都不一样，在数据展示方面，主要通过趋势图和汇总表格来展现，下面对这3类指标分别细说，这类指标主要为工程师设计，来衡量业务后端的处理速度，主要从以下几个方面去衡量：

1）响应时间

响应时间是性能的主要kpi。

首先对每个业务的整体(集群)响应时间有个衡量：

95%的响应时间：将一段时间内所有请求的响应时间中取一个值，使95%的请求响应时间均小于或等于它，此值即为95%请求覆盖的响应时间。
90%的响应时间：将一段时间内所有请求的响应时间中取一个值，使90%的请求响应时间均小于或等于它，此值即为90%请求覆盖的响应时间。
50%的响应时间：将一段时间内所有请求的响应时间中取一个值，使50%的请求响应时间均小于或等于它，此值即为50%请求覆盖的响应时间。

另外为了方便工程师的优化，对具体到每个请求url都做了更精细化的统计，不光统计了上述的指标，还增加了：

最大响应时间：某请求的某段时间范围内响应时间的最大值。
最小响应时间: 某请求的某段时间范围内响应时间的最小值。
时间标准差：某请求某段时间范围内的波动情况，用来衡量某请求是否存在很大波动，标准差越大，波动越大。

2）请求数（按天或小时统计）

根据不同的时间维度去统计系统每天或每小时的请求数。

3）错误率

关于错误率的统计主要有以下几种：

connection timeout:http请求中出现504的次数和比例。
error response：http请求中出现500的次数和比例。
错误网关数：http请求中出现502的次数和比例。
异常日志统计:统计业务中出现得异常的数量和趋势。

二、用户体验性能

这类指标从用户的角度出发，通过模拟用户请求或对真实用户抽样，来监控用户对网站的实际体验效果，主要利用js来收集不同浏览器下访问网站的载入速度和性能；对于一次完整用户请求来说，http请求可以划分为如下几个阶段：

DNS：域名解析阶段，通常在几毫秒左右
TCP：建立网路连接
Requesting：发送请求
WebServer处理
Transferring：传输数据
Parsing：浏览器解析。几个重要的时间点为：
a. 首屏时间客户端第一屏资源载入完毕
b. domready时间 DOM解析完毕，可以进行动态修改
c. load时间所有资源载入完毕

对于上述的几个阶段，设立了多种时间参数（每个参数又有 90% 和 50% 两种指标）来衡量，具体如下：

阿里P8架构师谈：如何搭建亿级并发系统的性能指标体系

更多高并发架构设计专题：

热门新闻

周热门

阿里P8架构师谈：如何搭建亿级并发系统的性能指标体系

更多高并发架构设计专题：

JVM简述下包括什么，有什么用？

各位Coder都是怎么学习新技术的？

印裔天才7岁教人程式设计人工智能 成IBM最年轻程序员

编写C语言程序经常要用很多函数，怎样定义自己的函数？为什么要定义函数，不麻烦吗？

作为程序猿，你在不节衣缩食的情况下，用了多久积累了自己的第一个100万？

我国CNC编程员人数多达800万人，但为何CNC编程岗位人才缺口巨大？

一个星期能入门c++语言吗？

关于华为方舟编译器，你怎么看？

在新年被分手是什么心情？

有哪些高质量linux运维，架构师，自动化运维的自学网站？

超长文本，用什么资料库储存？

什么是jvm双亲委派模型？有什么用？

现阶段最值得学的编程语言是什么？

怎么才能看到案例或者问题就知道用哪种代码解决？

有一些大公司，为什么还要使用过时的技术？

热门新闻

周热门

印裔天才7岁教人程式设计人工智能成IBM最年轻程序员