1.监控微服务调用,需要搞清楚三个问题:
- 监控的对象是什么?
- 具体监控的指标有哪些?
- 从哪些维度进行监控?
1.1 监控的对象
对于微服务来说,监控的对象主要分为四层:
- 基础监控:通常指对服务器本身的健康状况的监控,主要包括cpu利用率、内存使用量、io读写量、网络带宽。
- 资源监控:通常指对接口依赖的外部资源的监控,如redis。
- 接口监控:通常指对业务提供的功能所依赖的具体rpc接口的监控。
- 用户端监控:通常指业务直接对用户提供的功能的监控。
1.2 监控的指标
对于微服务来说,监控的指标主要分为三种:
- 请求量:请求量监控又分为两个纬度,一个是实时请求量(QPS),一个是统计请求量(PV)。
实时请求量(QPS):即每秒查询次数,反应服务调用的实时变化情况。
统计请求量(PV):即一段时间内用户的访问量,比如一天的pv代表了服务一天的请求量,常用与统计报表。
- 响应时间:响应时间统计又可以常分为平均耗时统计和慢请求耗时统计
平均耗时:一般可以用一段时间内服务调用的平均耗时来反映请求的响应时间。
慢请求耗时:有时候我们更关心慢请求的数量,需要把响应时间划分成多个区间,比如0~10ms、10~50ms、50~100ms、100~500ms、500ms以上这五个区间,其中500ms以上就代表了慢请求量。也可以通过统计请求的服务质量(SLA),如P99=500,意思是99%的请求响应时间再500ms以内。
- 错误率:指一段时间内调用失败的次数占调用总次数的比例,如接口的错误率一般用接口返回的错误码503比例来表示。
1.3 监控的纬度
对于微服务来说,监控的纬度主要有以下五个纬度:
- 全局纬度:从整体角度监控对象的请求量、响应时间以及错误率,对监控对象的整体了解。
- 分机房纬度:为了实现业务的高可用性,服务一般会采用多机房部署,对不同机房进行监控。
- 单机纬度:机器由于采购年份和批次的存在差异,也会存在不同的性能差异,需要从单机纬度去监控同一对象。
- 时间纬度:同一监控对象不同时刻指标也会存在差异。
- 核心纬度:在业务上对监控对象进行分级,最简单的分为核心业务和非核心业务,核心业务和非核心业务在部署上必须隔离、分开监控。
2.监控系统原理
如何搭建一个监控系统来完成上面这些监控功能呢?
监控系统主要包括4个环节:数据采集、数据传输、数据处理、数据展示。
2.1 数据采集
最常用的两种数据采集方式:
- 服务主动上报:需要在业务代码每一次服务调用完成后,主动上报服务的调用信息。
- 代理收集:服务调用后把调用的详细信息记录到本地日志文件中,然后再通过代理agent去解析本地日志文件,然后再上报服务的调用信息。
数据采集方式最重要的就是采样率,采样率决定了监控的实时性与准确性。
2.2 数据传输
最常用的两种数据传输方式:
- udp传输:根据数据处理单元提供的服务地址,数据采集完成后通过udp协议与服务器建立连接,然后将数据发送过去。
- kafka传输:数据采用完成后发送到指定topic,数据处理单元再订阅该topic,从kafka消息队列中读取对应的数据。
数据传输常用的数据格式有两种:二进制格式如pb、文本格式如json。
2.3 数据处理
数据处理就是对原始数据的聚合、存储。
数据聚合的纬度:
- 接口纬度聚合:将数据按照接口名的纬度实时聚合在一起,实时得到每个接口的请求量、平均耗时等信息。
- 机器纬度聚合:将数据按照调用的节点纬度聚合在一起,实时得到单机纬度的请求量、平均耗时等信息。
数据存储的方式:
- 索引数据库:如Elasticsearch,以倒排索引的数据结构存储数据,按照索引来查询数据。
- 时序数据库:如OpenTSDB,以时序序列数据的方式存储数据,按照时序如1min、5min等纬度来查询。
2.4 数据展示
数据展示将处理后的数据按照Dashboard方式展示给用户,数据展示方式大致有如下三种:
- 曲线图:一般是用来监控变化趋势
- 饼状图:一般是用来监控占比分布
- 格子图:一般是用来做细粒度监控