您的位置 首页 > 数码极客

微服务模块如何做监控

1.监控微服务调用,需要搞清楚三个问题:

  • 监控的对象是什么?
  • 具体监控的指标有哪些?
  • 从哪些维度进行监控?

1.1 监控的对象

对于微服务来说,监控的对象主要分为四层:

  • 基础监控:通常指对服务器本身的健康状况的监控,主要包括cpu利用率、内存使用量、io读写量、网络带宽。
  • 资源监控:通常指对接口依赖的外部资源的监控,如redis。
  • 接口监控:通常指对业务提供的功能所依赖的具体rpc接口的监控。
  • 用户端监控:通常指业务直接对用户提供的功能的监控。

1.2 监控的指标

对于微服务来说,监控的指标主要分为三种:

  • 请求量:请求量监控又分为两个纬度,一个是实时请求量(QPS),一个是统计请求量(PV)。

实时请求量(QPS):即每秒查询次数,反应服务调用的实时变化情况。

统计请求量(PV):即一段时间内用户的访问量,比如一天的pv代表了服务一天的请求量,常用与统计报表。

  • 响应时间:响应时间统计又可以常分为平均耗时统计和慢请求耗时统计

平均耗时:一般可以用一段时间内服务调用的平均耗时来反映请求的响应时间。

慢请求耗时:有时候我们更关心慢请求的数量,需要把响应时间划分成多个区间,比如0~10ms、10~50ms、50~100ms、100~500ms、500ms以上这五个区间,其中500ms以上就代表了慢请求量。也可以通过统计请求的服务质量(SLA),如P99=500,意思是99%的请求响应时间再500ms以内。

  • 错误率:指一段时间内调用失败的次数占调用总次数的比例,如接口的错误率一般用接口返回的错误码503比例来表示。

1.3 监控的纬度

对于微服务来说,监控的纬度主要有以下五个纬度:

  • 全局纬度:从整体角度监控对象的请求量、响应时间以及错误率,对监控对象的整体了解。
  • 分机房纬度:为了实现业务的高可用性,服务一般会采用多机房部署,对不同机房进行监控。
  • 单机纬度:机器由于采购年份和批次的存在差异,也会存在不同的性能差异,需要从单机纬度去监控同一对象。
  • 时间纬度:同一监控对象不同时刻指标也会存在差异。
  • 核心纬度:在业务上对监控对象进行分级,最简单的分为核心业务和非核心业务,核心业务和非核心业务在部署上必须隔离、分开监控。

2.监控系统原理

如何搭建一个监控系统来完成上面这些监控功能呢?

监控系统主要包括4个环节:数据采集、数据传输、数据处理、数据展示。

2.1 数据采集

最常用的两种数据采集方式:

  • 服务主动上报:需要在业务代码每一次服务调用完成后,主动上报服务的调用信息。
  • 代理收集:服务调用后把调用的详细信息记录到本地日志文件中,然后再通过代理agent去解析本地日志文件,然后再上报服务的调用信息。

数据采集方式最重要的就是采样率,采样率决定了监控的实时性与准确性。

2.2 数据传输

最常用的两种数据传输方式:

  • udp传输:根据数据处理单元提供的服务地址,数据采集完成后通过udp协议与服务器建立连接,然后将数据发送过去。
  • kafka传输:数据采用完成后发送到指定topic,数据处理单元再订阅该topic,从kafka消息队列中读取对应的数据。

数据传输常用的数据格式有两种:二进制格式如pb、文本格式如json。

2.3 数据处理

数据处理就是对原始数据的聚合、存储。

数据聚合的纬度:

  • 接口纬度聚合:将数据按照接口名的纬度实时聚合在一起,实时得到每个接口的请求量、平均耗时等信息。
  • 机器纬度聚合:将数据按照调用的节点纬度聚合在一起,实时得到单机纬度的请求量、平均耗时等信息。

数据存储的方式:

  • 索引数据库:如Elasticsearch,以倒排索引的数据结构存储数据,按照索引来查询数据。
  • 时序数据库:如OpenTSDB,以时序序列数据的方式存储数据,按照时序如1min、5min等纬度来查询。

2.4 数据展示

数据展示将处理后的数据按照Dashboard方式展示给用户,数据展示方式大致有如下三种:

  • 曲线图:一般是用来监控变化趋势
  • 饼状图:一般是用来监控占比分布
  • 格子图:一般是用来做细粒度监控

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“微服务模块如何做监控,微服务如何划分模块”边界阅读