我从 2018 年就在做和监控告警相关的工作,到现在已经有差不多5年了。之前几年集中在报警的自动化处理上,后来 […]
Continue reading…
监控系统
用 PromQL 计算 SLI 和 SLO
用 PromQL 查询出来过去一个月中用掉的 Error budget,然后展示当前的 SLI。效果如下图所示 […]
Continue reading…
Prometheus alert rules 拆分成多个查询表达式
Alertmanager 发送出来的告警是一条消息,一般我们会用 annotation 来说明发生什么事了。 […]
Continue reading…
Prometheus HTTP SD 框架
Prometheus 是现在比较流行的监控系统,它的工作模式是拉的模式:要监控的目标要负责把 metris 数 […]
Continue reading…
PromQL 使用多个 label 组合过滤
继《最近的工作感悟》中提到的大部分问题都解决了之后,有一些错误还是无法避免的,就试图想办法从监控系统中忽略掉。 […]
Continue reading…