我们每天要进行大量的线上变更操作。怎么保证这些操作安全,不会导致故障,是我每天都在思考的问题。 这篇文章从工作 […]
Continue reading…
Posts tagged with '监控'
Alert 自动诊断系统的设计
在运维系统中,我认为 Alert 光发出来是不够的。每一个 Alert 发出来都需要处理,都要被解决。 我们现 […]
Continue reading…
Prometheus HTTP SD 框架
Prometheus 是现在比较流行的监控系统,它的工作模式是拉的模式:要监控的目标要负责把 metris 数 […]
Continue reading…
Side Project 成本最小化运行
有时候,人们会忘了今天的计算机资源已经如此强大,一台 $5/月 的机器可以干多少事情。 之前有人在讨论 red […]
Continue reading…
《Prometheus Up & Running》阅读
最近读完了这本讲监控的书:Prometheus Up & Running,学到很多东西,在博客上推荐一 […]
Continue reading…