好年夜夫php技巧_以好大年夜夫为例周全分析微做事治理平台化探索用户画像中心件

文章目录 [+]

我们来一起看一下这五条黄金法则是如何辅导我们设计SLO的：

这五条法则是辅导见地，希望能帮助大家。

好年夜夫php技巧_以好大年夜夫为例周全分析微做事治理平台化探索用户画像中心件

最初的愿景

平台构建最初的愿景，紧张是随着微做事的推进，做事稳定性越来越主要，做事间调用出的问题越来越难以定位，排查的次数多了，各种工具脚本/Dashboard/小系统越来越多，这些履历很难传承，定制化高，推广本钱大，更新迭代也不及时，遍及度也是非常的低，能查问题的就那么几个人。

（图片来自网络侵删）

为了提高效率，面向全公司开拓、测试全员，因此我们开始打造做事管理平台：

方便开拓快速定位问题；风险前移，对潜在风险天生任务，打造开拓->测试->线上验证的闭环，后面会重点先容；打通数据流，告警与画像结合，能大大提高排查效率；配置统一管理，设置熔断限流，配置故障转移策略，设置告警阈值，处理中间件事宜等等，让开发能有一个统一的平台进行操作。
平台化演进过程

我们做事管理平台化演进，也经历了：人工 -> 工具化 -> 系统化 -> 平台化：

调研

运用层、中间件的稳定性和可用性，是我们关注的两个大维度。
包括节点资源信息，运用间调度信息。
业内比较成熟的有：

面向虚拟机，物理机机器资源的监控有Zabbix，面向容器的有Prometheus；针对链路剖析的紧张有基于ELK体系的APM，开源的还有韩国的Pinpoint，Twitter的Zipkin，海内阿里有ARMS，腾讯的有天机阁等等，他们大多都受2010年谷歌揭橥了Dapper论文的影响；中间件层大部分中间件都供应了自己的一套监指标，或者配备自己的监控报表，有些呢还得供应了干系的API。
我们当时的环境

运用层：

我们运用有多种措辞开拓，链路剖析开源的方案不能直接知足我们的需求，大部分具有代码侵入性，对接开源软件，我们依然须要二次开拓；我们当时是有一些日志nginx日志/链路日志，只这天记不足风雅，中间件用户侧日志短缺，如中间件的连接耗时，实行耗时，mq发布成功状态等，我们须要细化补全；我们入口除了Http协议以外，还有AMQP协议入口，以及分布式任务调度入口，我们须要进行打通，天生全局唯一TraceID。

中间件：

已有的自研的shell脚本，基于zabbix调度，比较笨重，掩护本钱比较高，支配比较麻烦；各个中间件都是高度定制化，随着中间件的升级兼容性问题大概多； Prometheus生态的完善，很多中间件官方支持对接Prometheus，这样的话减少了我们的掩护本钱，对接也非常的方便。

我们的办理方案：

机器资源监控依托Prometheus生态，逐渐由Zabbix向Prometheus迁移；运用间调用链剖析基于已有的日志网络流程，自研一个剖析大脑；中间件指标网络我们供应统一的接口和数据格式，方便统一对接；中间件的掩护管理，如熔断限流设置，告警阈值设置，告警规则设置等都收拢到统一平台。
技能选型

我们的平台采取分布式前后端分离架构，可视化前台Dany是基于vue（element-ui/element-admin），后端紧张基于Golang和Python，目前已监控352个业务运用，1200多个节点，链路日志量级30亿旁边。
紧张模块如下：

运用运行时画像：数据源紧张包括Promethues、Elasticsearch和Clickhouse，展示基于Grafana。
数据存储正逐步从Elasticsearch迁移到Clikhouse，基本流程是Gohangout订阅Kafka洗濯后持久化到Clickhouse。
运用机器资源利用画像：目前大部分做事依然支配在虚拟机上，有些指标我们通过写shell脚本让Zabbix触发。
随着容器化的推进，Prometheus的生态更加适宜我们，因此我们逐渐用Prometheus替代原有的Zabbix职责。
日志全息剖析：紧张剖析运用潜在风险，运用非常诊断采取Golang自研系统（Snow）流式剖析Kafka数据持久化到MySQL。
APM链路剖析：链路追踪日志埋点我们集成到做事框架（PHP/Node/Java）中。
记录所有http协议和amqp协议的要求，记录高下游，要求耗时，机器信息等，日志信息落盘本地，基于ELK持久化。
实时告警：告警事宜剖断，记录告警事宜处理事情流，告警应答（Ack）升级，我们基于Python开拓了Dolphin系统。
拓扑图

流程图

日志全息剖析APM链路剖析

运用处景：

天生的风险任务须要合营链路剖析，如循环调用，在最近的一次链路中被调用了几次，要求耗时是若何，高下游依赖是若何等；在排查故障的时候，开拓根据自己感兴趣的trace_id剖析整条链路的情形，方便快速定位问题；运用QPS非常颠簸的时候剖析高下游接口调用量，可以剖析出是入口流量激增还是命中分外数据产生了循环调用

设计思路：我们目前记录链路的入口采取AOP模式植入到已有的框架中(PHP/Node/Java)，业内还有无侵入办理方案类似sidecar模式，代理要求记录全链路。
随着微做事的演进，为了加速要求，链路会同时并发要求，须要识别和准确标记韶光线，推动着APM链路剖析的演进。

运用风险剖析

微做事架构带来链路越来越深，随着业务增长慢接口，循环调用，双向依赖，慢SQL成为运用四大杀手，令无数开拓闻风丧胆，血的教训迫使我们不能放过这些杀手。
微做事架构其余的一个问题便是产生海量的日志，目前我们大约每天30亿次内网要求日志。
为了剖析四大杀手的特色，我们订阅Kafka日志流，剖析过滤。
得益于Golang的协程（goroutine）能力，每秒剖析5w+日志，目前只有两台虚拟机在剖析，可以水平扩展剖析能力。
运用开拓卖力人会收到风险任务推送，通过给风险任务打上优先级，及时跟进办理，测试进行线上验证环节，终极平台会验证风险是否解除。
剖析后天生任务展示效果如下：

风险任务报告

运用处景：

培养风险意识，开拓、测试都能直不雅观感想熏染各自运用面临的风险情形；风险趋势，能纵向看单运用的风险趋势，也能横向看全体公司其他奇迹部的风险趋势：容量评估

运用处景：

自然增长流量的线性预测，对核心做事，繁忙的做事压测，打算出单机QPS峰值，设置预警水位线；针对推广的页面，产品预估流量，我们对当前链路剖析依赖的运用容量，评估是否须要扩容设计思路：全链路压测履行与验证顺序单接口压测->单运用压测->全链路压测，压测系统目前还在孵化中，前期我们通过调节单运用的机器流量分布仿照压测。
业务自定义剖析

运用处景：

赞助运用风雅化运营，如剖析推投递到率，推送落地页点击率等；A/B测试，业务可以剖析不同的页面的转化率，或页面区域按钮点击事宜；业务打点标记自己领域事宜，非常标记等；抽样剖析接口的参数等。

设计思路：整体流程依然是基于日志网络模式，业务方通过模板定义数据格式记录到日志，采集程序剖析日志，映射到数据表中

实时告警

触发预设的告警规则后，按优先级供应不同告警形式：邮件，微信群机器人，短信，电话。

兜底监控规则的确定，由于目前大部分开拓还处于监控意识培养的初期阶段，目前核心运用规模还是可控的，于是我们基于全运用做了兜底监控。
如每秒全站要求非常状态，消费者处理非常，MySQL提交事务非常等。
系统组默默的承担着全站SRE的职责。
业务方主动订阅与兜底规则复写，为了告警的及时相应和快速处理，我们基于运用给出告警规则通用模板，业务设置相应的阈值即可，如每分钟要求非常数，运用程序产生的sentry非常数，MQ发布、消费非常数等。
主/副OnCall机制，随着业务工程师逐渐加入，须要处理各种不同优先级的告警，一有告警就全员All-in排查。
为了优化告警相应机制，引入主副值班on-call机制，按运用模块每周设置一个主值班，主值班必须及时应答告警(ACK)，考试测验定位剖析问题，必要的时候进行告警升级，关照团队卖力人或要求其他团队协作。
运用画像运用运行时画像

我们监控核心指标，触发实时告警，推出趋势截图。
精简的指标能比较客不雅观的反响运用运行情形。
画像数据来源Clickhouse，大部分SQL实行都能在1s内返回。

流量饱和度，每个运用能承载的峰值流量是不一样的，我们须要监控每个运用节点的QPS颠簸及增长趋势；相应耗时p95线，RPC要求耗时符合长尾效应，越慢的接口越有可能拖垮全体运用，我们采取耗时百分位第95的韶光作为运用康健衡量的指标；非常监控，紧张监控RPC要求缺点率，业务系统自定义非常(sentry)，依赖的中间件非常等；核心接口监控，这部分是业务主动订阅核心接口每秒要求成功率。

机器资源画像

机器资源饱和度也是非常关键的一项指标，运用吞吐能力根据自身情形有CPU密集型，有I/O密集型而有所不同。
这些指标紧张还是赞助浸染，一样平常会反应在运用吞吐能力上。
给运用容量评估供应辅导见地。
数据源来自Prometheus采集node-exporter。

中间件客户端画像

除了RPC要求入口，还有基于APMQ协议的要求，分布式任务调度中央的要求。
运用依赖的中间件利用不规范，或者实行非常我们都能通过画像系统反响出来，给出优化见地。

中间件做事端画像

中间件自身的稳定性也是非常主要的，可用性考察须要达到四个9。
大部分我们依赖Prometheus生态，如Mysql-exporter，RabbitMQ 3.8版本往后官方支持Prometheus指标。
针对MySQL/MongoDB等我们采取了percona的pmm2。

碰着的寻衅数据存储从ES迁移到Clickhouse

随着微做事的拆分，局域网日志越来越大，每天大于30亿旁边，对这些日志进行提炼剖析时效性越来越低，加上膨胀的日志占用磁盘越来越大，从原来保留半个月到后来的6天。
每天大约产生800G。
海内很多企业也碰着类似的问题，也考试测验落地Clickhous更换Elasticsearch，便捷的查询，数据压缩比高。
迁移后Dashboard数据渲染基本上都在秒级，数据压缩比1:4.2。

Prometheus和Zabbix的决议

运用监控最初是基于Zabbix的，更多的是机器资源维度，最大的痛点是告警分组不友好，值班运维沦为了告警中转站，人工联系各业务方处理干系问题。
再加上云原生的推进，Prometheus的生态强大，接入开拓本钱低，成为我们现在监控的首选。

SLO的确定我们进行了多轮头脑风暴

我们从蘑菇街赵诚老师那取了不少经，紧张还是从运用的容量，可用性，时延，缺点率，人工参与次数几个方面设计SLO。
关于SLO选定可以参考Google的设定模板。

SRE落地离不开公司上层的加持

大部分互联网公司，产品迭代速率是非常快的，运用技能质量和迭代速率相互竞争，代码质量有时候能决定产品的死活，越来越慢的接口会拖垮运用做事质量。
从碰着故障问题才关心，逐步关注点往前移，从代码坏味道，潜在风险剖析，告警相应处理时长，运用稳定性和中间件稳定性都设置考察指标。
好大夫实时监控告警大屏也逐渐成为一道风景线。

未来的方案平台可用性：画像和日志剖析界面整合，供应统一的平台入口；熔断限流：熔断限流管理平台化；全链路压测：模型识别更加精准，更精准的瓶颈判断；智能容量评估：运用节点自动扩缩容。

希望可以对大家在微做事方面的知识有所帮助，喜好的小伙伴可以帮忙转发+关注一下，感激大家！

原文链接：https://www.tuicool.com/articles/b6VRziu