首页 » SEO优化 » libpassportphp技巧_字节跳动是怎么做全链路压测的

libpassportphp技巧_字节跳动是怎么做全链路压测的

访客 2024-11-09 0

扫一扫用手机浏览

文章目录 [+]

随着公司业务的不断扩展,用户流量在不断提升,研发体系的规模和繁芜性也随之增加。
线上做事的稳定性也越来越主要 ™,做事性能问题,以及容量问题也加倍明显。
为了及时暴露做事的各种稳定性问题,我们了引入了基于线上全链路压测的工具、研发体系。

本文紧张先容字节跳动的做事端全链路压测体系,以及字节跳动各种业务的全链路压测实践。

libpassportphp技巧_字节跳动是怎么做全链路压测的

压测方案网络架构目的

理解业务的要求在网络中是如何流转的,全体过程经由了哪些节点。
业务要求经由的所有节点,都是压测的工具。
在压测过程中,都须要关注其性能表现。

libpassportphp技巧_字节跳动是怎么做全链路压测的
(图片来自网络侵删)
要求流转

下图一个范例的网络架构,用户要求通过 CDN 溯源,经由 TTGW,TLB,AGW,然后才到达业务做事 PSM。
(TTGW 是头条的高性能 4 层负载均衡网关,TLB 是七层负载均衡做事,AGW 是头条统一业务 Api 接入层)

压测目的与方案

在全链路压测体系第一步,压测职员必须明确压测目的,当明确压测目的后才能选择一个合理的压测方案。
一个完全合理的方案可以提高全链路压测效率,减少没故意义的事情,节约了韶光本钱,对后续其他模块的压测或常态化压测供应了一定借鉴。

目的:在结合业务背景条件下,用户清晰把握明确性能测试的目的是什么?根据不同场景分类,有着不同目的,常见的场景如下:

压测目标

在网络架构图中,明确展示了各系统各司其职,它们分别卖力将用户要求做相应处理并将要求流转至下贱做事。
因此,根据压测方案的目的,选择一个合理的压测目标,可以减少大量的压测事情,提高压测效率。

环境隔离

在字节内部,线下测试环境是不许可压测的,由于线下资源不敷,与线上环境差异大,压测出来的结论并不能充分担保线上的性能情形。
因此本文指的压测都是在线上环境的压测。
下文将重点先容字节的全链路压测环境。

压测标记

为了区分线上流量与压测流量,使做事可以针对压测流量做定制业务逻辑,做事架构体系在做事框架与做事管理层面设定了压测标记。

目的:

对付框架与做事管理体系而言,压测标记可以用于区分流量属性,并且做相应谢绝/通过操作。
对付业务做事内部而言,压测标记可以让业务方识别压测流量并做相应的业务逻辑处理。

事理:

通过分外字段 stress_tag,对压测流量进行染色,且压测标记对应的 value 不为空的流量。
做事框架通过解析要求的 stress_tag,对接口高下文注入压测标识符,并透传至下贱做事,完玉成链路压测标记透传。

生效条件:

压测前必须做做事改造。
在全链路中,所有做事必须将高下文透传至下贱,担保压测标记能被框架识别且透传。
压测开关

为了强化压测流量的管理,做事管理体系引入了压测开关的观点。
压测开关作为总掌握,所有做事框架必须判断压测开关是否打开,若打开才能许可通过压测流量,若关闭则只能谢绝压测流量。

目的:

保护线上做事,避免线上做事在没有准备好的情形下,或不能压测的情形,受到压测流量的打击压测紧急处理,对付线上做事负载过大时,且无法停滞压测流量时,可以通过压测开关拦截所有压测流量,避免涌现线上故障

事理:

压测开关的表达办法是 etcd 的配置值,每个做事都会有一个特定的压测开关 key,value 为 on 表示打开状态,off 为关闭状态。
存储做事的压测开关 key 各有不同。
每个做事每个集群都有一个压测开关(key = psm/cluster),掌握该集群的压测流量打算做事的压测开关状态都是由框架和 Mesh 来判断的,存储做事的压测开关状态则是由存储做事的 SDK 来判断的压测开关没有打开时,压测流量会被做事框架或存储 SDK 谢绝

生效条件:

压测前必须打开整条调用链中所有做事的压测开关,否则压测流量会被框架/SDK 谢绝。
(开关可以在 Rhino 压测平台打开)存储隔离方案

对付压测数据的存储,必须将线上数据与压测数据做隔离,否则会导致压测数据量过大影响线上数据正常存取。

目的:

将压测过程中产生的测试脏数据与线上真实数据做隔离,防止污染线上真实存储。
存储隔离后,可以测试出预期存储条件下的性能。

事理:

各存储系统的 SDK 会对输入的高下文识别压测标识符,若存在压测标记,则走影子表存储,否则走线上存储。
部分 SDK 其余供应压测开关判断,用户需打开存储做事的压测开关方可存到影子表中。

生效条件:

压测前必须对代码做相应改造,并升级至最新版本的存储 SDK平台搭建Rhino 压测平台

它是一个多功能压测平台,支持多种场景、模式的发压。
Rhino 统一管理了压测任务、压测数据、发压机、压测结果。
集成了 Bytemesh、User、Trace、Bytemock、Bytecopy 等多个别系。

Rhino 压测平台支持以下能力

压测办法

根据不同业务的场景、以及压测的方案,业务方须要制订不同的发压办法,以达到压测预期效果。
下面将先容 Rhino 平台供应的四种发压办法,业务方需根据自身业务特点,选择适宜的办法发压。

Fake 流量

Fake 流量压测是指用户自行布局压测要求进行压测。
Rhino 平台支持 HTTP、Thrift 两种协议的 Fake 流量发压。

事理:

Fake 流量模式适宜针对要求参数大略的接口压测,同时也适宜针对特定要求进行压测。
Rhino 平台会为每个要求注入压测标记。

范例场景:

新做事上线之提高行压测。
为了重现某种场景下造成的性能问题,布局特定参数的要求发压。
线上 http/thrift 做事已经在运行,且接口参数比较单一,快速压测接口接入公司 passport lib 后,利用压测账号进行压测自定义插件发压

为了支持更多的协议与更繁芜的压测场景,Rhino 平台支持了 GoPlugin 发压模式。

事理:

依赖 golang 的 plugin 功能,运行时加载 plugin 文件,并加以实行

GoPlugin 发压模式适宜灵巧布局要求数据、支持自定义协议、支持自定义发压场景,相称于所有发压场景都可以通过代码实现。
把稳 Rhino 平台对付 GoPlugin 模式不会注入压测标记,用户需在插件内加上压测标记。

范例场景:

压测自定义协议的做事,如 websocket、gRPC 等压测自定义的场景,如要求一个接口后等待 2s 再次要求第二个接口、要求第一个接口对返回值做相应的打算转换再要求第二个接口等自定义的压测数据布局,比如从 DB、做事等获取压测要求数据自定义的压测目标:比如要压测行列步队,可以通过布局一个 GoPlugin 对 producer 发压流量录制回放

为了使压测更贴近线上要求,Rhino 平台支持了流量录制回放的发压模式,平台经由线上流量采集、线上流量改写为压测要求、压测流量回放三个步骤,将线上要求回放到压测目标中。

事理:

依赖 bytecopy 的采集流量能力,哀求做事已经支配到线上,开启 mesh,且有流量可以采集。

范例场景:

布局压测要求比较繁芜,且做事已经上线,线上有流量可供采集压测须要仿照线上要求的分布,避免 hot key,如搜索 query希望将线上流量放大 N 倍,录制线上流量并回放到特定压测目标希望录制线上流量,同时实行繁芜的改写规则用于回放流量调度

对付做事维度而言,如果想测试做事能承载多少 QPS,每个接口的 QPS 分布情形,流量调度是一个比较得当的压测办法。
Rhino 平台支持了单实例的流量调度模式压测。

事理:

scheduler 修正被测实例的 consul 权重,使流量不断打到目标实例中,而其他实例流量相应的减少,保持做事的总流量不变。
压测的要求完备来自线上流量,不该用压测标识,因此压测流量的流转、存储均保持线上模式。
同时 scheduler 会监控目标实例的做事指标,当做事指标到达阈值后将停滞压测,将 consul 权重规复至初始值。

范例场景:

希望评估当前做事能够承载多少 qps,每个接口分别承载多少 qps,可将压测结果用于做事容量评估不肯望对代码做压测改造,快速增加单实例的压力压测办法比拟

下面将上述压测办法在压测目标、压测场景、优缺陷维度下做比拟,方便业务方选择得当的办法用于压测。

监控

为了使压测结果更准确、使被测做事在压测过程中更安全,Rhino 平台开拓了一套压测专用的报警监控体系。
分为实时客户端监控、被测做事端监控、Ms 报警监控。

实时监控

公司的做事监控体系是基于 metrics 的 30s 一次聚合,但是对付压测任务而言,意味着不雅观察压测状态须要等待 30s 的延时,这基本上是不能忍受的。
因此 Rhino 平台支持了发压客户端维度的秒级监控,利用户可以及时不雅观察压测状态,当压测涌现非常时可以立即停滞压测。

实现方案:

做事端监控

Rhino 支持做事端角度的全链路监控,包括做事监控、机器资源监控、高下游监控。
目前利用的是 grafana 面板展示,将全链路每个做事 metrics、机器 influxdb 数据聚合展示到 grafana 中。
未来将利用 Argos 展示做事端监控数据。

Ms 报警监控

此外,Rhino 平台还支持监控 ms 告警规则,当被测做事或下贱做事触发了告警规则后,压测任务便自动停滞,防止造成线上事件。

实现方案:

剖析&优化

末了,压测完成后,如何剖析压测问题,并作出相应优化常日是业务方最关注的问题。
下文将列举几种剖析方法,以及常见的性能问题及优化办法。

剖析方法

监控剖析

可以从发压客户端监控、被测做事端监控创造非常,非常紧张包括:

尖刺征象,查看缺点日志,抓要求重现

压力到达瓶颈,性能开始低落,接口延时上升,须要查看 pprof 对各项指标做相应剖析

被测做事某一资源被打满,查看 cpu 耗时统计,找出耗时的模块

流量/延时分布不均,查看 agw 是否正常分配流量,查看存储 sharding 是否正常

流量/延时分布不均,查看 agw 是否正常分配流量,查看存储 sharding 是否正常

协程数量大涨,且没有低落趋势,协程泄露,检讨代码协程利用

Lidar 性能平台

用户可以通过 Lidar 性能剖析平台做做事的 pprof 剖析,lidar 平台支持剖析 golang、python 措辞的做事,剖析的指标包括 cpu 利用率、内存利用、协程数、线程数、壅塞韶光。
一样平常剖析 Top 利用率,如果 TopList 展示了不正常的元素,该当关注这个非常元素。

系统层 tracing 剖析

基于宿主机系统层面的 cpu、topN 函数剖析常见问题做事的 CPU 陡然升高,RPC 调用和 consul、etcd 访问频繁超时,以及 goroutine 数目大涨。
可能是频繁创建 kitc client,每个调用创建一次。
精确用法是只初始化一次 client,重复利用调用 http 接口,协程泄露可能是 http connection 未开释,常见的代码问题是 http.Body 未 Close内存 RSS 一贯升高,没有低落趋势,内存泄露内存泄露可以根据 pprof top list 查看最高利用的函数/工具,并作出优化调度性能瓶颈为写数据库可以考试测验加入写 proxy 办理redis 连接超时须要增加 redis client 连接数发压压力很高,但被测做事 cpu 却一贯未跑满有可能是用到了锁,须要 profile 排查一下加入我们

字节跳动环境管理与容灾团队,卖力全体字节跳动线下环境管理与效能工具培植,支持抖音、TikTok、头条、西瓜、番茄小说、电商、游戏、教诲等浩瀚产品线。
我们致力于通过技能中台、与根本架构团队互助等办法,帮助业务提升做事端测试效率,团队下产品包括字节环境管理、全链路压测平台、数据布局平台、推举 Mock 平台等。
欢迎更多同学加入我们,构建行业顶尖的做事端工具。
感兴趣可以联系邮箱 yuzhou.007@bytedance.com 并注明 环境管理与容灾方向。

标签:

相关文章