OpenTelemetry 为各种措辞的微做事运用供应了 SDK 和 API,可以通过自动或者手动的办法采集不雅观测数据。采集到的数据可以直接导入三方系统,也可以导入 OpenTelemetry 通用网络器(Collector)。各大供应商也供应了支持将自身的不雅观测数据导入 OpenTelemetry 通用网络器。通用网络器对不雅观测数据进行统一处理后写入各种存储系统供剖析查看利用。OpenTelemetry供应的通用网络器(Collector)功能十分强大,可以高效的进行标准不雅观测数据的采集和转换,也是Opentelemetry组件中最主要的部分。
在 Collector 的内部,有一套卖力吸收、处理和导出数据的流程被称为 Pipeline。每个 Pipeline 由下面三部分组件组合而成。➡️Receiver:卖力按照对应的协议格式监听和吸收不雅观测数据,并把数据转给一个或者多个 Processor。➡️Processor:卖力加工处理不雅观测数据,如丢弃数据、增加信息、转批处理等,并把数据通报给下一个 Processor 或者一个或多个 Exporter。➡️Exporter:卖力把数据发送给下一个吸收端(一样平常是指后端),比如将指标数据存储到 Prometheus 中。Collector许可利用Yaml文件灵巧配置Receiver、Processor和Exporter,组合成繁芜Pipeline,从而完成各种数据吸收和处理场景。
云舟不雅观测构建了一套全面的运用性能监控体系,其核心是利用OpenTelemetry Collector作为数据网络和传输的枢纽。整体架构如图所示:

数据接入与采集:
➡️措辞与框架兼容性:支持广泛的编程措辞和框架,包括Java、Python、Go、PHP等,确保了大部分业务运用能够集成性能监控。开拓者可以利用OpenTelemetry的官方Agent和SDK来无侵入的集成,上报Trace数据。
➡️第三方Trace方案集成:除了OpenTelemetry,还支持诸如Jaeger、SkyWalking等成熟开源监控工具的Agent和SDK,以实现对历史监控系统的覆盖,无需对已有方案进行大规模改造。
网关与数据处理:
➡️统一数据入口:数据网关基于OpenTelemetry Collector构建,对所有上报的Trace数据进行统一标准化和预处理,确保数据格式同等性,便于后续剖析和存储。
➡️自定义插件与扩展:云舟不雅观测研发了专门的Exporter插件,能够高效地将数据写入到云舟不雅观测的Trace存储系统中,支持高性能的查询和剖析。
4. 云舟不雅观测运用性能监控功能先容云舟不雅观测运用性能监控的功能模块紧张包含:数据接入、数据统计、Trace剖析、Trace详情、拓扑查询。
(1)数据接入:支持常用的程序措辞及第三方开源方案的数据接入,大部分可实现无侵入接入。
以Python运用接入为例,填写运用名称,版本号,在运用运 行的环境中添加Python依赖包,设置页面上供应的环境变量(包括数据上报地址、做事名称、版本号等附加信息),启动运用即可。
(2) 数据统计:运用数据接入后,数据统计页面会根据上报数据,统计Top10延迟、要求量、缺点率的做事,以及Top10延迟、要求量、缺点率的详细方法。可以对延迟高、缺点率高的做事和方法进行进一步剖析。
(3) Trace详情:针对详细一个要求,云舟不雅观测供应了全面的Trace详情,帮助用户深入理解要求在系统中的流转过程。以图形化的办法展示要求的完全调用路径,不仅呈现全体要求的总耗时,还细分为每个做事调用的耗时,以及网络延迟、数据库查询、缓存操作等关键环节的实行韶光,赞助定位性能瓶颈。记录与要求干系的所有属性,包括但不限于缺点堆栈信息、实行的SQL语句及其参数,对付失落败的要求,供应详细的缺点堆栈跟踪。其余,将Trace数据与运用运行环境紧密关联,包括主机资源利用情形、进程状态和运行日志,形成综合视角,帮助理解要求在不同层面的表现和影响。
(4) 做事拓扑:做事拓扑视图是云舟不雅观测平台中的一项关键特性,它为用户供应了一幅动态的、高度可视化的系统架构舆图。展示所有做事之间的调用链路,帮助用户一览无余地看到全体系统的构造布局。除了展示调用关系外,做事拓扑图还会实时显示每个做事的要求数量、均匀相应韶光和缺点率等关键性能指标,让用户能够迅速识别系统瓶颈。当涌现调用非常或性能低落时,做事拓扑图会自动用能干的颜色标记受影响的做事节点,便于用户快速定位问题所在。
目前,云舟不雅观测的运用性能监控功能已初具规模,能实现对各种运用的全面性能监控,其特色功能,如Trace详情和做事拓扑,使得开拓者和运维团队能够迅速定位问题,优化性能,从而提升用户体验。
关于云舟不雅观测云舟不雅观测是由360智汇云推出的一款一站式数据采集与监控不雅观测产品,可以对根本举动步伐、运用性能,以及云原生下业务指标和日志进行全面的监控和不雅观测,构建全链路的可不雅观测性做事,帮助用户及时创造和解决系统及运用性能问题,提高系统的稳定性和可靠性。