为容器,物理节点,控制节点,提供丰富的观测指标,内核事件,追踪火焰图,性能剖析。
应用篇:如何使用 HUATUO 解决网卡硬件丢包
本文探讨了检测网卡硬件丢包遇到的问题,例如 ethtool 为什么不能应用于常态的硬件丢包检测,并最终给出了 HUATUO 网卡硬件丢包检测解决方案,并提供了一个实际生产环境故障案例 …
精细化、全维度、全景观测
自适应退避
资源损耗与观测精度动态平衡
基于 BPF 技术,保持性能损耗小于1%的基准水位,实现对内存管理、CPU 调度、网络及块 IO 子系统等核心模块的精细化、全维度、全景观测与性能剖析。
基于异常事件驱动的运行时上下文捕获机制,聚焦内核异常与慢速路径的精准埋点。针对调度延迟、协议栈丢包、中断关闭过长等事件,自动生成诊断信息。
采用启发式追踪算法,解决云原生复杂场景下的性能毛刺故障。针对 CPU idle 掉底,CPU SYS 突增,IO 突增,Load 突增等棘手问题,实现自动化快照留存。
持续对操作系统内核,应用程序进行全方位、全场景、多语言性能剖析,涉及 CPU、内存、I/O、 锁、解释性编程语言,力助业务持续的优化迭代更新。
以网络为中心的面向服务请求的分布式链路追踪,支持在大规模分布式系统中的跨节点追踪,提供微服务调用的全景视图,保障系统在复杂场景下的稳定性。
无缝对接开源技术栈。支持物理机和云原生部署,自动感知 K8S 容器/标签/注解,自动关联操作系统内核事件,消除数据孤岛。兼容主流操作系统发行版。
为容器,物理节点,控制节点,提供丰富的观测指标,内核事件,追踪火焰图,性能剖析。
General-Purpose Computing
扩展 GPU 硬件故障检测能力,提供 CPU, Memory, PCIe, HCA 等硬件健康状态。
AI Computing
深度与华为 Euler,阿里 Anolis,腾讯 TencentOS 等社区合作,让用云更简单。
Cloud Computing
为存储,大数据,消息队列,微服务等基础服务、业务应用提供故障诊断能力。
Bare Metal Server
适用于全链路压测,放火演练,故障注入,机房容灾等场景,让用户看清应用性能表现。
Disaster Backup and Recovery
由 teresa 在 2025-09-30
本文探讨了检测网卡硬件丢包遇到的问题,例如 ethtool 为什么不能应用于常态的硬件丢包检测,并最终给出了 HUATUO 网卡硬件丢包检测解决方案,并提供了一个实际生产环境故障案例 …
由 hao022 在 2025-09-26
本文探讨了双上联去堆叠网络架构的设计思路与生产环境中遇到的实际问题(如LACP协议状态与物理链路的监控难点),并引入 HUATUO 解决方案,以实现对物理链路可用性的有效观测 …
由 hao022 在 2025-09-23
该文章介绍了在实际生产过程中,对设计稳健系统的一些思考,形成一些方法论。对基础软件,业务软件,集群软件都有适用性。希望HUATUO 能够为大家在设计稳健系统时提供一些帮助 …
由 hao022 在 2025-09-22
该文章介绍了在实际生产环境中哪些因素可能导致进程“卡顿”,以及 HUATUO 如何观测这些卡顿行为,并附有实际指标看板。最后通过实际的一个案例说明如何定位到卡顿原因,和实际效果 …
(C) 2025 CCF 开源发展技术委员会、HUATUO 开源技术社区