故障

eBPF 正成为现代 AI 基础设施的重要部分

本篇介绍了 eBPF 基金会发布的一份研究报告,该报告清晰地揭示了一个正在发生的重大转变,eBPF 正赋能 AI 基础设施。

继续阅读

避坑!504 超时错误的元凶竟然是它

本篇重点分析了核心链路服务出现 504 错误的根因,其中 HUATUO 发挥了关键作用,无论丢包还是网卡硬件故障。

继续阅读

避坑!AMD 服务器指令集引发的故障分析

本篇重点分析了 AMD 服务器因指令集问题导致的业务容器 CPU 掉底,业务指标抖动问题。涉及 HUATUO 火焰图,libstdc++ 库等

继续阅读

避坑!AMD 服务器诡异的耗时毛刺问题

本篇分析解决 AMD 服务器诡异的毛刺问题,涉及 HUATUO 关键指标,内核选核策略,CPU 架构,内核调度,调度域等核心技术。

继续阅读

新特性!支持 Linux 内核 IO 全栈观测

面对生产环境用户的 IO 痛点,HUATUO 社区提出 iotracing 解决方案,涉及基础用法,高级用法,以及搭载 Autotracing 等。

继续阅读

延迟降低30%! redis 延迟性能问题分析

本篇重点分析了 redis 服务长期运行后会出现性能下降问题,通过查看 HUATUO 在内存上的详细指标,进而推测出系统所处于的状态,并进而定位到性能的瓶颈所在,最后根据我们对内核的理解给出了解决方 …

继续阅读

云报告洞察,实例规格、性能、成本选择

本篇博客重点分析了主流云厂商对虚拟机实例规格的分类(通用型,计算型,存储型,内存型等),实例大小对性能的影响(小规格实例的vCPU性能占据明显优势),内存计算比例选择背后的思考,以及最后的成本选择。

继续阅读

2025 国产服务器操作系统发展报告概要

本篇博客重点分析了中国智能计算产业联盟发布的《2025 国产服务器操作系统发展报告》,包括国产操作系统发展现状、发展趋势、面临问题、发展建议。通过硬件协同,资源管理,并行计算等支撑大规模计算, …

继续阅读

如何高效定位服务器概率性应用毛刺问题

本篇博客详细梳理了,近期公司某机房的一些机器出现偶发概率性的服务毛刺问题,并最终给出了解决方案,效果立竿见影。在整个定位过程中 HUATUO 发挥了关键作用,体现了其在故障定位中的强大价值。

继续阅读

这些年全面崩溃的互联网大厂系统故障,经验总结

本篇博客梳理了历年的全球IT基础设施故障案例,并尝试从中总结一系列经验,指导日常的生产实践。故障难以避免,重要的是如何快速的感知,止损,隔离,恢复。在稳定性保障体系中 HUATUO 能够发挥强大的价 …

继续阅读