⭐️ If you like this project, give it a star on GitHub! ⭐️

故障

Linux Kernel RAS

The hardware error detection in the kernel, including RAS, MCE, AER, and others.

Continue reading

新特性!支持 AI 计算硬件故障检测

本篇介绍了 HUATUO 项目的新特性,支持 AI 计算场景下硬件故障检测能力,包括故障指标,实际案例,原理分析等。

Continue reading

避坑!使用 ethtool 导致的线上故障

本篇分享在实际生产中,因使用 ethtools,导致的线上故障,根因隐蔽复杂,只有深入内核,驱动原理方可识得庐山真面目。

Continue reading

P99Conf:eBPF 构建更快的数据库系统

本篇介绍了数据库在现在操作系统上遇到的痛点,以及 eBPF 如何解决优化这些系统性能瓶颈,BPF-DB 给出了全新的思路。

Continue reading

eBPF 正成为现代 AI 基础设施的重要部分

本篇介绍了 eBPF 基金会发布的一份研究报告,该报告清晰地揭示了一个正在发生的重大转变,eBPF 正赋能 AI 基础设施。

Continue reading

避坑!504 超时错误的元凶竟然是它

本篇重点分析了核心链路服务出现 504 错误的根因,其中 HUATUO 发挥了关键作用,无论丢包还是网卡硬件故障。

Continue reading

避坑!AMD 服务器指令集引发的故障分析

本篇重点分析了 AMD 服务器因指令集问题导致的业务容器 CPU 掉底,业务指标抖动问题。涉及 HUATUO 火焰图,libstdc++ 库等

Continue reading

避坑!AMD 服务器诡异的耗时毛刺问题

本篇分析解决 AMD 服务器诡异的毛刺问题,涉及 HUATUO 关键指标,内核选核策略,CPU 架构,内核调度,调度域等核心技术。

Continue reading

新特性!支持 Linux 内核 IO 全栈观测

面对生产环境用户的 IO 痛点,HUATUO 社区提出 iotracing 解决方案,涉及基础用法,高级用法,以及搭载 Autotracing 等。

Continue reading

延迟降低30%! redis 延迟性能问题分析

本篇重点分析了 redis 服务长期运行后会出现性能下降问题,通过查看 HUATUO 在内存上的详细指标,进而推测出系统所处于的状态,并进而定位到性能的瓶颈所在,最后根据我们对内核的理解给出了解决方 …

Continue reading

云报告洞察,实例规格、性能、成本选择

本篇博客重点分析了主流云厂商对虚拟机实例规格的分类(通用型,计算型,存储型,内存型等),实例大小对性能的影响(小规格实例的vCPU性能占据明显优势),内存计算比例选择背后的思考,以及最后的成本选择。

Continue reading

2025 国产服务器操作系统发展报告概要

本篇博客重点分析了中国智能计算产业联盟发布的《2025 国产服务器操作系统发展报告》,包括国产操作系统发展现状、发展趋势、面临问题、发展建议。通过硬件协同,资源管理,并行计算等支撑大规模计算, …

Continue reading

如何高效定位服务器概率性应用毛刺问题

本篇博客详细梳理了,近期公司某机房的一些机器出现偶发概率性的服务毛刺问题,并最终给出了解决方案,效果立竿见影。在整个定位过程中 HUATUO 发挥了关键作用,体现了其在故障定位中的强大价值。

Continue reading

这些年全面崩溃的互联网大厂系统故障,经验总结

本篇博客梳理了历年的全球IT基础设施故障案例,并尝试从中总结一系列经验,指导日常的生产实践。故障难以避免,重要的是如何快速的感知,止损,隔离,恢复。在稳定性保障体系中 HUATUO 能够发挥强大的价 …

Continue reading