Linux Kernel RAS
The hardware error detection in the kernel, including RAS, MCE, AER, and others.
⭐️ If you like this project, give it a star on GitHub! ⭐️
The hardware error detection in the kernel, including RAS, MCE, AER, and others.
本篇介绍了 HUATUO 项目的新特性,支持 AI 计算场景下硬件故障检测能力,包括故障指标,实际案例,原理分析等。
本篇分享在实际生产中,因使用 ethtools,导致的线上故障,根因隐蔽复杂,只有深入内核,驱动原理方可识得庐山真面目。
本篇介绍了数据库在现在操作系统上遇到的痛点,以及 eBPF 如何解决优化这些系统性能瓶颈,BPF-DB 给出了全新的思路。
本篇介绍了 eBPF 基金会发布的一份研究报告,该报告清晰地揭示了一个正在发生的重大转变,eBPF 正赋能 AI 基础设施。
本篇重点分析了核心链路服务出现 504 错误的根因,其中 HUATUO 发挥了关键作用,无论丢包还是网卡硬件故障。
本篇重点分析了 AMD 服务器因指令集问题导致的业务容器 CPU 掉底,业务指标抖动问题。涉及 HUATUO 火焰图,libstdc++ 库等
本篇分析解决 AMD 服务器诡异的毛刺问题,涉及 HUATUO 关键指标,内核选核策略,CPU 架构,内核调度,调度域等核心技术。
面对生产环境用户的 IO 痛点,HUATUO 社区提出 iotracing 解决方案,涉及基础用法,高级用法,以及搭载 Autotracing 等。
本篇重点分析了 redis 服务长期运行后会出现性能下降问题,通过查看 HUATUO 在内存上的详细指标,进而推测出系统所处于的状态,并进而定位到性能的瓶颈所在,最后根据我们对内核的理解给出了解决方 …
本篇博客重点分析了主流云厂商对虚拟机实例规格的分类(通用型,计算型,存储型,内存型等),实例大小对性能的影响(小规格实例的vCPU性能占据明显优势),内存计算比例选择背后的思考,以及最后的成本选择。
本篇博客重点分析了中国智能计算产业联盟发布的《2025 国产服务器操作系统发展报告》,包括国产操作系统发展现状、发展趋势、面临问题、发展建议。通过硬件协同,资源管理,并行计算等支撑大规模计算, …
本篇博客详细梳理了,近期公司某机房的一些机器出现偶发概率性的服务毛刺问题,并最终给出了解决方案,效果立竿见影。在整个定位过程中 HUATUO 发挥了关键作用,体现了其在故障定位中的强大价值。
本篇博客梳理了历年的全球IT基础设施故障案例,并尝试从中总结一系列经验,指导日常的生产实践。故障难以避免,重要的是如何快速的感知,止损,隔离,恢复。在稳定性保障体系中 HUATUO 能够发挥强大的价 …
(C) 2025-2026, HUATUO Open Source Community.