⭐️ If you like this project, give it a star on GitHub! ⭐️

Blog

RDMA: Doorbell, UAR

The UAR memory layout, allocation, mapping, and the user-mode and kernel-mode implementations.

Continue reading

RDMA: Memory Window

Analyzing Memory Window user-space, kernel, and underlying hardware implementation, design …

Continue reading

RDMA: Queue Pairs

Analyzing Queue Pairs user-space, kernel, and underlying hardware implementation, design …

Continue reading

RDMA: Memory Region

Analyzing Memory Region user-space, kernel, and underlying hardware implementation, design …

Continue reading

Linux Kernel RAS

The hardware error detection in the kernel, including RAS, MCE, AER, and others.

Continue reading

新特性!支持 AI 计算硬件故障检测

本篇介绍了 HUATUO 项目的新特性,支持 AI 计算场景下硬件故障检测能力,包括故障指标,实际案例,原理分析等。

Continue reading

避坑!使用 ethtool 导致的线上故障

本篇分享在实际生产中,因使用 ethtools,导致的线上故障,根因隐蔽复杂,只有深入内核,驱动原理方可识得庐山真面目。

Continue reading

P99Conf:eBPF 构建更快的数据库系统

本篇介绍了数据库在现在操作系统上遇到的痛点,以及 eBPF 如何解决优化这些系统性能瓶颈,BPF-DB 给出了全新的思路。

Continue reading

eBPF 正成为现代 AI 基础设施的重要部分

本篇介绍了 eBPF 基金会发布的一份研究报告,该报告清晰地揭示了一个正在发生的重大转变,eBPF 正赋能 AI 基础设施。

Continue reading

避坑!504 超时错误的元凶竟然是它

本篇重点分析了核心链路服务出现 504 错误的根因,其中 HUATUO 发挥了关键作用,无论丢包还是网卡硬件故障。

Continue reading

避坑!AMD 服务器指令集引发的故障分析

本篇重点分析了 AMD 服务器因指令集问题导致的业务容器 CPU 掉底,业务指标抖动问题。涉及 HUATUO 火焰图,libstdc++ 库等

Continue reading

避坑!AMD 服务器诡异的耗时毛刺问题

本篇分析解决 AMD 服务器诡异的毛刺问题,涉及 HUATUO 关键指标,内核选核策略,CPU 架构,内核调度,调度域等核心技术。

Continue reading

新特性!支持 Linux 内核 IO 全栈观测

面对生产环境用户的 IO 痛点,HUATUO 社区提出 iotracing 解决方案,涉及基础用法,高级用法,以及搭载 Autotracing 等。

Continue reading

延迟降低30%! redis 延迟性能问题分析

本篇重点分析了 redis 服务长期运行后会出现性能下降问题,通过查看 HUATUO 在内存上的详细指标,进而推测出系统所处于的状态,并进而定位到性能的瓶颈所在,最后根据我们对内核的理解给出了解决方 …

Continue reading