Blog

RDMA 关键技术研究:Queue Pairs

RDMA 关键技术研究 QPs, 该文主要分析 QPs, SQ, RQ 作用,用户态接口,内核实现方式,硬件原理,一些思考。

继续阅读

RDMA 关键技术研究:MR Memory Region

RDMA 关键技术研究 Memory Region, 该文主要分析 memory region 作用,内核实现方式,硬件原理,一些思考。

继续阅读

Linux 内核 RAS 原理剖析与实践案例

本篇介绍 Linux 内核 RAS, MCE, AER 等硬件故障检查原理。HUATUO 华佗项目依赖该检测机制实现了通用硬件故障监控。

继续阅读

新特性!支持 AI 计算硬件故障检测

本篇介绍了 HUATUO 项目的新特性,支持 AI 计算场景下硬件故障检测能力,包括故障指标,实际案例,原理分析等。

继续阅读

避坑!使用 ethtool 导致的线上故障

本篇分享在实际生产中,因使用 ethtools,导致的线上故障,根因隐蔽复杂,只有深入内核,驱动原理方可识得庐山真面目。

继续阅读

P99Conf:eBPF 构建更快的数据库系统

本篇介绍了数据库在现在操作系统上遇到的痛点,以及 eBPF 如何解决优化这些系统性能瓶颈,BPF-DB 给出了全新的思路。

继续阅读

eBPF 正成为现代 AI 基础设施的重要部分

本篇介绍了 eBPF 基金会发布的一份研究报告,该报告清晰地揭示了一个正在发生的重大转变,eBPF 正赋能 AI 基础设施。

继续阅读

避坑!504 超时错误的元凶竟然是它

本篇重点分析了核心链路服务出现 504 错误的根因,其中 HUATUO 发挥了关键作用,无论丢包还是网卡硬件故障。

继续阅读

避坑!AMD 服务器指令集引发的故障分析

本篇重点分析了 AMD 服务器因指令集问题导致的业务容器 CPU 掉底,业务指标抖动问题。涉及 HUATUO 火焰图,libstdc++ 库等

继续阅读

避坑!AMD 服务器诡异的耗时毛刺问题

本篇分析解决 AMD 服务器诡异的毛刺问题,涉及 HUATUO 关键指标,内核选核策略,CPU 架构,内核调度,调度域等核心技术。

继续阅读