最后更新: 2026-03-09, 作者: 沐曦科技

沐曦股份开源生态介绍
沐曦股份坚持“自主创新与开放兼容”双轨战略,以自研MXMACA软件栈为核心,构建硬件与应用的桥梁,并承载开源核心使命。该栈于2025年2月正式开源,致力于打造开放的GPU编程接口标准,大幅降低开发门槛,有效破解跨平台兼容难题,驱动AI算力生态协同创新。
技术落地方面,沐曦深度融入全球开源社区:成为vLLM官方支持的中国GPU厂商,与红帽联合推出MXAIE优化方案,实现对龙蜥、OpenCloudOS、麒麟、RHEL等主流OS的适配,并深度参与vLLM、PaddlePaddle、OpenXLA、BigDL等上游项目,确保主流框架和大模型的“Day 0”级支持。截至2025年底,已发布30余个开源项目,MXMACA用户超25万,支持超4500个模型“即插即用”。通过技术赛事、高校推广及算力服务平台建设,沐曦正加速构建覆盖开发者、产业与科研的开放生态,目标是铸就AI时代的“Android式”开放共赢算力基础。
HUATUO 华佗
HUATUO(华佗)是由滴滴开源并依托 CCF (中国计算机学会)孵化的操作系统深度观测项目,专注为云原生通用计算,AI 计算,云服务,基础服务等提供操作系统内核级深度观测能力,《滴滴操作系统可观测 HUATUO 项目正式入驻 CCF》。

适配介绍

HUATUO 通过调用 MetaX libmxsml 获取实时的 GPU 数据,在开启了 MetaX GPU 监控后,可以在华佗中查询到 GPU 相关的数据,如:
1. GPU 基础信息:如 GPU 型号、GPU 标识、驱动版本等
2. GPU 状态:如 GPU 功耗、温度、利用率、时钟频率等
3. GPU 通信:如 PCIe 速度、带宽,MetaXLink 速度、带宽等
这些数据可以帮助我们更加清晰地定位生产环境中的各种问题。有关指标的详细说明,请见后续的"指标介绍"章节。如果想要启用 MetaX GPU 的监控,需要将以下内容挂载到容器中的对应位置:
1. `/opt/maca:/opt/maca`
2. `/opt/mxdriver:/opt/mxdriver`
3. `/dev/dri:/dev/dri`
Docker 容器的启动命令为:
docker run --privileged --cgroupns=host --network=host \
-v /sys:/sys \
-v /proc:/proc \
-v /run:/run \
-v /opt/maca:/opt/maca \
-v /opt/mxdriver:/opt/mxdriver \
-v /dev/dri:/dev/dri \
huatuo/huatuo-bamai:latest
如果是在 K8s 中使用,则创建相应的 PV 与 PVC 即可。在容器启动完毕后,访问其服务地址的 /metrics endpoint,如果输出中包含带有 metax 字样的指标,则成功采集了 GPU 数据。
指标介绍
| 指标名称 | 指标类型 | 描述 | 单位 | 标签 |
|---|---|---|---|---|
| metax_gpu_sdk_info | Gauge | GPU SDK 信息 | version=<sdk-version> |
|
| metax_gpu_driver_info | Gauge | GPU 驱动信息 | version=<driver-version> |
|
| metax_gpu_info | Gauge | GPU 信息 | gpu=<gpu-index>model=<gpu-model>uuid=<gpu-uuid>bios_version=<bios-version>bdf=<bdf>mode=<native|pf|vf>die_count=<die-count> |
|
| metax_gpu_board_power_watts | Gauge | GPU 板卡功耗 | watts | gpu=<gpu-index> |
| metax_gpu_pcie_link_speed_gt_per_second | Gauge | GPU PCIe 当前链路速度 | GT/s | gpu=<gpu-index> |
| metax_gpu_pcie_link_width_lanes | Gauge | GPU PCIe 当前链路宽度 | lanes | gpu=<gpu-index> |
| metax_gpu_pcie_receive_bytes_per_second | Gauge | GPU PCIe 接收吞吐量 | bytes/s | gpu=<gpu-index> |
| metax_gpu_pcie_transmit_bytes_per_second | Gauge | GPU PCIe 发送吞吐量 | bytes/s | gpu=<gpu-index> |
| metax_gpu_metaxlink_link_speed_gt_per_second | Gauge | GPU MetaXLink 当前链路速度 | GT/s | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_link_width_lanes | Gauge | GPU MetaXLink 当前链路宽度 | lanes | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_receive_bytes_per_second | Gauge | GPU MetaXLink 接收吞吐量 | bytes/s | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_transmit_bytes_per_second | Gauge | GPU MetaXLink 发送吞吐量 | bytes/s | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_receive_bytes_total | Counter | GPU MetaXLink 累计接收数据量 | bytes | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_transmit_bytes_total | Counter | GPU MetaXLink 累计发送数据量 | bytes | gpu=<gpu-index>metaxlink=<metaxlink-index> |
| metax_gpu_metaxlink_aer_errors_total | Counter | GPU MetaXLink AER 错误计数 | gpu=<gpu-index>metaxlink=<metaxlink-index>error_type=<ce|ue> |
|
| metax_gpu_status | Gauge | GPU 状态,0 表示正常,其他值表示异常,请查阅文档了解各值对应的异常情况 | gpu=<gpu-index>die=<die-index> |
|
| metax_gpu_temperature_celsius | Gauge | GPU 温度 | celsius | gpu=<gpu-index>die=<die-index> |
| metax_gpu_utilization_percent | Gauge | GPU 利用率 | percent (0-100) | gpu=<gpu-index>die=<die-index>ip=<ip-type> |
| metax_gpu_memory_total_bytes | Gauge | 显存总量 | bytes | gpu=<gpu-index>die=<die-index> |
| metax_gpu_memory_used_bytes | Gauge | 已用显存 | bytes | gpu=<gpu-index>die=<die-index> |
| metax_gpu_clock_mhz | Gauge | GPU 时钟频率 | MHz | gpu=<gpu-index>die=<die-index>ip=<ip-type> |
| metax_gpu_clocks_throttling | Gauge | GPU 时钟降频原因 | gpu=<gpu-index>die=<die-index>reason=<throttle-reason> |
|
| metax_gpu_dpm_performance_level | Gauge | GPU DPM 性能级别 | gpu=<gpu-index>die=<die-index>ip=<ip-type> |
|
| metax_gpu_ecc_memory_errors_total | Counter | GPU ECC 内存错误计数 | gpu=<gpu-index>die=<die-index>memory_type=<sram|dram>error_type=<ce|ue> |
|
| metax_gpu_ecc_memory_retired_pages_total | Counter | GPU ECC 内存已淘汰页面计数 | gpu=<gpu-index>die=<die-index> |
说明
- GPU index:GPU 的索引,根据 GPU 模式的不同有所区分:
- Native 模式和 VF 模式的 GPU 索引从 0 开始。
- PF 模式的 GPU 索引从 100 开始。
- CE:Correctable Errors, 可纠正错误
- UE:Uncorrectable Errors, 不可纠正错误
- MetaXLink:MetaXLink 是用于 GPU 间通信的专有互联技术。每块 GPU 可拥有多条 MetaXLink 连接,索引从 1 开始。
结语
开源,正成为连接技术创新与产业升级的关键纽带。在政策引领、产业协同与生态共建的合力推动下,开源创新高地正加速构筑。面向未来,沐曦股份将持续以开源为桥梁,与产业各方同心共策、聚力共建、携手共赢,夯实AI时代的算力底座与软件基础设施,为中国数字经济的高质量发展注入澎湃动能。
Pull request: https://github.com/ccfos/huatuo/pull/133
篇尾:
- HUATUO(华佗)是由滴滴开源并依托 CCF 孵化的操作系统深度观测项目。
- 关注微信公众号,或扫码加微信,邀请你加入用户群(请备注姓名+单位):
