• 首页/新闻动态/从实验室到赛场,大赛开发者如何用AI破解BMC功耗难题

从实验室到赛场,大赛开发者如何用AI破解BMC功耗难题

2026-02-05 10:21:30

伴随AI大模型爆发式增长,千卡级AI集群普及,服务器功率密度攀升,传统功耗管理已难满足能效需求。开放原子开源基金会发起的第三届开放原子大赛携手OurBMC社区和飞腾信息,推出“基于BMC的整机功耗智能管理”赛题,探索轻量级AI模型部署路径,推动AI与OurBMC项目融合。

赛事汇聚78支队伍、130余位开发者,历经四月实战角逐。开发者们深耕技术、打磨方案,不仅积累了全流程实践经验,更深化了BMC功耗管理认知,以开源协作驱动技术突破,为绿色计算注入动能。我们特邀获奖企业团队分享历程,展现开源生态魅力与前沿技术力量。

AI与硬件管控深度融合,实现安全与节能双赢

昆仑太科BMC团队由BMC领域资深工程师组成,深耕OpenBMC架构研发多年。针对传统PID控制在服务器温控中难以平衡功耗与散热的痛点,团队借赛事契机,探索AI算法与BMC硬件管控的深度融合,验证智能温控方案可行性,推动BMC技术栈升级。

该项目聚焦单变量功耗智能管理,基于openbmc-OurBMC-24.12的phosphor-pid-control库,集成一套由C++实现、以GBDT为预测核心、PPO为决策核心的自适应闭环控制系统。数据采集采用快速降温与低功耗稳态调控双阶段策略,实现从异常响应到节能运行的平滑过渡。系统通过温度预测模型预判温度趋势,结合PPO强化学习生成风扇转速建议,同时采用安全优先的融合机制,最终转速取AI建议值与超温保障值的较大者,达成“安全兜底+智能节能”双重目标,有效降低风扇功耗,提升数据中心PUE

参赛过程中,团队通过明确“环境搭建-传感器适配-算法开发-部署测试”职责分工实现高效协作,攻克AI模型轻量化适配BMC嵌入式环境的难题。成员平衡工作与备赛时间,利用碎片化时段推进模型训练与调试,深刻体会到技术落地需兼顾创新与实用,开源协作能够加速技术迭代。

多元技术路径并行,探索智能功耗管理更多可能

移动云硬件团队精通BMC、BIOS及智能网卡固件开发,作为OurBMC社区成员单位,团队希望通过赛事了解行业前沿成果,分享技术积累,助力自身在功耗管理领域持续进阶。

团队获奖作品为“基于BMC的智能功耗管理-SFC调速方案”,核心逻辑是通过BMC采集服务器工况信息,离线训练工况识别与温度预测模型并内置到系统中。服务器运行时,BMC先识别当前工况,再基于工况预测关键部件温度变化,提前调节风扇转速,在满足温度约束的前提下实现整体功率最低。

依托移动云在功耗管理的积累,团队迅速组建技术互补型队伍,经紧密协作明确核心原则:智能功耗管理不能影响BMC核心功能,模型轻量化与冗余措施必不可少。基于此,团队攻克模型轻量化、预测准确度等难题,同时借鉴其他参赛队伍的优秀方案,为后续研究积累经验。

百敖BMC团队拥有多年BMC开发经验,核心方案基于LSTM时序预测模型,构建智能化自适应温控决策机制。模型通过分析温度与风扇转速的关联趋势,预测未来温度变化并输出匹配的转速建议,同时设置融合决策模块,对比LSTM预测结果与PID控制指令,动态权衡后下发最终转速指令。

该方案实现从“被动响应式控温”到“主动优化式控温”的转变,在保障设备散热需求的前提下,平滑能耗曲线,减少功耗波动,达成散热与能效的最优平衡。

面对BMC芯片计算能力有限、存储空间不足的挑战,团队通过固定晚间协作时段、高效异步沟通,将项目经验转化为比赛优势,深刻认识到技术权衡与工程落地能力比追求技术新颖更重要。

信工所算力基础设施安全团队从第一届大赛起便持续关注OurBMC赛事,此前因学业遗憾错过。本届大赛功耗管理主题与团队在服务器能效优化的研究高度契合,相关成果已发表于顶级期刊。团队希望借赛事展示方案,促进技术交流,助力国产BMC固件发展。

团队作品HyperBMC,寓意超越传统服务器管理范式,将BMC定位为智能管理引擎。方案核心是在BMC芯片部署深度学习模型,刻画计算需求与散热能力的平衡关系,结合主机CPU与BMC的带内通信机制,协同调控风扇转速与CPU频率,实现精细化功耗管理,兼顾能效与性能稳定性。

尽管团队有技术积累,仍面临两大挑战:一是软件版本适配难题,需将基于OpenBMC 2.8.0的成果迁移至OurBMC 24.12版本,攻克Linux内核升级与Yocto工具链变化等问题;二是嵌入式设备运行深度学习的挑战,团队首次将智能决策与模型推理全流程部署在BMC端,充分挖掘嵌入式硬件性能。

聚焦轻量化与实用性,拓宽技术落地边界

创芯无限团队由管芯微与广东芯培森联合组建,擅长高性能算力芯片研发。管芯微是OurBMC社区早期成员,团队因赛题与广东赫曦原子智算中心建设高度契合,且希望借鉴社区经验探索降PUE新路径,第一时间报名参赛。

方案面向原子级科学计算高性能服务器(赫曦I架构),设计包含单变量与整机功耗管理的双模块系统。单变量模块采集主板、CPU、GPU、APU的温度与负载数据,采用ANN、CNN、LSTM-FNN等模型动态调节风扇转速,实现快速降温与低功耗温控;整机模块通过LSTM模型预测设备负载峰谷,动态调整CPU/GPU频率与电压,实现按需功耗分配。系统支持增量学习与强化学习优化,搭配阈值控制兜底,保障性能的同时降低运行成本。

赛事锚定真实场景,涉及多类硬件且监控参数庞杂,尤其是自研APU需经两级代理获取指标,整合分散监控手段成为最大难点。团队通过模块化设计与精细化分工紧密协作,克服异地组队、时间紧张等障碍,顺利完成任务。

国科超算团队专注嵌入式AI与BMC安全管理,致力于将轻量级AI模型应用于BMC产品。针对AI服务器功耗密度攀升、传统管理方案失效的痛点,团队希望在BMC中引入AI模块,基于硬件温度与OS负载实现精准功耗调控。

团队作品核心是通过轻量化AI技术优化风扇控制策略,采用四项关键机制:一是全场景数据采集,覆盖空载、常规负载、高负载工况,确保数据完整;二是功耗建模与特征工程,基于硬件标定映射表构建功耗估算模型,简化特征维度适配轻量化需求;三是分阶段模型训练,超温阶段用LSTM模型快速响应温度趋势,稳温阶段用Q-Learning模型实现能效最优;四是轻量化部署,简化推理链路,控制延迟低于10ms,设置异常兜底机制,保障系统稳定。

参赛初期,AI与BMC工程师因技术思路分歧产生争论,经带队老师协调敲定方案架构。团队成员分工推进数据采集、模型训练与部署测试,针对模型效果不佳、数据偏差等问题集中攻关。成员兼顾公司项目与备赛,最终收获的成就感消解了所有疲惫。

第三届开放原子大赛“基于BMC的整机功耗智能管理”赛题,以开源为纽带汇聚各方智慧。各获奖团队探索出轻量化AI与BMC融合的多元技术路径,为数据中心功耗管理提供可落地方案,践行了开放包容、共创共赢的开源精神。未来,随着技术落地与迭代,这些方案将持续推动绿色计算发展,为AI时代高效能数据中心建设注入新动能。

 
 
 

让贡献被看见,让成长有路径——华东师范大学构建一体化开源成长平台

2026-02-04 10:51:29

开源已成为全球科技创新的核心引擎,也是我国实现高水平科技自立自强的战略基石。然而,人才断层、教育脱节、评价缺失,正制约着开源生态的可持续发展。高校作为人才培养主阵地,不能只做开源的“使用者”,更应成为“共建者”与“引领者”。

上一篇

判决全文 | 最高法:保障开源自由,激励开源创新

2025-03-03 18:12:03

判决全文 | 最高法:保障开源自由,激励开源创新

推荐阅读
Goto Top