近日,戴鸿君教授作为通讯作者、2024级博士生张虎为第一作者的论文《基于vGPU性能干扰感知的大模型推理负载资源高效配置方法》被《电子学报》国内权威期刊录用。该刊作为中国计算机学会(CCF)推荐的A类期刊,在信息科学、电子工程及高性能计算领域具有重要的学术影响力,本次录用标志着团队在新一代算力资源管理研究中的持续深耕与重要进展。
该研究针对vGPU环境中多模型并发推理时常见的性能干扰及服务质量下降问题,提出了面向大模型推理的轻量化干扰预测模型及成本优先的优化资源配置方法。团队构建了多维度真实推理负载数据集,系统量化了Prefill与Decode两大核心阶段在GPU资源共享场景下,首Token响应时间(TTFT)与单Token生成时间(TPOT)两个关键指标的核心影响因子;在此基础上,进一步设计了在严格约束条件下启发式vGPU资源分配算法。实验显示,所提出的方法在严格满足TTFT、TPOT等服务质量要求的前提下,可将GPU资源成本降低超过 20%,且对比传统资源分配方法,SLO违规率下降25%,显著提升了多模型推理任务在智算中心环境中的资源利用效率。

图1 基于vGPU环境的大模型推理负载支撑框架
研究团队表示,未来将进一步拓展该方法在PD分离架构、长上下文等复杂场景下的应用,并探索基于强化学习和在线学习的自适应干扰建模机制,以实现更加智能化、绿色低碳的算力资源调度体系,为新时代智能计算中心软件栈的建设提供新的技术动能。