返回首页
您的位置:首页 > 会员活动

CCF广东工业大学学生分会举办 “资源受限场景下的大模型推理优化”学术讲座

阅读量:0 2026-04-29 收藏本文

CCF广东工业大学学生分会于2026年4月23日(星期四)上午成功举办了主题为“资源受限场景下的大模型推理优化”的学术讲座。本次讲座邀请广东工业大学计算机学院讲师张金泉担任主讲人,围绕大语言模型在资源受限场景中的训练、推理与服务优化问题进行了报告。


张金泉老师主要研究方向为云计算资源管理、无服务器计算、调度优化和大模型推理优化,在IEEE TPDS、IEEE TSC、FGCS、IEEE TCC、MLSys、SIGKDD等国际知名学术期刊和会议上发表论文十余篇,参与国家重点研发计划项目、国家自然科学基金项目及企业合作项目等多项课题研究,并获得华为火花奖,指导学生获全国研究生数学建模竞赛国家一等奖。

讲座开始后,张金泉老师首先从企业场景下大模型部署的现实需求出发,介绍了当前大模型在落地过程中面临的若干关键问题,包括计算资源有限、隐私数据保护要求较高、知识库检索与工具调用带来的推理停顿,以及多租户并发场景下的服务质量保障等。通过这一部分内容,在场师生对资源受限条件下大模型系统优化的研究背景有了进一步了解。


在联邦学习训练大模型部分,张金泉老师重点介绍了面向异构边缘设备的联邦学习框架FedAlloy。针对企业场景中数据不能集中上传、设备能力差异明显等问题,该框架提出了强客户端参数级聚合与弱客户端知识级蒸馏相结合的双通道协同思路,从而在兼顾隐私保护的同时,更充分地利用不同设备侧的数据资源。报告中还介绍了这一框架在缓解量化部署与服务端聚合不一致问题上的作用,并结合相关实验结果说明了该方法在多个自然语言处理任务中的效果。


随后,讲座围绕隐私保护的云边协同推理展开分析。针对推理阶段同样存在的隐私泄露风险,张金泉老师介绍了基于PRISM的云边协同方案。该方案通过敏感度画像、软门控路由、自适应隐私扰动以及语义草图协作生成等机制,在回答质量与隐私保护之间进行权衡。同时,报告也分享了该方向上的进一步思考,包括在路由决策中引入SLO感知机制,以及探索更细粒度的隐私保护策略,以提升系统在实际部署中的可行性与适用性。

在大小模型协同推理部分,张金泉老师结合企业本地部署场景,分析了大模型与小模型在精度、速度和资源消耗上的差异。报告指出,传统级联式推理虽然能够利用小模型处理部分简单请求,但也可能给所有请求带来额外延迟。围绕这一问题,讲座介绍了轻量化并联分流的思路,即结合语义特征、文本长度、任务类型以及多模态视觉信号等信息,对请求难度进行快速判断,并据此直接路由至合适的模型,以减少额外等待并提升整体服务效率。此外,报告还讨论了动态副本管理问题,即如何根据实时分流比例合理配置大模型和小模型副本,从而进一步提升系统吞吐能力。


在推理调度优化方面,张金泉老师从大模型推理中的Prefill与Decode两阶段特性出发,介绍了SarathiV2和Chorus两项工作。其中,SarathiV2关注自适应分块调度问题,通过根据KV Cache空闲率动态调整Prefill分块大小,使系统在不同负载条件下保持较稳定的推理效率;Chorus则针对PD分离部署中的GPU碎片化问题,提出了以分离为主、聚合为辅的混合架构,通过粗粒度资源重分配与细粒度请求动态路由相结合,提高真实负载波动场景下的资源利用率。通过这一部分内容,在场师生对大模型推理系统中的调度优化问题有了更加具体的理解。


在多租户服务质量优化部分,张金泉老师介绍了CompQ机制。该机制从用户体验视角出发,关注大模型交互过程中因工具调用、资源拥塞等因素造成的停顿问题,并尝试通过对恢复请求进行补偿来改善服务体验。报告中说明了这一机制如何从等待时延、恢复阶段调度等角度进行设计,也对恢复请求补偿与整体系统公平性之间的关系进行了分析。最后,张金泉老师对资源受限场景下的大模型推理研究进行了总结,并指出了多租户公平性调度、大小模型并联分流器、动态副本管理以及KV Cache智能管理等后续研究方向。


本次讲座围绕资源受限场景下的大模型推理优化展开,内容涵盖联邦学习训练、隐私保护推理、大小模型协同推理、推理调度优化以及多租户服务质量保障等方面。通过本次活动,同学们进一步加深了对资源受限场景下大模型训练、推理与服务优化问题的理解,也对相关研究方向的实际应用背景和发展趋势有了更加系统的认识。