您的位置：首页>会员>学生会员研修营>活动新闻

大模型数据准备的“IaaS”原理｜SPP第137期

阅读量:13 2026-05-21 收藏本文

如今，大模型在通用和专用领域应用中都取得了显著进展。然而，其成功离不开高质量数据的“喂养”。本期SPP报告首先介绍大模型数据的"IaaS"概念，即高质量的大模型数据应具备四个关键特性：（1）包含性（Inclusiveness）：确保数据覆盖广泛的领域和类型；（2）冗余性（Abundance）：通过适度的数据重复增强模型的学习效果；（3）高质量（Articulation）：保证数据的准确性、相关性和有用性;(4)无害化（Sanitization）：确保数据经过伦理审查，不包含有害内容或隐私信息。这一框架贯穿于LLM的各个阶段，包括预训练、持续预训练、微调、强化学习、检索增强生成（RAG）、LLM代理和评估等。围绕“IaaS”框架，报告还将介绍LLM全生命周期中的数据处理技术，包括数据去重、数据过滤、数据混合与选择、数据成与标注等。欢迎关注本期SPP：6月25日（本周三）19:30—21:00。

本期直播你将收获哪些

1、了解如何通过“IaaS”框架设计高质量大模型训练数据；

2、了解如何利用去重、过滤、混合、合成等技术优化大模型数据处理流程；

3、了解如何通过数据-模型双向循环，提升模型性能与数据质量。

演讲嘉宾

周煊赫

CCF专业会员，上海交通大学长聘轨助理教授

上海交通大学计算机学院长聘轨助理教授，博士生导师。主要研究智能数据分析、AI数据底座、自治数据库系统。在SIGMOD、VLDB、NIPS、TKDE等CCF A类会议和期刊上已发表论文数十篇，包括近五年VLDB、ICDE高被引论文，入选CMU、Cornell等高校课程。谷歌学术引用量两千余次。曾获通信学会科学技术一等奖、ACM SIGMOD Jim Gray提名奖（国内首次）、VLDB最佳工业论文亚军奖（第一作者）、CCF优博、微软学者、清华特奖等荣誉。曾主导或主要参与OpenMLDB（入选Gartner报告）、DB-GPT（BenchCouncil开源成就奖）、Bird-SQL（用于OpenAI微调服务推广）等多个高星标开源项目。

CCF学生会员研修营

大模型数据准备的“IaaS”原理｜SPP第137期