返回首页

大模型数据准备的“IaaS”原理|SPP第137期

阅读量:0 2026-05-21 收藏本文

如今,大模型在通用和专用领域应用中都取得了显著进展。然而,其成功离不开高质量数据的“喂养”。本SPP报告首先介绍大模型数据的"IaaS"概念,即高质量的大模型数据应具备四个关键特性:(1)包含性(Inclusiveness):确保数据覆盖广泛的领域和类型;(2)冗余性(Abundance):通过适度的数据重复增强模型的学习效果;(3)高质量(Articulation):保证数据的准确性、相关性和有用性;(4)无害化(Sanitization):确保数据经过伦理审查,不包含有害内容或隐私信息。这一框架贯穿于LLM的各个阶段,包括预训练、持续预训练、微调、强化学习、检索增强生成(RAG)、LLM代理和评估等。围绕“IaaS”框架,报告还将介绍LLM全生命周期中的数据处理技术,包括数据去重、数据过滤、数据混合与选择、数据成与标注等。欢迎关注本期SPP625日(本周三)19:3021:00

本期直播你将收获哪些

1、了解如何通过“IaaS”框架设计高质量大模型训练数据;

2、了解如何利用去重、过滤、混合、合成等技术优化大模型数据处理流程;

3、了解如何通过数据-模型双向循环,提升模型性能与数据质量。

演讲嘉宾


周煊赫

CCF专业会员,上海交通大学长聘轨助理教授

上海交通大学计算机学院长聘轨助理教授,博士生导师。主要研究智能数据分析、AI数据底座、自治数据库系统。在SIGMODVLDBNIPSTKDECCF A类会议和期刊上已发表论文数十篇,包括近五年VLDBICDE高被引论文,入选CMUCornell等高校课程。谷歌学术引用量两千余次。曾获通信学会科学技术一等奖、ACM SIGMOD Jim Gray提名奖(国内首次)、VLDB最佳工业论文亚军奖(第一作者)、CCF优博、微软学者、清华特奖等荣誉。曾主导或主要参与OpenMLDB(入选Gartner报告)、DB-GPTBenchCouncil开源成就奖)、Bird-SQL(用于OpenAI微调服务推广)等多个高星标开源项目。