编者寄语

人工智能生成内容(AIGC)是指利用人工智能技术自动生成内容。受制于人工智能技术的成熟度,当前人工智能在内容创作中仍然是辅助角色。待技术突破,人工智能有望真正成为内容创作者。AIGC是一种利用生成对抗网络(GAN)和大型预训练模型等人工智能技术,寻找现有数据模式并具有适当泛化能力的技术集合。这也被称为合成媒体或生成式人工智能,即由人工智能算法自动生成新的程序、内容,如文本、音乐、图像、视频和场景等。

AIGC的发展是由数据、算法和计算能力的共振推动的。开源模型和商业化带来的产品化浪潮,以及对通用人工智能领域的探索,使AIGC迅速破圈。例如,2017年推出的Transformer架构奠定了大规模模型训练的基础,以GPT为代表的预训练模型解决了标记数据不足的问题,同时提高了模型的通用性。ChatGPT在此基础上引入了人类反馈进行强化学习的训练方法,自2022年11月推出以来迅速走红,5天后用户破百万,两个月后月活用户突破1亿,成为史上用户增长速度最快的消费级应用程序。与此同时,扩散模型已经取代GAN成为图像生成的主流模型,而CLIP推动了跨模态生成技术的发展。GPT3的商业化和CLIP和Stable Diffusion模型的开源为文本生成和文本到图像产品化开启了一波浪潮。Google和Meta仍在持续探索文本生成视频领域的模型。

根据Gartner的预测,至2025年,生成式人工智能生成的数据将占据所有数据的10% (目前不到1%)。同时,据 Sequoia预测,生成式人工智能预计将创造数万亿美元的经济价值。AIGC已经在营销、社交媒体、内容创作、游戏等领域得到应用,并开拓了商业化机会。随着算法迭代和计算能力的提升,AIGC将释放一个新的内容生产革命。

本期焦点内容涵盖了ChatGPT和大语言模型相关的最新专家讲座和访谈,以及一些相关的参考图书,包括大语言模型,文本到语音合成,视觉问答技术。在一定程度上反映了当前AIGC和ChatGPT相关领域的最新研究动态和专家观点。 


目录

资料格式

ChatGPT的过去、现在与未来

通用人工智能一直被认为是人工智能研究的终极目标之一,2022年12月美国人工智能公司OpenAI所推出的ChatGPT生成式对话预训练模型首次被外界认为已实现了部分通用人工智能的能力,是弱人工智能向强人工智能迈出的重要一步。用户只需使用自然语言输入问题,聊天机器人则会给出会话式的答案且支持多轮连续交互,该系统受到学术界、工业界和日常用户的广泛关注,短短5天用户量突破100万。然而遗憾的是该系统最新相关算法和模型并未公布和开源,但正如罗马不是一天建成的,ChatGPT有着一系列前序模型。本期SPP报告根据现有已公开论文和资料对ChatGPT的基本原理、主要算法、发展现状及前沿应用进行介绍。

格式:
视频
对话式大型语言模型

以对话式大型语言模型为题,分析了ChatGPT的关键技术——情景学习,给对话式大型语言模型下了明确的定义,即具有思维链、情景学习等涌现能力,能执行人类指令,可以直接与人类对话,与人类价值观、思维方式对齐的自回归语言模型。讲者介绍了复旦大学开发的国内首个类ChatGPT模型MOSS,并分享了MOSS在国内通用人工智能领域最前沿的探索。

格式:
视频 PPT
浅谈大模型与知识图谱的结合:近期的几点方向探索与心得总结

以ChatGPT为代表的大模型的推出,已经掀起了一种新的NLP和知识图谱实现范式。本报告将基于近期在大模型研发以及知识图谱方向的工作,从大模型研发的基础数据建设、大模型背景下知识图谱的几点结合方向、大模型加持知识图谱在360实际落地场景上的一些实践三个部分进行介绍,谈谈自己的粗浅想法与心得,供大家一起思考。

格式:
视频
ChatGPT——AI大模型为智能化变革带来的机遇和挑战

近日,芮勇博士接受了CCCF的专访,分享了他对火爆全网的 ChatGPT等大模型的看法,以及大模型为企业智能化变革带来的机遇和挑战。

格式:
文章

参考书籍

Foundation Models for Natural Language Processing

This open access book provides a comprehensive overview of the state of the art in research and applications of Foundation Models and is intended for readers familiar with basic Natural Language Processing (NLP) concepts.

格式:
图书
Neural Text-to-Speech Synthesis

Text-to-speech (TTS) aims to synthesize intelligible and natural speech based on the given text. It is a hot topic in language, speech, and machine learning research and has broad applications in industry. This book introduces neural network-based TTS in the era of deep learning, aiming to provide a good understanding of neural TTS, current research and applications, and the future research trend.

格式:
图书
Visual Question Answering

Provides the first comprehensive survey of and handbook on visual question answering (VQA)

格式:
图书

“智慧教育”专题

工业互联网安全

物联网安全

硬件安全

本期编委成员

常兰兰

Springer 出版社

往期回顾