大模型浪潮迈入新阶段：从Pretrain到SFT | CCF C³阿里妈妈

阅读量:182 2023-09-27 收藏本文

大模型短期容易被高估，长期容易被低估。未来两到三年，大模型是值得期待的。
大模型数智经营2.0时代，将具有新的三大特性：知识经营、基于AI的决策执行&因果推断、创造性的智能经营。
大模型在To P（Professional consumer）场景中能更好地提效。

本次CCF C³活动来到阿里妈妈，近二十位来自企业、学界的专家、研究人员一同参观了阿里巴巴展区，聆听了来自特邀嘉宾与讲者的报告分享，参与高峰论坛讨论。

阿里妈妈广告技术部工程技术负责人仇光，北京邮电大学教授杜军平带来了与数智商业化技术相关的主题报告。

随后，仇光、杜军平和阿里妈妈及闲鱼CTO郑波，面壁智能联合创始人兼CEO、知乎合伙人CTO兼高级副总裁李大海，高通公司中国产品技术生态合作负责人刘晓光，阿里妈妈内容平台与智能创作算法负责人葛铁铮等在高峰论坛环节讨论了商家该如何应对大模型等问题。

高峰论坛首先从大模型热潮的现状开始谈起：大模型是否会像区块链、元宇宙技术昙花一现，还是一次真正产生深远影响的技术革命？

嘉宾们普遍认为，大模型技术相比于区块链、元宇宙，具有更多与现实应用的清晰的结合点。初期的大模型存在泡沫是必然的，反映了大家对技术的过于高估。

但是李大海表示大模型「短期容易被高估，长期容易被低估」。也许短时间内，技术没有对世界产生巨大变化，但是未来两到三年，大模型是值得期待的。

大模型的出现对学术界和产业界都带来了新的震动。

杜军平简单梳理了大模型给学术界带来的影响。大模型在深度学习领域，推动了模型压缩、模型可解释性、模型建置等更加前沿的研究。在此基础上，模型鲁棒性、可解释性、伦理问题和数据隐私问题等新的问题，也推动了新的研究方向和算法的出现。

大模型浪潮还推动了跨学科的研究合作，同时合成数据的出现，进一步扩充了小样本、多语言的数据。但是大模型也不可避免地影响了研究兴趣的转移，更多年轻学生转向做大模型，让传统计算机学科研究受到了挑战。

仇光从产业界的视角出发，认为大模型对实际问题的解决提出了新的思路。对于公司内部，大模型主要用于内部提效。在电商场景中，大模型赋予了个人独立、全流程实现开店的能力。如何应用大模型，是发挥想象力的工作。

葛铁铮在阿里妈妈负责创意、内容生成方面工作，他表示自己最看重大模型的创造力，大语言模型总能很快地给出稀奇古怪的想法。即使是数据规模较小、质量较差的模型，也能够完成创造性工作。

但是在逻辑判断、知识输出等方面，成熟、完善的大模型才能更好地应对，很多情况下需要外界辅助如搜索增强等来提升能力。

郑波提到了一个新的概念ToP（Professional Consumer）。短期来看，大模型带来的改变是效率提升。相比于ToB和ToC场景，在ToP场景中，专业从业者如内容创作者、程序员、分析师、BI等能够更好地利用大模型来提效。

大模型在电商场景还能如何应用呢？

高通刘晓光提出，在移动设备算力及性能飞速提高的基础上，未来AI和大模型可以让手机等通讯设备成为个人助理、甚至个人代理。

一方面大模型可以更好地理解用户的行为意图、辅助用户决策，也能够帮助商家推荐更符合用户喜好的产品。另一方面，很多公司在做数字人电商直播，端侧的大模型能力能够让商家在手机端实时渲染驱动数字人，与用户即时反馈互动。

高峰论坛中，嘉宾们也深入讨论了大模型的局限性。

李大海表示，大模型现在还有很多局限，仍处于早期阶段，在多模态、复杂规划、内容可控性等方面能力有待改善。与此同时，大模型能力增强的同时，意味着成本的增加，这让应用场景很受限制。

刘晓光也赞同要关注成本能耗的问题，现在大模型还是「大力出奇迹」的时代，未来模型优化提效和算力云端协同值得关注。大模型训练和推理都涉及大量的数据，这对个性化数据的隐私安全提出了新的要求，以及端测推理和隐私计算等技术的重要性。

郑波认为大模型技术上最大的局限是推理和规划的能力。在安全风险上，除了隐私安全，郑波还提到了虚假信息对社会的影响。在成本问题上，他认为两年内大模型成本会大幅降低，但是我们需要思考大模型是否能够带来足够多的价值。

大模型在安全风险上，也同样存在局限性。刘晓光提到了个性化数据被用于模型训练和实时分析的问题，这既需要保护隐私数据安全，也对端侧计算能力提出了要求。

CCF秘书长唐卫清表示，现在的大模型以平台类为主，知识范围大而全；当未来的大模型落到垂直领域时，跨领域知识如何区别和建立联系仍有待思考。

仇光在《数智商业技术的趋势和挑战》主题报告中提到，过去的数智商业技术的1.0时代本质上是基于统计分析或经验判断来提升投放效果。

仇光表示，结合了大模型的数智经营技术2.0时代，将具有新的三大特性：知识经营、基于AI的决策执行&因果推断和创造性的智能经营。

在生成式AI优化原有数字经营链路和模型的基础上，仇光也期待着AI Native能够给产品链路、工作模式等带来颠覆性的新范式。

他也提出数智商业技术的面临几个挑战，包括大模型浪潮迈入新阶段：从Pretrain到SFT、在线推理成为未来制约大模型应用的关键瓶颈、AI Native的数智经营范式仍然是一个开放课题等。

杜军平在《大模型赋能的电商大数据智能搜索与推荐》主题报告中，详细介绍了团队如何将大模型技术与电商领域应用相结合。

杜军平详细介绍了深层次特征提取、多模态语义理解和分析、深度学习和个性化建模等技术和最新研究进展。为此她总结道，大语言模型在电商大数据的精准画像、智能搜索、智能推荐等领域展现出了非常大的潜力。

— 完 —

(本文转载自量子位）