CNCC论坛分享 | “AI+海洋:海洋大模型何时到来?”
10月26日,CNCC2023“AI+海洋:海洋大模型何时到来?”技术论坛在沈阳举办。
10月26日,由CCF主办,CCF YOCSEF青岛学术委员会、中国海洋学会人工智能海洋学专委会承办的CNCC2023“AI+海洋:海洋大模型何时到来?”技术论坛在沈阳举行。本论坛从海洋大模型的构建、技术需求和落地应用三个方面凝练了海洋大模型的实现方法和路径,形成了有益结论和共识。
本次论坛由CCF YOCSEF青岛副主席、中国海洋大学仲国强教授和中国海洋大学蔡青副教授主持,邀请著名专家学者、企业技术负责人等嘉宾出席,围绕“海洋大模型”主题进行演讲,旨在促进大模型技术在海洋领域的研究和应用,探索海洋大模型的实现路线。
利用人工智能(AI)技术认识和开发海洋是实现我国建设海洋强国重大战略的必要途径。近期,大语言模型不仅引发了AI领域的新一波研究热潮,而且推动着AI快速向其他领域渗透。目前,海洋领域已积累了卫星遥感、无人机、浮标、声纳、水下光学等大量多模态数据,那么基于这些数据构建海洋大模型是否可行?有何困难?其落地应用会产生何种影响?本论坛主要对这些问题展开了深入研讨和思辨。
精彩回顾
在嘉宾致辞环节,中国科学院院士陈大可、加拿大科学院和工程院双院士张大鹏对本次论坛分别进行了致辞,陈院士认为虽然目前AI技术的发展如火如荼,但在海洋领域的应用还刚刚起步,这次论坛聚焦AI海洋大模型具有十分重要的意义,海洋大模型的开发还面临相当大的挑战,不仅需要更加高效的采集数据和使用数据,更需要跨学科合作发展新的AI算法。
张院士也同样认为要实现海洋大模型的构建,面临着一些技术瓶颈和挑战。首先,海洋领域的数据多样性和复杂性使得数据融合和处理成为一项艰巨的任务。其次,海洋环境的变化异常迅速,需要我们探索更加精准的数据采集和分析方法。此外,海洋大模型的构建还需要跨学科的合作,将人工智能与海洋科学深度融合,这也是一个不小的挑战。最后,两位院士都预祝我们的论坛圆满成功。
在引导嘉宾报告环节,南京信息工程大学海洋科学学院院长、人工智能海洋联合研究院院长董昌明教授做了题为《人工智能海洋学发展现状与前景》的报告。他回顾了海洋大数据的发展和人工智能在海洋学中的应用情况,特别是在海洋特征识别、海洋要素预报、海洋动力参数估算、海洋预报误差订正和海洋动力方程求解等方面,全面展示了人工智能技术在海洋学研究领域的优势和潜力。此外,他还介绍了海洋数字孪生和人工智能大模型两个新兴的研究热点,对未来人工智能海洋学的发展进行了展望。
国家海洋信息中心正高级工程师、网络通信部梁建峰主任做了题为《海洋环境大数据快速获取和智能分析》的报告。他的报告主要包括五个方面:首先,海洋大数据处理需要进行清洗提炼、标准处理、质量评估和不确定分析;其次,海洋数据可以从海洋环境、装备、管理主体、海洋活动、海上目标、基础地理、卫星遥感、网络资源和人文地理等方面获取;再次,海洋大数据特征包括4V和5H,其中4V指多源广域、多学科,多模态存在、多时效产生、巨大的数据价值,5H指强时空关联、高耦合、高变率、多层次性和高规律性;然后,海洋大数据智能分析包括海洋大数据分析预报与基于大数据和人工智能的海洋环境快速预报;最后,海洋云算力资源包括海洋信息通信一张网,海洋云平台算力基础设施和国家海洋综合数据库。
CCF青岛分部主席(2018-2021)、中国海洋大学信息科学与工程学部部长董军宇教授给了题为《海洋环境预报大模型初探》的报告。他从研究背景、发展路线、研究内容、研究结果和应用五个方面介绍了面向国家“没有通用的大模型,还未将AI气象和海洋服务方法变成基础服务”的需求,“缺乏个性化需求、个性化AI气象、个性化海洋的服务方法研究”的行业需求,和“没有气象大数据-AI平台-AI算法统一化气象和海洋生态”的行业生态需求,开展海洋预报大模型研究的经验。其研究成果获得了国际AI评论美国加州MarkTechPost的专门引述,并与Google GraphCast、微软Climax、华为盘古Weather等超级大模型相提并论。
中国科学院海洋研究所高级工程师李晓龙做了题为《AI与海洋浮游生物光学探测》的报告。他介绍了浮游生物数据的特点以及在浮游生物光学探测领域的研究进展。浮游生物可以通过船载和卫星光学遥感方式获取。目前反演方法单一,希望利用新型的方式来实现多要素反演,分析浮游生物全球分布。研究团队提出了DL-PPCE模型,可反演的种类达到17种。他介绍了自主研制的一个结合偏振成像和人工智能算法的成像设备:海探。该设备自主研发分孔径偏振成像系统,采集到浮游生物的成像,并利用人工智能方法对采集到的浮游生物图像进行分析识别,达到了非常高的识别率。
引导嘉宾报告环节结束后,开始了思辨环节,首先围绕第一个议题“目前的多模态海洋数据是否可以支撑海洋大模型的构建?”进行思辨。北京交通大学金一教授做了题为《多源多模态数据融合:关键技术与挑战》的报告。她表示交通行业支撑了国家经济的快速发展,但数据采集困难,如极端小样本的识别、异常样本的检测等。然后,他介绍了一些数据融合的关键技术,包括基于模态补齐和融合的跨模态目标检测、基于模态显著特征学习与交互的学习的目标识别、基于注意力机制的全局与局部内容感知行为识别、基于特征整合理论的特征选择行为识别等。
中国海洋大学聂婕教授做了题为《海洋多模态智能计算》的报告。她表示海洋科学大数据的来源包括观测数据、监测数据、计算数据、文献资料和计算数据,海洋科学大数据的多模态特性表现为多圈层耦合、跨时空演变和多尺度级联,人工智能的三种主流方法包括联结主义、符号主义和行为主义。海洋多模态带来的挑战包括经典算子不适用于混沌问题,数据驱动难以保证机理约束和单一模型难以再现组合规律。未来,海洋多模态智能计算将采用适合海洋科学计算的新算子,给数据驱动方法添加机理约束,采用多种模型嵌套组合的集成范式,以及实现数值计算和AI模型耦合级联,从而实现长时序稳定预报能力。
接下来,大家围绕第一个议题展开了激烈的思辨,聂婕认为模型大小不能作为判断是否是大模型的唯一标准。实际上,是否是大模型应该根据任务的实际需求来进行判断。例如,可以根据海洋本身的特点来进行模型的设计。李昕认为大模型在海洋领域的应用处于初级阶段,是全新的开始,还处于初步探索的阶段。大模型的引入和应用将进一步推进海洋环境预测等相关领域的进步。董昌明认为,基于文本的大模型已经有相关的一些应用,在海洋领域的应用实现海洋预报需要嵌入物理海洋约束。同时,需要关注绿色人工智能的问题,希望能有结合物理机制的新的海洋大模型出现。梁建峰认为,目前已经有了海洋数据开放获取平台,可以为海洋大模型的构建发挥一定的支撑作用。他认为,海洋大模型不应该是一个通用的大模型,而是一个面向专业领域的海洋大模型。从这个角度理解的话,目前的数据是非常充足的。聂婕进一步指出,在海洋科学里,在我们认知之外需要关注一些异常性,比如空间带来的异常性、不同圈层交互带来的异变以及突发情况。于彦伟认为,考虑到海洋领域的大模型构建问题,如何实现对海洋大模型复杂数据的有效表征是实现功能性大模型、预测类大模型的关键技术之一。
第二个议题是“海洋大模型的实现存在哪些技术瓶颈和需求?”中国石油大学(华东)副教授李昕给出了题为《大模型时代海洋研究的技术路径探索》的报告。他认为大模型在海洋领域的应用探索中,数据和算法是两大瓶颈。对于数据问题,需要进行数据标准化、质量与准确性、访问控制及隐私保护等相关处理。对于算法问题,需要关注如何利用物理约束驱动海洋大模型建设,算法的可解释性以及利用计算机视觉相关技术实现可视化。目前的一些相关工作包括海洋温盐预报、洋流预报、海表高度预报、海洋波高预测、海洋风场预报等。
青岛国实科技集团有限公司高级项目经理、高级工程师王成锐做了题为《超算平台助力海洋大模型发展》的报告。他认为大模型的组成包括数据资源作为底层基础,庞大算力资源作为支撑,人工智能框架作为应用支持,最终向上开展应用建设。大模型的应用场景包括以文本为主的通用型场景、海洋大模型场景等领域的大模型构建。算力问题包含以下几个方面带来的问题:算力的分布相对分散;算力芯片众多,然而不统一;应用支持不同;GPU禁售带来的算力短缺。可能的解决方案包括算力互联、共建生态、国产替代、智与算的全面互联等。
思辨过程中,赵建立建议深入思考大模型到底带来了什么,研究范式是什么,能解决什么传统方法不能解决的问题。董军宇认为,通用海洋大模型是努力的方向,但是很难,算力和数据是最大的瓶颈。可以从局部开始尝试,发现背后的物理/模式机制,找到一些新的现象,利用多模态的数据、超级算力等技术的支持,尝试形成通用海洋大模型。付先平认为,我们利用海洋大模型需要去完成一些利用机器、算法做比人做更好的任务。需要同步发展通用模型和专用模型的研究。一些大模型在专业领域的应用更有价值。可以尝试探索将海洋大模型分为海上应用的模型和海下应用的模型。
第三个议题围绕“海洋大模型的落地应用会给AI领域和海洋领域带来何种影响?”展开思辨。大连海事大学信息科学与技术学院院长、二级教授付先平给了题为《水下捕捞机器人关键技术》的报告。他介绍了研究团队在水下机器人开发方面的工作,以解决海洋养殖等领域的挑战,如浑浊的水和复杂的环境。目前,观测型“海鸥”号系列水下机器人已经开发出来,产品具有便捷性设计、水下成像清晰、大深度、双相机、水下目标尺寸测算、三机械轴灵活抓取等特点,可用于海洋养殖、海底资源调查和水下电缆监测等应用。
哈尔滨工业大学任冬伟副教授做了题为《文本引导的可控图像/视频生成及应用》的引导发言。他提到了海洋AI大模型领域可能需要关注的两个方向:一是海洋数据获取,二是大模型学习,还介绍了可控图像/视频生成的一些工作,包括ID可控的图像生成技术、空间可控的图像和视频生成技术以及语义可控的图像生成技术。最后,思考了基于定制化可控的图像生成方法的数据增广,并尝试在检测分割等领域应用,以及实现数实融合智能和基于预训练生成模型的零样本视觉理解任务等。这些可控的定制化的图像生成方法有望对海洋大模型的数据处理和应用提供帮助。
思辨过程中,仲国强指出AIGC也是海洋大模型应用的一个方向,如海洋图像或视频的生成。中国海洋大学贺佩兰认为在海洋方面存在数据敏感性的问题,海洋大模型的应用如何保障安全性是很关键的问题。梁建峰表示对海洋每个月都会做一次数据的非法利用监管。这里,用AI技术解决了部分海量数据带来的问题。这里对安全问题的处理,是采用物理隔离的方法,数据在安全专网中,很少量进入互联网。董昌明认为数字孪生海洋是非常好的理想与概念。现在大模型在拼算力,但也提出了绿色人工智能、适应性人工智能的概念。正在利用与物理算法的融合来填补资源浪费。周小伟认为从可信人工智能的角度,对于海洋领域来说,技术的可解释性非常重要。并提出了“在海洋大模型领域,生成的结果应不应该符合已知物理模型呢?应该怎么设计海洋领域的大模型?” 的问题。YOCSEF保定尹红涛认为针对于海洋大模型的落地应用,具有一定的颠覆性。我们对于海洋领域的研究还没有那么深,或者说我们研究了很多的规律,但是还没有明确,海洋大模型的应用之后可能会从规律上推断出一些新的规律或者说新的一些发现。付先平认为如何将地面的研究应用进海洋里,存在巨大发展空间和研究前景,呼吁更多人参与到海洋智能的研究当中。