返回首页
您的位置:首页 > 会员活动

CCF青岛分部成功举办了“海洋大数据智能分析研讨会”

阅读量:0 2025-07-18 收藏本文

2025712日,由中国计算机学会主办,CCF青岛分部CCF YOCSEF青岛学术委员会和山东省人工智能学会视觉应用与智能技术SDAI-VAIT专委会协办海洋大数据智能分析研讨会中国海洋大学西海岸校区成功举办。

本次研讨会邀请了南京信息工程大学张荣华教授、中国海洋大学聂婕教授、浙江大学张宁豫副教授/特聘研究员(“OceanGPT(沧渊)海洋大模型主要参与人)和中科院海洋所杨楠助理研究员(琅琊大模型总技术负责人)做引导发言,中科院自动化所赵恺副研究员、青岛励图高科信息技术有限公司张俊虎博士(大模型研发负责人)、中国海洋大学崔英哲博士(问海大模型主要参与人)担任思辨嘉宾。

CCF青岛秘书长王胜科CCF青岛执行委员李昕、仲国强,以及来自北京、济南、西安、兰州、重庆、武汉、厦门、长沙、广州、杭州、大连、长春、哈尔滨等地高等院校、科研院所和企事业单位的专家学者参加了本次研讨会

活动背景

海洋在全球生态、气候调控及国家战略中至关重要,是资源宝库与科学前沿。近年来,问海”“琅琊”“羲和”“OceanGPT”等海洋大模型的兴起,为高分辨率环境预报、灾害预警、智慧渔业及智能航运等应用带来新机遇,有望推动海洋科技新变革。然而,海洋大模型产业落地应用仍面临严峻的数据共性难题,包括稀疏高噪声的观测瓶颈,以及通用性与多场景专用化之间的适配难题。本此研讨会聚焦海洋大模型的典型落地实践,通过对数据现状的深刻洞察、对未来数据生态的战略擘画、以及对技术实现路径的前瞻探索,汇聚跨界共识,激发体系化创新,形成一套可复制、可推广、聚焦数据处理的海洋大模型应用方法论,为海洋科学研究与蓝色经济发展提供理论支撑与技术指引。


会议概况

本次研讨会分为引导发言和思辨讨论环节。在引导发言环节,四位嘉宾围绕海洋科学发现与海洋大模型研发的技术进展与挑战进行了深入分享;在思辨讨论环节,嘉宾与参会者针对关键议题展开热烈思辨,现场气氛活跃,观点交锋不断。

学术报告环节

报告一:南京信息工程大学的张荣华教授做了题为《物理驱动与数据驱动相融合的海气耦合模式研发及其对 ENSO 的模拟》的报告。他系统梳理了从传统中间型(ICM)、混合型(HCM)到全耦合 GCM 的物理模式体系,并与最新的深度学习(DL)方法逐一对比其建模原理、过程表征、时间积分与可解释性差异,指出单一范式难以同时兼顾物理一致性与预测精度。围绕这一痛点,他提出深度融合思路:在大气侧利用 U-Net 训练获得的海表风应力模型替代 ICM 中的经验统计模块,在海洋侧以动力框架承载耦合反馈,形成 ICM-UNet;进一步将 AI 风场与 ROMS 环流耦合,构建 AI-HCM。实验显示,该混合模式显著降低了模式误差并准确再现多种关键特征。随后,张教授展示了以深度前馈网络重构上层海洋剪切湍混合参数化的最新成果,验证了物理启发 + 数据驱动在气候模式误差订正中的潜力。报告最后强调,未来 ENSO 预测需依托多层级耦合模式与 AI 的互补优势,打造高效、稳健且透明的混合建模框架,以支撑次季节到年代际气候服务。


报告二:中国海洋大学聂婕教授做了题为《从可计算系统到大语言模型:面向海洋环境智能预测新路径》的报告。她在报告中回顾了海洋科学范式从观测-建模-仿真数据-知识-模型三位一体的跃迁,并围绕两大核心议题展开:(1) AI 如何提升物理驱动可计算系统的完备性——针对中尺度以下物理-生物相互作用认知薄弱的问题,提出数值流+神经网络流双流异构嵌套架构(DP-BICNN),通过热量收支方程嵌入物理约束并用 ConvLSTM 补偿非物理过程,在渤海、东海、南海 SST 预测中整体优于九种基线模型;(2) 语义级知识计算能否替代物理数值计算——构建特征工程-Reprogramming-Prompt”三段式框架,引入大语言模型执行显式推理,初步验证了在中国近海显著波高 > 2 m 预报中相较 Conv-LSTMFNO 等方法精度大幅提升。报告最后强调:物理规律仍是可解释、高效“AI4Science”的基石,大语言模型凭借融合感知与通用认知将成为决策-预测大脑,而大小模型协同则是未来海洋智能预测的关键范式。


报告三:浙江大学张宁豫副教授以《OceanGPT:沧渊海洋基础大模型》为题,介绍了面向数字海洋与人工智能国家战略需求的 OceanGPT 研发历程与技术框架。团队历经 OceanGPT-1 OceanGPT-2 两个阶段,构建了基于 MoEMixture‐of‐Experts)架构的多子模型体系:OceanGPT-basic 专注海洋专业问答,OceanGPT-omni 实现声---磁等海洋特色多模态数据与自然语言对齐,OceanGPT-coder 则面向水下机器人操控与具身智能。为强化专业知识,研究人员通过 KAG 知识增强框架与海洋知识图谱,在后训练阶段对小参数 SFT 模型进行微调,使模型在推理和问答中具备更深的海洋语义理解力。报告展示了一句话生成 MOOS 任务代码的实践:大模型能够自动生成并下发水下机器人指令,将编码效率从小时级压缩至秒级。此外,OceanGPT 已在海洋渔船态势分析、水下多机器人协同等场景落地。他还指出,大模型在海洋具身智能中仍面临三大挑战:缺乏高保真世界模型以支撑复杂物理交互、幻觉生成难以完全规避,以及受限带宽的水下通信亟需高效协同机制。未来,团队将持续迭代模型能力,并通过 MCP 协议实现多机器人协作,推动海洋智能感知与作业迈向更高水平。


报告四:中国科学院海洋研究所杨楠助理研究员做了题为《挑战与展望:琅琊海洋大模型-跨时空尺度全球海洋状态变量及现象预报》,以琅琊海洋大模型回应海洋大模型滞后于气象的现状,针对自回归误差累积、海气耦合表征不足、训练不稳和跃层预测精度低四大痛点,提出包含 Time-Embedding 时间先验、大气驱动异步交叉采样、余弦注意力稳收敛、温跃层自适应损失 的 v1.0 框架。模型在 1/12° 分辨率下一次性生成 7 天全球 3D 温盐流场,并以 ERA5 GLORYS12 为输入对比四套权威数值系统(FOAMPSY4GIOPSOceanMPAS),在温度、洋流等指标全面领先且推算速度快近万倍。误差空间分析显示高精度集中于公海,大尺度现象(黑潮、阿古拉斯流)拟合度显著提升。未来版本将扩展至 30 天多帧预测、支持观测/模式混合驱动,并打造面向涡旋、台风、海浪等现象的多任务生态与国际 Benchmark,惟有算力仍是将来卡点。


思辨环节

在思辨讨论环节,嘉宾和观众们围绕以下三个议题展开激烈讨论:



议题一: 海洋大模型落地存在哪些共性数据挑战及应对锦囊?

中国科学院自动化研究所副研究员赵恺首先做了思辨发言,他指出海洋基础模型(MFMs)在全球海洋监测与预测领域正崭露头角,但其在实际应用中却面临着诸多数据瓶颈。与陆地AI任务不同,海洋环境的特殊性带来了数据获取的固有挑战:观测成本高昂、覆盖范围稀疏,且易受地理和天气条件限制,导致历史数据常有缺失。更复杂的是,不同观测平台的数据在时间和空间分辨率上差异巨大,使得多源异构数据的整合与对齐变得异常困难,而数据中的噪声和系统性偏差在模型预训练阶段还可能被放大,严重影响模型性能。

嘉宾们围绕海洋大模型落地存在哪些共性数据挑战展开了讨论。为了克服特殊海洋环境造成的数据难题,研究者们正积极探索多元化的应对策略。针对数据稀缺性,他们尝试将海洋动力学方程等物理约束嵌入深度网络,这就像是让模型在数据不足时也能遵循海洋的物理法则,确保预测的准确性。同时,为了有效地整合来自遥感、浮标和声呐等不同来源的数据,研究人员正在开发统一的跨模态编码器,将这些异构信息映射到同一个语言空间,从而获得一致且完整的海洋特征表征。此外,合成数据也成为一个重要突破口,通过数值模拟和3D渲染生成高保真样本,并结合实际实验进行校准,形成真实模拟仿真互补的数据闭环,以弥补高质量观测数据的不足。除了数据本身的挑战,数据安全与隐私保护在海洋场景中也尤为关键,尤其当数据涉及敏感海域时。为此,联邦学习和区块链溯源技术被引入,这使得各方能够在数据不离开本地的前提下进行模型联合训练,同时还能追踪数据和模型的完整版本链路,有效解决了合规性问题。考虑到实际部署的需求,轻量化模型与低功耗海上AI芯片的结合也至关重要,这些技术能够显著降低推理延迟,使得早期预警和目标检测等任务能在海洋边缘侧设备上实时高效运行。

与会专家们在讨论中达成了一定共识,海洋大模型的发展不能简单复制陆地AI“规模即正义的思路,而需要一套针对数据知识安全的全链条治理方案。未来建设高可信数据基准、制定统一的预处理及插值工具、发展物理约束型生成技术,以及构建安全可控的联邦学习生态,都将是推动海洋大模型真正落地的关键。

议题二:多场景海洋大模型的数据底座构建策略

青岛励图高科信息技术有限公司的张俊虎博士首先做了思辨嘉宾引导发言,他以公司研发的北冥智渔海纳千帆浩海气象等垂直大模型为例,分享了企业在构建海洋大模型时面临的算力与数据挑战,并探讨了松耦合架构在垂直领域大模型探索中的应用,即通过小模型处理特定任务,再将输出整合到大模型中,并结合知识库以减少幻觉现象。

与会嘉宾就大模型在海洋领域的战略定位及其数据支撑展开了深入讨论。大家首先厘清了大模型并非单纯追求参数规模的庞大,而更应强调其跨任务、跨场景的普适性与迁移能力。若仅为解决局部问题,参数规模更小、推理速度更快的轻量级模型无疑更具经济效益。然而,当目标涵盖渔业、港口监管、灾害预报乃至资源勘探等多元海洋场景时,则需要构建具备泛化能力的大模型。这两种思路并非相互排斥,而应根据具体的应用范围和算力约束灵活选择。

围绕大模型需要怎样的数据底座这一核心问题,与会者形成了相对清晰的轮廓。理想的数据底座应覆盖多元场景和多模态信息,既包含图像、视频、传感器流和AIS轨迹等客观观测,也囊括文本语义和领域知识,以确保模型既懂客观世界,又懂人类话语。 数据的准确标注、统一格式以及时空尺度的精确对齐至关重要,因为不匹配的多模态数据融合极易引入噪声并影响模型性能。此外,考虑到海洋数据,特别是涉及专属经济区和企业机密的敏感信息,联邦学习和隐私计算被视为实现数据安全共享的可行路径。

专家们在激烈讨论后认为一味追求包罗万象的通用型超大模型既不现实也非必要。更务实的路径是分阶段、模块化地构建领域级基础模型。首先,可以在海浪、台风、赤潮等表象不同但机理相关的任务之间,探索共享特征提取器或知识共性,从而在相对较小的模型规模下,实现跨场景的知识迁移和普适能力。在此基础上,通过高质量、多模态且可共享的数据基准与知识图谱的持续积累,逐步实现多领域拼图式的扩展。同时,结合模型剪枝等轻量化技术与边缘计算芯片的部署,确保系统能够在弱网络环境下实现实时运行,真正推动海洋大模型从概念走向实际落地,为智能养殖、海事监管和灾害预警等多元海洋应用提供协同支撑。



议题三:通用海洋大模型数据底座的锻造路径

该议题聚焦于支撑多场景通用海洋大模型的数据底座如何构建。中国海洋大学崔英哲博士作为思辨嘉宾,分享了他对问海智能海洋预报模型研发的思考。他指出,由于海洋领域涵盖范围广阔,从海洋现象到海洋科学,各子领域的机器学习模型尚未完全成熟,因此实现多场景一体化的通用大模型尚为时尚早。他强调,与其急于构建万能模型,不如先在海洋预报这一核心场景中,通过融合资料同化方法与智能预报模型,实现可验证的业务化闭环,并以此为基础,逐步建设自主可控的数据底座。当前观测网络稀疏且模态异构,数值模式虽可填补空白,却受离散误差和边界条件不确定性掣肘;依赖国际中心提供的初始场与强迫场显然不具备可持续性。因此,他主张以观测模拟同化三类信息为骨架,辅以深度学习物理方程融合方法在线校正偏差,先在浪高、海温等单一变量上验证,再扩展至台风与赤潮等复杂过程,从而逐步生长出可迁移的通用特征基座。

与会专家进一步聚焦数据底座的内涵与锻造路径。传统数值模式虽可借助资料同化生成物理场,但受限于可预报变量的种类与分辨率,难以支撑复杂、多变的海洋过程。因此,借助人工智能扩展可预报要素维度,并根据场景对数据进行分层管理,成为共识做法:通用知识型大模型负责提取统一表征,领域专用模型在此基础上做精细推理。青岛励图高科的张俊虎以北冥智渔”“海纳千帆等垂直模型为例,说明松耦合多模态底座如何通过融合图像、文本、视频与传感器数据,配合知识库减少幻觉,从而实现小模型难以企及的功能广度。张宁豫教授在水下声呐实验中发现,仿真与实测数据按权混合并持续在线调优,能够显著缩小模型在真实海域的性能缺口。刘起东则提出,大模型理想应具备主动获取与再分析数据的能力,而非完全依赖人工喂养;周小伟补充,底座既可表现为数据集合,也可凝结为模型或显式知识图谱,关键在于提炼可跨场景共享的统计规律与物理约束。

讨论最终形成初步共识:通用海洋大模型的锻造不应期望一蹴而就,而应采取循序渐进的策略。首先,应聚焦于特定任务领域,锻造其基础模型及其配套的数据底座,例如在短期浪高预测中,以再分析场提供三维骨架,观测数据作为真实性锚点,通过深度学习或差分方程混合网络学习误差映射,并逐步将该框架迁移至台风、赤潮等相邻任务,以验证模型在不同动力过程中的泛化能力。其次,数据底座的形态不必拘泥于原始数据仓库,它可以是经过同化处理的一致表征,高保真仿真或合成样本,乃至显式结构化的知识图谱。关键在于能否提供跨场景共享的统计规律和物理约束。最后,只有建立质量可追溯的数据治理体系,才能确保底座稳固并支撑后续算法迭代。通过模式同化、仿真增强以及隐私联邦等技术,通用海洋大模型的落地将沿着场景验证数据闭环模型扩容的路径渐进推进。


结语

最后,CCF青岛执行委员、YOCSEF青岛主席仲国强对本次研讨会进行总结,感谢大家对CCF青岛分部和YOCSEF青岛的支持!他指出,CCF青岛和YOCSEF青岛曾举办过一系列“AI+海洋方面的学术研讨会,探讨AI与海洋结合的可能方向,特别是大模型兴起以来,前瞻性地讨论和分析了AI与海洋交叉学科领域的技术发展方向和演进路径,此次研讨会偏重于海洋数据方面,也正是海洋大模型发展的关键所在,希望在本此研讨会能够促进海洋大模型的加速落地。