在沉浸式多媒体应用快速发展的背景下,360度全景视频因其沉浸感和交互性受到广泛关注。然而,其庞大的数据量和复杂的用户交互行为对网络传输提出了新的挑战。已有研究通常依赖视口预测与图块化传输来提升带宽利用率,但存在预测精度波动和终端解码复杂度增加的问题。为此,报告提出了一种适应预测性能波动的图块切分动态调整机制,并将解码复杂度模型融入码率自适应决策,形成优化问题表述与高效求解方法。该方案在保证用户体验的同时有效降低了传输开销,为全景视频的高效传输与播放提供了新的思路。
沉浸式媒体业务已经成为未来多媒体业务的主要发展方向。近年来,全景视频逐步普及,成为沉浸式通信主要载体,可提供身临其境体验。全景视频覆盖广、分辨率高,产生数据量爆炸式增长,造成通信带宽供求矛盾日益尖锐;另一方面,人类观看全景视频的视场仅占全景区域1/10,存在大量感知冗余。为突破沉浸式通信带宽受限瓶颈,可从全景视频感知模型出发,开展全景视频感知、质量评价与压缩的研究工作。本报告主要内容包括:(1)基于深度模仿学习的全景视频视觉注意模型;(2)面向用户体验的全景视频感知失真度量方法;(3)带宽受限下全景视频压缩的质量优化方法。
高真实感的三维全景漫游通常依赖精准的三维建模,但在复杂工业场景中,非规整区域和设施的高质量建模仍面临挑战。为此,报告提出了一套基于虚拟视点合成的三维全景漫游系统,以全景视频为输入,结合多视点与深度信息生成虚拟视点图像,从而增强视点切换时的临场感。针对虚拟视点合成中出现的移动人体、空洞等问题,提出了基于实例分割和多视点信息的修补方法,有效提升了目标视图质量。该方法无需依赖高精度三维重建即可生成高质量的虚拟视点图像,为电网系统等复杂工业场景下的全景漫游体验提供了新的解决方案。
360度视频作为沉浸式虚拟现实体验的重要媒介,近年来受到广泛关注。报告聚焦视口预测技术并介绍了360度视频的基本概念、流式框架、球面到平面投影方法及视频编解码标准,并分析了其高网络资源消耗的原因,阐明了视口预测在流式传输中的关键作用。系统梳理了现有视口预测方法,介绍了相关注意力数据集及360度显著性检测技术,并比较了各方法的特点与局限。