数据已经成为数字经济的核心生产要素之一,DT时代数据从传统共享演化为要素流通,流通是数据要素价值释放的重要途径,从而数字经济严重依赖于数据要素流通。数据要素流通的安全服务重点关注数据权属确定、权益转移、使用控制、争议仲裁等。当前,数据要素流通与安全保障技术滞后于应用需求,亟需面向数据多轮交易安全服务与个人信息保护的体系化解决方案,针对数据要素流通及其数据安全、个人信息保护等方面的新挑战,本报告介绍了数据共享与数据流通的本质差异、数据要素“六”准则、数据要素流通利用技术架构,着重剖析了数据安全、隐私计算、数据流通利用、数据增值服务等学术内涵,详细介绍了隐私计算、数据确权、可控可信交易、泛在流通控制、延伸使用控制、抗泄漏存证、低开销监测等技术进展及未来发展趋势,并展望了隐私计算在未来数据要素流通利用中的支撑作用。
随着大模型时代的到来,人工智能的发展迎来新一波的热潮,已成为世界各国新一轮的技术竞争点。然而,近年来人工智能安全事件频发,随着大模型能力的快速提升,人工智能技术被滥用的风险越来越高,比如深度合成内容导致网络诈骗和虚假信息传播,妨害社会安定与国家安全,亟需对人工智能系统进行安全评测并增强。本报告针对大模型时代人工智能面临的安全风险和挑战,介绍浙大网安在人工智能安全领域的系列工作,重点介绍人工智能安全评测平台、多模态深度合成检测平台以及多模态合成内容安全标识平台,致力于推动人工智能系统的安全可信发展。
融合目标数据的权属要素抽象、关键权属要素集合确认、确权系统参与的权属仲裁码集计算等机制,引入两方制衡的抗容毁机理,支撑数据容毁可仲裁确权;提出数据要素关键特征指标体系,融合先验知识库、多模态文档语义分析结果等因素,确立关键特征抽取,并通过持续迭代反馈修正机制保障关键特征集合的完备性;构建机器学习模型,对不同模态数据的相似度度量结果进行训练,自动化生成容毁阈值,支撑侵权判定。
在智慧城市、社会治理等复杂场景中,数据呈现出跨领域、跨层级、跨主体等跨域特征,给数据资源体系构建及应用生态带来了挑战,具体体现数据模型、查询方式、数据语义差异巨大。为了更好地支持数据要素高效共享流通,亟需进行高质量的数据融合。本报告将介绍跨域数据共享流通中语义融合的关键科学问题与核心技术挑战。
报告介绍数据元件的内涵、属性与数据元件技术体系,提出基于数据元件构建国家数据流通利用基础设施的技术路径与实现方式,通过数据抽象表征与新型分层计算架构,依托数据要素化治理与数据元件加工技术、数据要素安全合规技术与数据要素化流通技术,实施数据要素化治理,探索数据产权明晰、高效流通、标准化计量和市场化配置的数据要素化流通体系,打造数据元件互联互通的数据要素互联网,以数据金库、数据要素加工交易中心、数据要素互联网、安全可信数据空间为支撑,构建安全、高效、绿色、超低功耗的国家数据流通利用基础设施,促进数据要素合规高效流动。
大模型能力依赖于大量高质量语料,目前开源模型已经使用了10万亿量级的token。尽管互联网提供了远远超过10万亿token的语料,其中的高质量语料仍然需要通过复杂的数据清洗才能用于模型训练。大模型语料处理需要分词、语种判断、去重、质量判断等多个过程,是一个典型的Data + AI的处理过程,对底层的数据处理系统提出了很高的要求。本报告介绍诸葛弩大数据系统,通过兼容PySpark接口,并支持Python UDF的性能优化,可以有效支撑大模型预训练语料的清洗。