全球数字化转型新经济加速推进新数据时代,数据用途从记录、资产到信用演进为生产要素,对存储系统要求从存、用到支撑释放数据价值。浪潮存储数年研发积累,携主存储、分布式存储两种形态产品,在过去3年市场拓展快速增长、崛起国内Top3,新晋SSD供应商行列。本报告将回顾研发团队对数据到场景应用负载需求的步进认知,沉淀的存储系统技术规划和设计经历过的探索、选择的理念和方法,分享对未来企业存储产品演进的技术思考,存算融合还是分离、分布式扩展共享,以推进产学研合作。
低延迟高带宽商用NVMe SSD的出现和普及推动了新型键值数据库(KV store)的系统变革。然而,采用全新的硬件友好的数据布局或者将整个数据库全部扩展到SSD上面临着生态重建、数据迁移、投资增加等挑战。基于混合存储介质的健值存储系统SpanDB (发表在FAST 2021)由卡塔尔计算研究所与中国科大ADSL实验室联合研发,充分挖掘NVMe SSD+传统磁盘组合方案的极致性能,通过对RocksDB软件栈的适配性修改,在性能和经济效益之间实现最佳平衡。 SpanDB将日志(WAL)和LSM树的顶层数据放到容量小但速度快的NVMe SSD上,而庞大的LSM树底层数据保留在便宜且容量大的存储设备上(如SATA SSD/HDD等)。SpanDB设计了基于SPDK的高并发logging机制,大幅度提升了WAL写入带宽;增加了异步请求处理机制以减轻线程间同步开销、提高了轮询I/O效率;实现了前后台线程协同、动态搬层思想,充分利用了两种介质的带宽资源。实验表明,SpanDB将RocksDB的吞吐量提高了8.8倍,并同时将其延迟降低了9.5-58.3%。与完全采用高端SSD的系统KVell相比,SpanDB以更便宜的存储配置实现了96-140%的吞吐量,且延迟降低了2.3-21.6倍。
非易失存储器的蓬勃发展是近年来计算机系统变革的重要因素。NAND Flash的出现已经完全改变了海量存储的格局,其后出现的多种非易失存储器正在模糊内外存边界,成为计算机系统结构创新的主要驱动力之一。本讲演从三个视角对非易失存储器进行观察与思考,以期得到一些基础性和方向性的认识。第一个视角是香农视角,将其创立的信息通讯理论向时间维度扩展为信息存储理论,利用建立的具有噪声的时间信道模型对非易失存储器的性能特性进行梳理。第二个视角是图灵视角,以形象思维的方式看图灵机模型对存储的需求,并从性能平衡的角度分析非易失存储器对计算机系统结构变革带来的影响。第三个视角是自然视角(或者称上帝视角),通过窥视和借鉴大脑和生物系统原理,希望对基于非易失存储器的系统结构变革和创新带来启示。
Memory disaggregation is a promising technique in datacenters with the benefit of improving resource utilization, failure isolation, and elasticity. Distributed hashing indexes have been widely used in memory systems to provide fast lookup services. However, traditional distributed in-memory hashing indexes become inefficient in disaggregated memory since the compute power in the disaggregated memory pool is too weak to execute complex index requests. To provide efficient indexing services in disaggregated memory, this paper proposes RACE hashing, a one-sided RDMA-Conscious Extendible hashing index with lock-free remote concurrency control and efficient remote resizing. RACE hashing enables all index operations to be efficiently executed by using only one-sided RDMA verbs without involving any compute resource in the memory pool. To support remote concurrent access with high performance, RACE hashing leverages a lock-free remote concurrency control scheme to enable different clients to concurrently operate the same hashing index in the memory pool in a lock-free way. To resize the hash table with low overheads, RACE hashing leverages an extendible remote resizing scheme to reduce extra RDMA access caused by extendible resizing and allow concurrent request execution during resizing. Extensive experimental results demonstrate that RACE hashing outperforms state-of-the-art distributed in-memory hashing indexes by 1.4~13.7X in YCSB hybrid workloads.
在大数据时代,数据规模快速增长,因此模型简单、扩展性强的键值(Key-Value)存储在近些年已经成为现代大数据系统基础架构的一个重要组成部分。键值存储系统在很多领域获得了直接的广泛应用,如任务队列、流处理引擎、应用数据缓存、机器学习等;也作为图存储、文档存储、关系数据库的基础存储引擎,如Nebula Graph、MangoDB、MyRock、TiDB、CockroachDB等。分布式键值存储系统一般可以分为混合存储层、键值引擎层和分布式共识层三个层次,本次报告系统介绍基于NVM、SSD、瓦记录磁盘等新型存储介质,在这分布式键值存储系统的这三个层次开展的一系列优化研究和系统研发工作。
当前,GPU云(GPU Clouds)已经成为用户使用GPU计算的一个流行的解决方案。为了保护用户隐私和应用安全,许多云安全架构采用虚拟机隔离方法来防护不可信的hypervisor对租户虚拟机潜在的攻击,以确保用户应用程序的安全执行环境。本文中,我们使用深度神经网络作为GPU云租户虚拟机应用,研究了GPU芯片的硬件故障对云的可信执行环境安全的影响。我们发现,通过软件调控芯片动态电压和频率(Dynamic Voltage and Frequency Scaling, DVFS),可以产生GPU的瞬态硬件故障,这些故障可能绕过目前的安全措施导致计算错误,但由于DNN模型具有一定的鲁棒性和容错性,随机的故障对DNN的推理准确性影响有限。为了充分利用这些瞬态硬件故障,我们提出了闪电(Lightning)攻击,通过基于梯度下降的模型搜索算法寻找最佳故障注入点,并提出基于遗传算法的最佳故障注入参数搜索策略提高故障注入效率,完成在DNN模型上的高精度故障注入。我们在三种商用GPU芯片和四种DNN模型上的实验表明,该攻击可以使模型的推理精度降低高达78.3%。并且可达到67.9%的成功率进行模型的定向攻击。这表明,GPU云需要更加安全的隔离架构以应对瞬态硬件故障带来的潜在安全挑战。
Arm架构的嵌入式追踪宏单元 (Embedded Trace Macrocell, ETM) 为微处理器提供实时指令跟踪和数据跟踪。本报告讲述用Arm ETM来帮助构建以下两个分析系统:(一)“忍者”系统是用来提高恶意软件分析的透明度;(二)“穿着夹克的鳄鱼”系统是用来分析并发错误的根本原因。
内存是计算机系统最重要的资源之一,对内存使用进行记账和限制是所有操作系统的核心功能。然而,正确地实现内存记账是十分有挑战性的,因为这需要准确的记账策略设计以及正确的代码实现。Linux内核上的内存记账因其复杂的内存管理、众多的内存申请/释放接口和大量地内存申请/释放执行路径而变得尤其复杂。所以尽管内存记账很重要,但较为容易引入各种错误,其策略设计和代码实现往往存在问题。然而目前对内核内存记账并没有系统性的分析。我们在这篇论文中提出了首个针对Linux内存记账的系统性分析。首先明确了内存记账的过程,并定义了内存记账过程中可能出现的问题。在此基础上,我们通过实验对内存记账策略设计的缺陷进行研究。我们进一步实现了一个基于LLVM的静态分析工具,对内存记账的代码实现进行了彻底的分析。我们的分析显示目前Linux内存记账的策略和实现均存在问题。对于记账策略,我们的实验分析找到了四处缺陷,这些缺陷会引起记账过多,记账缺失甚至是能耗尽系统内存的拒绝服务攻击。这些缺陷对客户和计算资源的供应商(如云服务商)都会造成损失。对于代码实现,我们的工具识别出多达350处未被记账的内存申请,其中41处已经被确认为可以触发的记账缺失。
矽璓工业物联操作系统(XiUOS)是为了提升制造业数字化、网络化、智能化的水平而研发的面向工业场景的、宏内核架构的操作系统。XiUOS支持多种体系结构的硬件平台,本报告主要介绍XiUOS如何在K210、FE310、QEMU等RISC-V结构的硬件平台上进行系统启动、任务调度、任务隔离、中断管理、内存管理、外设管理以及应用案例等。