《面向人工智能加速的智能异构计算系统关键技术及应用》

随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、天气预报、航天国防、科学研究等领域对大数据的高速传输及存储、高性能计算、低功耗等提出更高的要求,金融、政府信息化、教育、企业等更广泛的领域对上述技术的需求也迅猛增长。因此解决上述要求中存在的技术瓶颈问题对推动社会发展关键领域具有重大的推动意义。

该项目致力于高性能计算领域,在国际和国内相关研究基础之上,坚持自主创新,在技术上进行了深入革新,创新性的设计并实现了多种优化系统和装置。项目研究内容涉及高端服务器系统搭建、功耗管理、负载均衡、存储优化等方面。在具体技术上利用数据挖掘及深度学习技术,创造性的提出并实现了服务器的自动控制技术、异构集群下的负载均衡技术、以FPGA为控制中心的高速存储技术、硬件资源的异构协同并行计算技术等。对于提升国内乃至国际信息化应用水平、促进信息产业和现代服务业转型、加快产业结构调整、保持经济平稳发展具有十分重要的意义。

该项目的主要技术特点包括:

①研发了一套FPGA加速卡高速存储系统,以FPGA作为控制中心,集成了PCIe硬核模块的高速稳定的数据传输和DDR3存储模块的高速大容量缓存,具有较高的数据带宽和良好的性能,满足大容量数据的高效传输和存储的要求;提出了一种实现系统地址映射的方法及装置,简化了系统地址映射的流程,提高了系统的工作效率。②研发了基于深度学习的资源管理系统,对计算集群的资源进行统一的智能监控、调度及管理,具有支持多框架、全流程、高效智能的特性。③基于软硬件结合理念,研发了混合异构系统,提出了融合架构,采用高速互联技术,实现对软硬件资源和任务的智能化管理与调度,提高了系统的扩展性、灵活性和可重用性,有效提升数据中心的性能扩展能力、资源利用率,降低能耗。④提出了一种快速从大规模数据中筛选离群数据的方法,采用随机采样来减少参与计算的样本数量,采用并行计算来加速运算速度,解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题;提出了一种基于模糊积分特征融合的智能动态数据分级方法,可以提高数据分级的处理速度和准确性,提升存储效率。

该项目获得授权发明专利22篇,其他知识产权5项,发表论文2篇。解决了高性能计算领域中存在的一些技术瓶颈。项目产品浪潮NF5288M5(又名AGX-2)是面向智慧计算、高性能计算和视频加速应用的“AI超级计算机”,推出的顶级性能的新一代2U高度8GPU卡服务器,是全球密度最高、性能最强的AI服务器。已广泛应用于互联网、智能安防、智能交通、智能金融、智能医疗及智能制造等业务领域。截至2018年底销售收入近15亿元。

成果说明

AGX-2AI服务器NF5288M5支持在2U空间中8颗采用下一代NVLink?高速互联技术的GPU加速计算。搭载8颗配置32GHBM2高速缓存TeslaV100GPU的AGX-2在AI训练上实现了计算性能的进一步提升。新产品在模型训练的Batch_Size(批尺寸)设置拥有更大的弹性空间,有效解决深度学习线下训练中存在的内存限制问题,更好应对大数据集或高清图像文件的处理瓶颈,帮助计算性能提升可高达40%以上。同时,AGX-2具备拓扑的灵活性可支持NVIDIANVLink和PCIe两种GPU互联方案,采用

  1. 下载详细PDF版/Doc版

提示:为方便大家复制编辑,博主已将PDF文件制作为Word/Doc格式文件。