成果推介:高性能端/云AI加速器硬件IP及其编译器的技术解决方案
发布者:余益发布时间:2022-10-25浏览次数:10
高性能端/云AI加速器硬件IP及其编译器的技术解决方案

AI处理芯片编译器框架及其芯片展示
1. 项目概况
人工智能和深度学习已成为当今最热门的领域之一,并在目标检测,图像分类,语音识别等任务上取得了前所未有的准确性。随着移动设备和物联网技术的发展,将深度学习算法部署在边缘设备上是一种趋势。然而深度学习有着计算量密集,存储需求大的特点,往往需要百万次的乘加操作和几十兆的权重、中间层结果的存储,对其在计算和存储资源受限的边缘设备上高效执行提出了挑战。为了解决上述问题,本项目实现了从上层软件框架到底层硬件IP的GDS实现的全套AI处理器相关技术的开发,包括支持各种AI算法及DSP算子(如FFT)的开发的编译器框架、支持RISC-V,ARM总线的可级联扩展的处理器IP及其版图实现,基于上述AI处理器IP及RISC-V核的集成处理芯片等。用户可通过集成相关IP设计实现高性能AI处理器芯片及其编译开发环境,相关 AI加速器IP通过FPGA及28nm工艺流片验证,关键性能指标如下:
2. 关键技术
1)设计了AI处理器配套的顶层编译器,支持包括Tensorflow, PyTorch, 飞桨到硬件IP执行指令的全套编译。2)IP在满足高精度和高能效比的同时,具有一定的可配置性。硬件功能和性能可根据用户需求进行配置调整,支持各类卷积神经网络,Transformer的加速部署, DSP(FFT,DCT,小波变换)等常用信号处理算子的加速实现。3)IP实现了数据片上压缩存储,显著降低数据带宽需求。具备和自研CPU如RISC-V或ARM处理器的集成方案和方法,可作为异构计算平台的独立IP进行适配,也可部署在FPGA板(如:xczu15eg, zynq-702,VCU-108)用于数字信号处理加速。
3. 应用领域和市场前景
本项目实现了端到端的AI处理器系统并替代部分DSP处理功能,可应用于各类边缘端信号处理设备。目前IP已被多个国内IC企业采用,并在28nm工艺上进行了流片量产。
如有合作意向,
请联系南京大学技术转移中心
025-89686645
sc@nju.edu.cn