上传者: weixin_38668335
|
上传时间:2025/3/18 5:57:32
|
文件大小:714KB
|
文件类型:PDF
深度学习的异构加速技术(二):螺狮壳里做道场
本文来自于www.qcloud.com,主要以当前学术界在AI处理器构架方面的讨论为主,其次对一些流式处理及数据复用,片上存储及其优化等方面接受本篇文章。
在一文所述的AI加速平台的第一阶段中,无论在FPGA还是ASIC设计,无论针对CNN还是LSTM与MLP,无论应用在嵌入式终端还是云端(TPU1),其构架的核心都是解决带宽问题。
不解决带宽问题,空有计算能力,利用率却提不上来。
就像一个8核CPU,若其中一个内核就将内存带宽100%占用,导致其他7个核读不到计算所需的数据,将始终处于闲置状态。
对此,学术界涌现了大量文献从不同角度对带宽问题进行讨论,可归纳为以下几种:A、流式处理与数据复用B、片上
本软件ID:15461952