12月20日,雷锋网主办的AIoT+智慧城市峰会在深圳举行,峰会上清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授分享了他对AI算法如何在物联网设备上实现AI功能的看法以及超高能效AI芯片的最新进展。尹教授认为,未来计算架构的创新将是实现无处不在的AIoT的必然途径。
IoT AI芯片需要解决的核心问题
今天讲到的AI,其核心技术是深度学习,深度学习背后核心技术基础是神经网络。如今已被我们广泛的AI应用,如语音助手、以图搜图,其核心计算大部分都在云上完成。随着物联网场景的拓展,在很多场景中考虑到通讯延时、设备供电以及个人隐私的问题,需要在IoT终端以及传感器上实现AI计算。
清华大学微纳电子系副主任、微电子学研究所副所长尹首一教授
国际产业巨头,如谷歌、ARM等,均一致认为,未来的AI计算一定是分布式、分层次、分等级的综合系统,这将催生巨大的深度学习芯片市场。据美国Tractica咨询公司的统计和预测,2016到2025年这十年间深度学习芯片市场将飞速增长,到2025年市场规模将达到近700亿美金,其中会有近400亿美金的芯片应用在各种移动设备、机器人、无人机、消费电子、可穿戴设备等IoT领域。
不过,尹教授指出,要满足IoT设备对AI的需求,需要解决的最核心的问题就是AI算力需求和IoT场景供电能力之间的巨大反差。
尹教授进一步表示,许多IoT的应用对芯片功耗有非常严格的约束,比如我们每天使用的智能手机,用户希望随时随地能够语音唤醒手机、通过语言做自然交互,这就需要手机在具备智能语音识别能力的同时还不影响手机续航。这样的AI计算所能容忍的功耗上限大概是1-2毫瓦,否则手机待机时间就会受到影响。此外,在智能家电、智能眼镜、无人机等场景下,AI计算也面临非常严苛的功耗约束。这就是实现未来AI+IoT愿景所必须解决的问题,如何在这些苛刻的功耗约束下实现超高能效的AI计算。
AIoT的AI芯片必须满足的3个条件
尹教授指出,从应用以及用户体验的角度出发,要实现满足AIoT需求的AI芯片必须满足三个条件:
第一, 可编程性,只有具备可编程性才能满足不同IoT场景下的不同AI算法的需求;
第二, 对计算密集型和访存密集型算法都非常友好,因为今天的AI算法就具备这样的特点;
第三,超高能效,某些场景下我们希望芯片能耗是毫瓦量级,有些场景甚至需要微瓦量级才能满足长时间的IoT计算需求。
超高能效AI计算芯片的进展
目前从AIoT芯片发展来看,大家正在从两个不同的维度(算法和架构)努力实现超高能效的AI计算。算法层面努力的方向是让深度神经网络模型更加紧凑。尹教授介绍,2016年开始看到学术界有很大的进展,目前已经能够把神经网络的权重位宽压缩到1bit,使网络模型实现十倍甚至几十倍的缩小。
更值得注意的是,从统计看,在极低位网络中,即便把网络压缩到1-2bit,精度仍然接近于全精度神经网络。最新成果显示,用压缩后的神经网络做检测和识别时与全精度神经网络误差只有1个百分点左右,这个差距在绝大部分的应用场景已经可以忽略不计。
除了算法层面,许多科学家在探索如何从计算架构的角度实现更高能效的AI计算,从2014年开始到今天,学术界和工业界提出了很多AI计算架构方案。但是在未来IoT场景里,目前提出的计算架构仍然难以平衡可编程性、超低功耗和特殊网络模型的需求。
从2015年开始,一种新型计算架构,Coarse-grained Reconfigurable Architecture(CGRA),获得国际学术界和工业界的广泛关注。 2015年《国际半导体技术路线图》(ITRS报告)将其视为未来大有希望的可编程计算架构。2017年美国国防部高级研究计划局(DARPA),为了保证美国未来仍然能保持国际电子信息领域的领先地位,发起了“电子复兴计划”,该计划大力布局一项被称为“软件定义硬件”的研究计划。这项计划所研究的是“运行时快速重构”的硬件架构,也就是前面提到的CGRA架构。
就在前几天宣布“开源MIPS指令集”的Wave Computing公司,雷锋网在《Wave Computing将于明年提供免费MIPS架构,MIPS能在AI时代崛起吗?》一文中也进行了介绍,其AI芯片的技术来源就是CGRA。CGRA之所以受到广泛关注,正是因为可重构架构能够实现比CPU、GPU、FPGA更高的能量效率,同时还具有良好的可编程性,可以很好满足AIoT的需求。
可重构芯片的实现
尹教授介绍,清华大学可重构计算团队最早从2006年开始关注可重构架构。过去十多年时间在可重构架构的基础理论上做了很多探索性的工作。2015年开始,将可重构架构应用在AI计算、神经网络计算场景,并设计了Thinker系列AI芯片。
具体而言,Thinker系列AI芯片区别于传统处理器使用指令级可编程性的技术路线,在核心运算部件、基本处理单元和处理单元阵列等三个层次上实现了硬件可重构能力。比如在基本的乘法累加部件里实现不同位宽的自适应,很好地支持超低位宽的神经网络;在基本处理单元层面实现电路级重构,支持神经网络中的不同算子;在处理单元阵列实现架构级重构,支持不同类型的神经网络。
从2006年开始尹教授的团队已经设计了三款Thinker芯片,其最高能效可达每瓦十万亿次运算,最低功耗可达微瓦量级,可以嵌入到任何一个需要AI计算但电池有限的IoT设备中。
回顾过去30年间处理器的发展历程,处理器的性能提升得益于半导体工艺进步和计算架构创新的双轮驱动。但随着摩尔定律放缓,半导体工艺的提升越来越有限。尹教授表示,去年图灵奖获得者是两位计算机体系结构的大师John Hennessy和David Patterson,他们在图灵奖的获奖感言里提到,今天是计算机体系结构的新的黄金时代。这句话很好地诠释了未来我们的技术创新和产业发展应该落脚在哪里。