对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路
2021年的AI芯片圈,“大算力芯片”无疑是热度最高的话题之一。这个由英伟达、英特尔等半导体巨头执掌的赛道,正有一批创业新秀摩拳擦掌。在产业界,吴强已经历练了大约20年。他经历过CPU和GPU的鼎盛时期,见证过互联网巨头的崛起,也曾亲临人工智能新一股浪潮爆发的前线。从AMD的GPGPU/OpenCL创始团队核心成员、Facebook总部资深科学家,到国内知名AI芯片独角兽公司技术副总裁和CTO,他经历了一次次身份转变,在2020年底踏上新的创业旅程。这次创业,吴强思忖已久。此时的云端及边缘计算领域略显拥挤:高举“国产替代”旗帜的GPGPU赛道,已经聚集了一只手数不过来的创企。吴强不想做同质化的事。在他看来,颠覆性的新兴技术,才能真正带来赶超巨头的机会。由他创办的后摩智能,在国内率先提出基于存算一体,做面向边缘端及云端推理的大算力AI芯片。创立不满一年,后摩智能已完成两轮数亿元融资,并于今年8月完成首颗核心技术验证芯片的设计。在近日的深入交流中,吴强告诉芯东西,其首颗样片已投片送测。他希望后摩智能的选择,能让中国AI芯片成功的概率,变得更高一点。01.未来15年,必有AI芯片超越英伟达GPU20世纪90年代末到本世纪初,奔腾(Pentium)系列高性能处理器横空出世,翻开英特尔辉煌的篇章,由此连续10年主宰全球PC处理器市场。许多伟大的研究论文也开始层出不穷。那时,正在美国普林斯顿大学计算机科学博士学位、研究计算架构和编译器的吴强,被英特尔搅动的PC风云所触动,对芯片行业心向往之,先是进入英特尔参与研发高性能计算处理器安腾,随后加入AMD转向GPGPU研究。经历几波科技浪潮,吴强总结出一个规律:技术永远是被需求驱动的,而人工智能(AI)是新一轮芯片热潮爆发的根本原因。早期从DOS到Windows操作系统,对速度要求很高,如果不换智能机,软件跑不起来。底层芯片的快速迭代推动了很多伟大的工作出现。但后来随着PC市场开始饱和,很难再出现颠覆业界的新软件。到2009年左右,芯片行业已经陷入低潮。PC产业被连年唱衰之际,互联网企业却在争议中走到了历史舞台的中心位置,通过网络不断吸纳海量数据,带动起全球的流量风暴。吴强意识到,PC市场对算力的需求越来越弱,而大数据、并行计算、高性能计算的需求之门正被互联网企业开启。他转而进入Facebook,亲历了这家企业从数百人的创企成长为科技巨头,直至2017年,芯片行业因为AI的方兴未艾,再度涌动起创新的热潮。“AI的出现带动了所有算力的需求。”吴强说,因为智能化符合人性,没人喜欢苦累繁复的工作,他坚信AI普及会是大势所趋。AI对算力更大的需求,驱动了芯片产业的变化。“所以,我一定要做AI芯片,因为它有需求,有需求就有发展。”伴随着AI兴起,一家美国芯片公司开始飞升,它就是AI训练加速市场的霸主——英伟达NVIDIA。英伟达是第一家、也是迄今最成功的AI计算芯片公司。在2006年以前,英伟达更多是作为游戏显卡龙头享誉全球,解决了GPU统一编程难题的软件平台CUDA横空出世,并在数年后与GPGPU联手,成为AI技术革命的核心燃料。乘上AI东风的英伟达,股价一路走高,如今最新市值已逾8000亿美元。吴强从2006年就开始接触和研究英伟达产品,对CUDA和GPGPU架构设计有深入理解。现在主流的AI计算源自GPGPU,而GPGPU源于图形处理单元GPU。GPU本来用于做图形渲染,渐渐地,研究人员开始尝试让它做非图形相关计算,由是出现general purpose GPU,即业内常说的GPGPU。但第一个成功的路线,就是最好的路线吗?“不一定。”在吴强看来,英伟达的成功存在一定的历史偶然性,“我们需要回答的问题是,我们能不能做出一个更符合AI计算特性的东西来。”他坦言,这条路必然充满挑战,但如果放大时间维度,看向未来15年,一定会有人能做出来。02.大算力芯片时代到来,政策加码、资本涌入“挑战英伟达”,凡是站定AI芯片赛道的初创公司,几乎都会喊出这样的口号。但在英伟达极厚的软件生态壁垒面前,即便有些海外创企已经大牛如云,至今仍在挑战英伟达的道路上步履维艰。不过,中国正迎来新的时运。从2018年开始,持续不断的中美贸易摩擦将芯片半导体这一信息产业“软肋”推至风口浪尖,国产替代的号角吹响,资本开始倾注各个“卡脖子”的关键赛道,许多行业老兵选择跳入创业的汪洋。吴强亦是如此,他看见了中国AI芯片枝繁叶茂的远景,并关注到一个千载难逢的机会——中国人敢做大芯片了!中国有上千家芯片设计企业,其中早期一批芯片企业大都在做小型应用芯片,包括WiFi芯片、电源芯片、蓝牙芯片等等。但做大算力芯片的玩家相对少见。这是个高投入、高门槛、高试错成本的赛道,一个芯片流片动辄要耗去几千万美元。现在,在政策鼓励、需求激增、资本力捧的大环境下,大算力芯片创业的池子正在变大、变得活跃,很多像吴强一样在工业界做了20年的老兵开始入局。这促使吴强在创业之初便下定决心:“第一,我要做AI芯片;第二,我要在中国做。”做什么?是下一个要解答的问题。吴强观察到一个现象,创业者总是一窝蜂地冲到同质化赛道,国产替代仿佛成了“金字招牌”,抢产能、抢人才等浮躁现象出现,在他看来,这些并不利于国内芯片发展。大算力AI芯片领域存在类似的境况,“英伟达怎么做,那我也国产替代复制一遍。”吴强觉得这种用英伟达的方式打英伟达,很难实现真正的超越。他也支持有人做传统路线的国产替代,只不过,总要有人去探些新路,选择另辟蹊径,也有助于增加中国AI芯片成功的概率。因此,2020年下半年,面对已经聚集着一批云端AI芯片创企的国内市场,吴强决定去走一条截然不同的路——用存算一体做大算力芯片,并立下实现单芯片算力高达1000TOPS的目标。03.“不复制别人走过的道路”为什么选择存算一体?这是综合考量的结果。吴强在计算芯片及编译器等技术积累深厚,曾获第38届计算机体系架构顶会MICRO-38唯一的一个最佳论文奖,其科研成果被美国业内杂志IEEE Micro评选为年度最有影响的12个科技成果之一,并多次担任国际会议项目委员会委员和国际期刊的客座主编。除了早年研究的GPU外,他也是谷歌第一代TPU论文的5个主审编之一,非常清楚TPU的技术底层逻辑。在研究过各种非常规的新兴技术后,吴强认为存算一体可能颠覆传统AI芯片的路径。他将AI芯片公司分为三类:(1)把AI算法与硬件高度融合,将算法一部分固化在硬件;(2)仿照英伟达的技术路径,把GPGPU做图像的东西去掉,只保留做AI计算的部分;(3)针对某一类应用场景或某一种工作负载来做相对定向优化的AI计算。这三类都有不少公司在尝试。一方面,这些方式很难在通用性和效率上做到两全。另一方面,用这种方式去挑战英伟达,会面临巨大的工程上的挑战,很难真正超越英伟达。而存算一体并没有遵循传统的冯·诺依曼架构,而是更多是从底层技术去重新设计,用存储介质承担计算任务,以节省数据在存储与计算单元之间搬运所导...
2021-11-15