9月25日云栖大会上,阿里巴巴第一颗自研芯片,“全球最高性能AI推理芯片”含光800发布。
阿里巴巴平头哥半导体公司研究员、含光800芯片负责人骄旸表示,现在芯片已经在和业务方去做适配了,“希望年底左右可以落地”。他还表示,由于目标定得很高,“我们团队做出了非常非常大的牺牲。”
含光800的研发速度令人瞩目。据平头哥介绍,平头哥NPU团队用最短的时间完成了芯片的设计、流片整个过程,7个月完成前端设计,之后仅了3个月就成功流片。骄旸表示,流片仅一次就获得了成功。
在一场媒体群访中,骄旸对记者介绍,“这个NPU我们团队花了差不多一年的时间,从团队组建,到设计完成、架构验证,到我们流片回来,是一次成功。流片回来后就通过了验证。”
芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区,假如流片失败,就意味着硬件设计需要推倒重来,这比软件出BUG更加严重。
一般芯片公司需要做两次工程样品、产品样品或多次样品才能流片成功。而流片成功后也不代表就可以直接商用,它还需要经过复杂的测试验证,在各项指标都符合实际场景需求后才到了真正的商用阶段。
针对澎湃新闻记者的询问,骄旸表示,其实这种速度下,保证质量是“非常难的”,他补充道,“我们团队做出了非常非常大的牺牲,好在团队的工作经验是比较丰富的。”
骄旸还提到,“由于定下了一个比较高的目标,我们甚至有的团队成员第一天加入,当天晚上就去debug(排除程序故障)了。”
据平头哥介绍,含光800主要用于云端视觉处理场景,目前已开始应用在阿里巴巴内部核心业务中。
根据云栖大会的现场演示,1个含光800的算力等于10个GPU。以城市大脑中实时处理杭州主城区交通视频为例,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
有网络说法称,含光800芯片第一次流片时,一群工程师忐忑地在电梯口等结果,当得知流片成功时,有工程师哭了出来。
骄旸介绍,为什么要立下这种时间紧、任务重的目标,除了背后有计算支撑之外,这与为什么平头哥要做AI芯片的战略也有关系。
骄旸说,AI芯片是一个新的领域,有发展的机会。老的计算平台如CPU、GPU等,是为老的计算形态设计的。GPU原本是用于视频渲染,在AI计算没有更好的替代方案时,位于临界点上的GPU便成为了选择。而一旦有更好的选择,GPU很快就会被替代。速度便十分重要。
“我们看到了人工智能算法需要一个特殊的架构,”骄旸表示,“虽然挑战很大,但从阿里巴巴的要求来说,我们是一定要去挑战那个‘皇冠上的明珠’。”
“含光800已经量产,只服务阿里内部,暂不打算向第三方企业独立销售。”阿里巴巴研究员、平头哥半导体有限公司IoT芯片研究员孟建熠告诉澎湃新闻记者,“量产数量暂不方便对外透露。”