互联网 > 正文
人工智能网热度:

浅谈英特尔新平台CSL愿景:融合HPC,AI与HPDC

在Intel工作了近12年,5年前离开,但是每到英特尔发布新的产品和技术,读文档的时候,大脑会自动调度出那段时间的词汇和思维模式,也不知是好事坏事。比如看到新一代CodeName叫Cascade Lake(CSL)的14纳米XEON处理器体系架构,一看codename,脑子里就会去想这是沿用了英特尔哪个site工程师熟悉的local地名。

就好像在阿里云呆久了,你的上古神话的文化功底就会渐长一样,飞天,盘古,伏羲,女娲,玄铁,含光,一个个都特别有味道 - 除公司文化之外,这种起名的规则透露着一个公司的审美,而审美,最能体现一个人的综合能力,并具备不可复制的特点。

美国的地名也和中国类似(实际上和很多国家类似),具备分数维的自包含结构 - 就像在国内很多城市都可以看到中山路,Cascade Lake是在美国华盛顿州中北部一狭窄湖泊,号称深度排名第三,第四大湖,字面意思“瀑布湖”,按照东方文化的习惯,这名字好歹有一些微言大义 - 比如Scalable ,3D-Xpoint的Optane memory - 这些想象一点儿道理都没有,就像咱们吃啥补啥的形神互补之说一样, 到底取名有什么特别的意思,还等英特尔朋友留言。

我们过去总结Intel的创新,常常提到的三条车辙是,一是对摩尔定律坚定不移的坚持,二是半导体制程和架构协同创新,三是跨平台统一的Intel Architecture。物理极限的逼近和异构处理器,AI的兴起,驱动着英特尔在这三个方面主动创新 - Cascade Lake,是英特尔最新的 “处理器制程(Processor) - 架构(Architecture) - 优化(Optimization)”三步迭代的“优化”级产品 - 也就意味着,CSL是针对上一代14纳米Skylake 平台的一次优化改进,而非架构和制程更新换代。

考察Intel每一代处理器的微架构,一种方法是用学院派的Apple vs. Banana的方式去解释微架构“为什么”这样设计的各种“tradeoff”,就是分析和折中。另一种,其实一直是英特尔处理器演进的一个重要方法,也是安迪.格鲁夫阐述的“在炉膛上相应位置开窗口检测性能指标”的方法论 - 通过面向特定的基准测试的结果,来优化平台设计 - 这一次,Cascade Lake的设计,在HPC workload之外,更多考虑了AI人工智能计算框架和HPDC(High Performance Data Analytics)融合计算的趋势。英特尔发布的第二代可扩展处理器,显然是面向服务器级别(当下的AI workload级别都在服务器集群水平,处理云平台尺度的海量数据),特别针对HPC和AI融合的算法和workload进行设计,每个插槽CPU配备56核,12个DDR4内存通道达到高密度处理结果。而HPC的计算内核通常是对大规模循环迭代的向量化解算,深度学习亦然 - 增加了AVX-512 向量化神经网络指令(VNNI)来支持快速深度学习推理,如下图所示:

CSL 可扩展平台除了在处理器内核部分面向HPC,HPDA和AI“算子内核“进行了优化 ,自然一定要关注为优化的计算内核提供”随时吃得饱“的内存子系统,这一次增加了Optane (傲腾)数据中心级持久内存,以及针对无需代码改动的直接memory模式和新的APP Direct model来保持那些上电后仍在非易失内存里的图片,音乐或者上一次“有状态数据”,这对于互联网,AI和高性能数据分析领域无疑有莫大好处 - 虽然这两种模式切换还需要通过BIOS做到。

英特尔在通用处理器XEON系列的设计上,持有一个理念,就是HPC,AI和HPDC必然走向融合趋势,而这个融合是建立在面向传统HPC应用的XEON平台设计之上的 - 在面向XEON扩展处理器上,增加快速AI推理的AVX-512 VNNI指令集,并且通过Optane非易失持久性存储来加速AI和HPDC类大量随机读写小文件,大并发的应用IO- 通过PMDK实现。除了计算内核部分的高度相似 - 浮点密集型的data crunching,三类应用的差别主要在IO和存储上,AI和HPDA应用(HPDA包括大数据分析)的负载倾向于从存储大量而频繁的读操作,高度随机(iops限制)的流式数据访问(带宽限制)- 特别是数据库和非结构数据访问时-这些是TensorFlow,Spark,Hadoop的世界。而HPC负载则相反,是大量的并行写文件操作,而特有的断点续算Checkpoint操作则有大量爆发式写优化操作 - 后者由并行文件系统IO实现。从2014年左右开始,记得当时在Intel支持IEEL的一个尝试,就是将Hadoop的HDFS通过一个Agent转换,可以复用HPC的POSIX共享文件系统Lustre, 从而节约掉多份Copy的HDFS和Shuffer操作,并将HPC离线计算输出的模型,和线上的预测计算结合 - 当前,使用HPC的并行调度系统Slurm, Moab, Torque和LSF来支持大数据架构Hadoop,Spark, HBASE,Kafka等应用架构的项目,在各大研究机构仍在发展(比如Magpie和此前英特尔的HAL)- 我想这背后的融合理念,是面向HPC+AI 深度学习(训练)设计的强大的计算力,可以通过软件设计的融合,支持分布式预测和大数据分析处理 - 这在金融领域已经发生:基于蒙特卡洛积分和Black-Scholes期权定价模型的金融领域HPC算法,已经被证券业和反保险欺诈引入 - 在此数据基础上,对人的金融行为的机器学习正把HPC从“数据辊压”通过AI和数据分析为商业和人群提供决策依据。

高性能计算(HPC)对于运行大型仿真和分析工作负载至关重要,这些工作负载可促进科学进步,产品创新和国家竞争力。随着越来越多的人工智能(AI),高性能数据分析(HPDA)和建模/模拟工作流,需要扩展高性能计算基础架构以应对这些工作流的挑战。这种融合正在扩展HPC的范围,并使HPC基础架构比以往更加重要。换一个角度看,HPC模拟和仿真作为对象的物理世界:“We model the world”,AI拿到HPC的结果,学着模拟人类的思考模式,说, “Wemodel the mind” 开始分析,最后,HPDC出手说,把你们的结果拿来:“We combine the world and mind”- 打造通用处理器平台的英特尔,期望将这些全部支撑起来。作为以通用处理器平台包打天下的英特尔,面临异构计算GPU,FPGA和AI芯片的加速发展,需要螺旋形上升来因应一款“在通用workload压力上”通吃HPC、AI和HPDA的平台 - Xeon Scalable platform 仅仅是2nd Generation, 拭目以待。

欢迎关注微信公众号:dcwlcm666;合作及投稿请联系:1519329887@qq.com

赞助商