11月26日消息,在刚刚举行的SC23上,我国向世界展示了全新的申威SW26010-Pro处理器,性能比上一代提高了四倍。这是我国采用自主指令集(基于Alpha进行扩展),具有完全自主知识产权的处理器系列产品。
SC(InternationalConferenceforHighPerformanceComputing,Networking,Storage,andAnalysis)是高性能计算,体系结构领域顶级会议。
据介绍,基于申威SW26010处理器的神威太湖之光目前在Top500超算榜单中排名第11名,而使用新处理器的超级计算机则排在第二名,仅次于美国橡树岭国家实验室的Frontier。
▲SC23PPT,图源:RongfenLin
SW26010-Pro由6个核心组和1个协议处理单元(PPU)构成,每个核心组包含64个计算处理元素,总计384个内核,相比下SW26010只有4个核心组。
此外,它支持的内存控制器也已经从DDR3升级到DDR4-3200;而且每个核心组都有自己的内存控制器,配备16GB内存,理论带宽达307.2GB/s。一个芯片能访问96GB主内存,相比SW26010的32GB实现了显著提升。
据ChipsandCheese称,SW26010ProC拥有比前代产品更快的运行速度(CPE频率为2.25GHz,MPE频率为2.10GHz,前代产品仅1.45GHz),再加上全新64位RISC微架构和系统架构的改进,其FP64计算吞吐量也增加了四倍以上。
数据显示,每颗SW26010Pro的最大FP64吞吐量为13.8TFLOPS。从理论计算吞吐量的角度来看,新型超级计算机十分强悍。虽然SW26010-Pro在节点级别与FugakuA64FX相似,但我们的超级计算机可以在使用更少芯片的同时提供更高的FP64吞吐量。IT之家汇总数据对比如下:
CPU计算核心(单GCD)11023.9|47.8TFLOPS(packed)
不过,它的内存带宽未能与计算吞吐量相匹配,因此内存带宽成为了它的性能瓶颈。
SW26010-Pro试图通过将缓存容量增加到256KB(SW26010为64KB)来解决问题,但在缺乏适当的L2缓存的情况下,每个CPE只有256KB的缓存明显是不够的,因此两个处理器仍然存在主要的性能瓶颈。同时,一个双通道DDR4-3200(51.2GB/s)的内存子系统对于拥有512位向量FPU、每周期最高可达16FP64FLOPS的64核处理器来说也非常不够用。