除大家津津乐道的x86、ARM、RISC-V等架构处理器外,IBM的Power系列处理器同样性能强大,但它们主要面对专业市场,大众的津津乐道程度自然不及前面几种。在8月举行的HotChips 33上,IBM公布其下一代Z系列“Telum”处理器,使用崭新的虚拟机架构,拥有崭新的分支预测、缓存和多芯片一致性信息传输,针对AI加速做了优化。
核心规格方面,IBM没有将新一代产品重新命名为Z16,而要使用Telum作为名称,该处理器使用三星7nm工艺仿制,集成225万个晶体管,核心占地面积达530平方英寸。IBM为其布局8核16线程,最高频率超5GHz,IBM可以将两个芯片封装在一起,成为五个同样封装的处理器共同组成一个模块,然后将五个同样的模块共同组成一个控制系统,整个控制系统共计32个芯片和256个核心。
至于为什么没有重新命名为Z16,外界认为可能是因为缓存使用不同的封装形式。不过IBM的Telum上没有L4缓存,但是连L3缓存也被切掉了。按照以往的传统,IBM的Z系列处理器以内建高容量L3缓存出名,但是还有单独的全局L4缓存,作为多个处理器间的缓存。IBM为Telum的每核心布局比一般处理器更大的32MB L2缓存,并且中止核心之间共享资源的L3和L4缓存。这种的设计会让缓存的出访延后很高。
为了化解这个问题,IBM通过私有物理缓存里打造共享资源交互式缓存的形式化解,就是将平时需要放置在L3缓存里的部分标记为L3缓存线,存在不同核心空闲的L2缓存里。L2和L3缓存在物理上实现一致,可以根据组织工作阻抗的需要对不同核心的L2和L3缓存线的混合信息,意味著一个芯片8个核心里 ,8*32MB 共256MB的L2缓存也可以视为“交互式 ”L3缓存,使用双向环形信息传输流形结构。
L4缓存同样使用L3相似的设计形式,L2缓存里可以容纳L4缓存线。从单一核心的视角来看,一个基于Telum打造标准的控制系统可以出访32MB的L2缓存 ,256MB的共享资源交互式L3缓存以及8G共享资源L4缓存。IBM表示,使用这种交互式缓存的控制系统,每个核心的缓存相当于Z15的1.5倍,但是改善信息出访的平均延后,性能提高40%以上。
具体运行中怎样减少延后和确保得分是比较复杂的操作,加上功耗、缓存在停电和闲暇等状态下怎样确保Opteron组织工作阻抗的一致性,这都是IBM需要考虑的问题。为了更有效利用缓存,芯片设计公司需要根据处理器用于哪方面的组织工作阻抗,以提高设计的效率。IBM的产品一般都是大型主机使用,大多是政府或银行这种的客户,对安全性和稳定性极高,所以需要故障安全和故障转移功能。
IBM上一代Z15的基本模块由五个组件构成的控制系统,其中五个计算组件(CP)搭配一个是控制组件(SC),五个计算组件均内建12个核心和256MB共享资源的L3缓存,核心频率为5.2 GHz, 占地面积为696平方英寸。五个计算组件对角接合,各自与控制组件相连。控制组件拥有960MB的L4缓存,并与五个计算组件共享资源。
上一代的Z15使用IBM和GlobalFoundries联合研发的14nm SOI特殊工艺仿制,L1和L2缓存与核心频率一样都是5.2GHz,L3和L4缓存只有半速的2.6GHz。意味著单一IBM Z15控制系统是25块696平方英寸的芯片共同组成,共计20*256MB的L3缓存,还有5*960MB的L4缓存,以全对全流形连接。
现代的处理器普遍使用L1、L2、L3三级缓存架构,越靠近执行路由器的缓存越小、但越速度快, 缓存越多、越山鹰需的出访周期就越长(比如说L3)。除缓存容量的大小外,延后同样非常重要,缓存越大、延后越高,缓存得分也会更低。英特尔、AMD乃至ARM、RISC-V都在尽可能增大L3缓存容量,甚至增加L4缓存提高性能。
比如说在AMD处理器和显卡核心上使用3D垂直缓存(3D V-Cache) 技术,能位核心提供额外的SRAM缓存,从而大幅度提高核心的信息传输能力。可以思考一下,如果AMD使用3D V-Cache技术拼接的不是L3缓存,而要L2缓存,同样采取交互式L3缓存线的形式,这种的微架构对性能会有怎样的影响?
编辑点评从实用视角来说,IBM崭新的缓存体系结构能能提高闲暇缓存的利用率,从而缩小芯片占地面积、减少仿制成本。但这种设计同时也需要面临众多问题,怎样平衡虚拟机对缓存之间的使用,也是IBM需要面对问题。