科技改變生活 · 科技引領未來
近日,NextPlatform根據中國并行計算機工程與技術國家研究中心(NRCPC)的一份文件,分析了中國的百億億次(E級)超級計算機三個提案之一的申威HPC架構,以及申威多核混合CPU架構。超算趨勢:更多內核NRCPC對近年來超算系統的發
近日,NextPlatform根據中國并行計算機工程與技術國家研究中心(NRCPC)的一份文件,分析了中國的百億億次(E級)超級計算機三個提案之一的申威HPC架構,以及申威多核混合CPU架構 。
超算趨勢:更多內核
NRCPC對近年來超算系統的發展趨勢進行了研究,發現由于摩爾定律和登納德縮放比例定律 (Dennard Scaling)的放慢,在不增加功耗的情況下提高超算的性能變得異常困難,整個系統架構的復雜性會呈指數級增長。從2008年到2019年,頂尖超算的性能有所提高,這主要是由于內核數的增加,多了44倍。比起重新設計復雜的架構,不如擴展現有的架構設計。
申威SW26010:采用混合架構
2016年推出的神威太湖之光超算使用了40960個國產申威SW26010處理器,采用混合架構。該系統的Linpack性能(Rmax)為93,014.6 TFLOPS, (Rpeak)為125,436 TFLOPS。
申威SW26010處理器是基于自主研發的64位RISC架構,具有4個集群(CG)和一個協議處理單元(PPU)。每個集群有一個MPE(management processing element), MPE是一個超標量亂序核,具有256位向量引擎、32KB/32KB L1指令/數據緩存、256KB L2緩存。它還集成了64個計算處理元素(CPE),具有相同的256位向量引擎以及64KB快速數據存儲和16KB指令存儲。CPE以8x8陣列形式組成,使用網狀網絡相互連接。
每個CG都有其自己的DDR3內存控制器,具有自己的地址空間,使用9個內存模塊,8GB內存,實現專有的ECC。CG通過類似于環形總線的片上網絡(NoC)進行互連,并且處理器本身通過系統互連(SI)總線連接至系統的其余部分。
處理器的工作頻率為1.45GHz,可能采用臺積電28nm工藝制造。整個系統擁有40960個以上的節點,總計1.25PB內存。
E級超算解決方案:建議擴展一切
從NRCPC的角度來看,可以同時擴展神威系統和申威CPU架構,以構建性能約為1 ExaFLOPS的超級計算機。
新的申威將具備8個CG群集,比原來的4個翻了一倍,CG架構不變,仍然是一個MPE和64個CPE組成。同時CPE和MPE將支持512位向量指令,這樣處理器將提供12 FP64 TFLOPS,也會使處理器數量至少增加一倍,達到80000個以上。下一代的神威超算大約1個FP64 ExaFLOPS,2個FP32 ExaFLOPS以及4個FP16 ExaFLOPS峰值性能。,考慮到效率(70%)問題,實際性能大約是700 PFLOPS,也會比現有的神威太湖之光超算快了7.5倍,內存帶寬會增加7倍,網絡帶寬則增加2倍。
面臨挑戰:需要新工藝
核心數量翻倍意味著需要更多的晶體管,這是一個不可克服的挑戰。由于申威SW26010處理器應該采用了臺積電的28nm工藝制造,新處理器使用14nm工藝制造是很合理的猜想。目前國內只有中芯國際具有14nm工藝節點的生產能力,但一直都只是生產移動平臺的SoC或者相對較小的芯片,這么復雜處理器還沒試過。如果采用28nm工藝制造,并非不可行,但功耗和散熱方面需要更多地進行處理。
事實上NRCPC的文章里并沒有提及整個系統的功耗目標,目前神威太湖之光超算的功率是15371千瓦,而目前排名第一的Fugaku超算消耗的功率為29899千瓦,約為兩倍。
另一個問題是中芯國際被美國商務部列入了“實體清單”,無論制造需要的化學品或者配件都更難獲取了,會影響代工。當然也可以向臺積電或者三星下單,不過同樣也會面臨被列入“實體清單”的危險,可以說是一個冒險的選擇。
從這點上看,還可以向臺積電下單,使用7nm甚至6nm的工藝制造。
結論:萬事俱備只欠東風
作為國內最早的E級超算計劃,為了在Linpack基準測試中達到1 FP64 ExaFLOPS Rpeak性能,NRCPC將增加其處理器中的核心數量,增加對512位矢量指令的支持。最終結果是處理器的核心數量翻倍,以及使用全新的內存系統對其進行支持,并計劃采用新工藝制造。
國內的工程師已經可以開發出包括CPU,DRAM,NAND和其他組件在內的尖端超級計算機,但進行中的億億級超算系統計劃仍存在最后的疑問,最終將取決于制造的工藝技術。
劉陽