XPU戰(zhàn)略縱深發(fā)展 英特爾展示多樣化的架構(gòu)創(chuàng)新
在工作負(fù)載多元化的今天,計(jì)算的多云化趨勢(shì)也非常明顯。在此背景下,英特爾提出了XPU的發(fā)展戰(zhàn)略。而在近日舉行的2021年英特爾架構(gòu)日上,英特爾推出兩大x86 CPU內(nèi)核、兩大數(shù)據(jù)中心SoC、兩款獨(dú)立GPU,以及變革性的客戶端多核性能混合架構(gòu),為我們完美呈現(xiàn)了XPU的產(chǎn)品組合。
英特爾公司中國(guó)區(qū)數(shù)據(jù)平臺(tái)集團(tuán)總經(jīng)理王飛告訴記者,未來(lái)數(shù)據(jù)中心計(jì)算架構(gòu)的異構(gòu)化趨勢(shì)非常明顯,英特爾提供廣泛的產(chǎn)品組合,“多點(diǎn)開花”也是為了給用戶更多的選擇。“因?yàn)橐环N產(chǎn)品可以適配各種工作負(fù)載已經(jīng)變得不現(xiàn)實(shí),所以我們希望提供多種產(chǎn)品,比如CPU、GPU、IPU等。而且英特爾提供如此眾多多樣化的產(chǎn)品也是用戶、客戶、OEM或者是CSP(云服務(wù)提供商)對(duì)我們提出了要求,給予他們更多的選擇”
我們知道英特爾此前一直強(qiáng)調(diào)六大技術(shù)支柱,那就是制程&封裝、架構(gòu)、內(nèi)存&存儲(chǔ)、互連、安全和軟件。對(duì)于英特爾而言,架構(gòu)的重要性不言而喻。
在架構(gòu)日上,英特爾公布了英特爾架構(gòu)在近年來(lái)重大的改變和創(chuàng)新。 這包括:第一次深入介紹了英特爾首個(gè)性能混合架構(gòu)Alder Lake,其搭載兩款新一代x86內(nèi)核以及智能英特爾硬件線程調(diào)度器;英特爾全新引領(lǐng)行業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)中心架構(gòu)Sapphire Rapids,其搭載全新的性能核以及多種加速器引擎;英特爾全新的獨(dú)立游戲圖形處理器(GPU)架構(gòu);英特爾全新的基礎(chǔ)設(shè)施處理器(IPU)以及超凡的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,其具備英特爾迄今為止最高的計(jì)算密度。
如此“一股腦”的架構(gòu)更新,你看上去是不是眼花繚亂,別急,我們一一進(jìn)行詳細(xì)說(shuō)一下。
持續(xù)創(chuàng)新x86內(nèi)核
眾所周知,英特爾是x86內(nèi)核的引領(lǐng)者,這次英特爾對(duì)于原來(lái)的x86架構(gòu)進(jìn)行了創(chuàng)新,那就是進(jìn)行了能效核和性能核的區(qū)分和集成。
具體來(lái)說(shuō),能效核是一個(gè)高度可擴(kuò)展的x86微架構(gòu),它能滿足從低功耗移動(dòng)應(yīng)用到多核微服務(wù)的全方位計(jì)算需求。
此高能效x86微架構(gòu)在有限的硅片空間實(shí)現(xiàn)多核任務(wù)負(fù)載,并具備寬泛的頻率范圍。該架構(gòu)致力通過(guò)低電壓能效核降低整體功率消耗,為更高頻率運(yùn)行提供功率熱空間。這也讓能效核提升性能,以滿足更多動(dòng)態(tài)任務(wù)負(fù)載。
能效核可以利用各種技術(shù)進(jìn)步,在不耗費(fèi)處理器功率的情況下對(duì)工作負(fù)載進(jìn)行優(yōu)先級(jí)排序,并通過(guò)每周期指令數(shù)(IPC)改進(jìn)功能直接提高性能。
對(duì)比英特爾迄今為止最多產(chǎn)的CPU微架構(gòu)——Skylake,能效核可在相同功耗下提升40%的單線程性能,或者在提供同樣性能時(shí),功耗僅為Skylake的40%不到。就吞吐量性能而言,與運(yùn)行四個(gè)線程的兩個(gè)Skylake內(nèi)核相比,四個(gè)能效核在性能提升80%的同時(shí)功耗更低,或者在提供相同吞吐量性能時(shí),功耗降低80%。
而性能核不僅是英特爾迄今為止性能最高的CPU內(nèi)核,而且在CPU架構(gòu)性能方面實(shí)現(xiàn)階梯式提升,推動(dòng)未來(lái)十年的計(jì)算發(fā)展。它是一個(gè)更寬、更深、更智能的架構(gòu),展現(xiàn)出更高的并行性,提高執(zhí)行并行性,降低時(shí)延,提升通用性能。它還幫助支持大數(shù)據(jù)集和大型代碼體積的應(yīng)用程序。與第11代酷睿架構(gòu)(Cypress Cove內(nèi)核)相比,相同頻率下,性能核在一系列工作負(fù)載上平均提升了約19%。
針對(duì)數(shù)據(jù)中心處理器和機(jī)器學(xué)習(xí)的發(fā)展趨勢(shì),性能核提供了專用硬件,包括新的英特爾高級(jí)矩陣擴(kuò)展(AMX)來(lái)執(zhí)行矩陣乘法運(yùn)算,以獲得數(shù)量級(jí)的性能——AI加速提升約8倍。這是為軟件易用性而設(shè)計(jì),利用了x86編程模型。
同時(shí),為了將能效核和性能核無(wú)縫銜接在一起,英特爾專門開發(fā)了英特爾硬件線程調(diào)度器,從開始就動(dòng)態(tài)、智能地分配工作負(fù)載,從而優(yōu)化系統(tǒng)以在真實(shí)場(chǎng)景中實(shí)現(xiàn)更高的性能和效率。
硬件線程調(diào)度器直接內(nèi)置于硬件中,可提供對(duì)內(nèi)核狀態(tài)和線程指令混合比的低級(jí)遙測(cè),讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r(shí)間將合適的線程放置在合適的內(nèi)核上。硬件線程調(diào)度器具有動(dòng)態(tài)性和自適應(yīng)性——它會(huì)根據(jù)實(shí)時(shí)的計(jì)算需求調(diào)整調(diào)度決策——而非一種簡(jiǎn)單的、基于規(guī)則的靜態(tài)方法。
下一代至強(qiáng)處理器更“強(qiáng)”
對(duì)于數(shù)據(jù)中心市場(chǎng),英特爾至強(qiáng)平臺(tái)是一個(gè)標(biāo)桿。雖然在過(guò)去的一段時(shí)間,英特爾在數(shù)據(jù)中心的產(chǎn)品迭代備受業(yè)界議論,但是英特爾依然保持自己的節(jié)奏。
架構(gòu)日上,下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)為“Sapphire Rapids”)的產(chǎn)品更新信息被披露。
Sapphire Rapids的核心是一個(gè)分區(qū)塊、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片CPU接口優(yōu)勢(shì)的同時(shí),具有顯著的可擴(kuò)展性。
Sapphire Rapids提供了一個(gè)單一、平衡的統(tǒng)一內(nèi)存訪問(wèn)架構(gòu),每個(gè)線程均可完全訪問(wèn)緩存、內(nèi)存和I/O等所有單元上的全部資源,由此實(shí)現(xiàn)整個(gè)SoC具有一致的低時(shí)延和高橫向帶寬。
Sapphire Rapids基于Intel 7制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時(shí)延和單線程應(yīng)用性能的極限。同時(shí),Sapphire Rapids集成了先進(jìn)的內(nèi)存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術(shù)。
未來(lái)數(shù)據(jù)中心會(huì)越來(lái)越多面向微服務(wù)架構(gòu)、異構(gòu)計(jì)算以及AI計(jì)算加速,Sapphire Rapids提供了數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成IP,以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:英特爾加速器接口架構(gòu)指令集(AIA)、英特爾高級(jí)矩陣擴(kuò)展(AMX)、英特爾數(shù)據(jù)流加速器(DSA)等。
特別是Sapphire Rapids中引入的新加速引擎——AMX,可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個(gè)周期內(nèi)進(jìn)行2000次INT8運(yùn)算和1000次BFP16運(yùn)算,實(shí)現(xiàn)計(jì)算能力的大幅提升。
英特爾技術(shù)專家告訴記者,英特爾充分認(rèn)識(shí)到AI工作負(fù)載對(duì)數(shù)據(jù)中心的重要性,所以在AVX512的基礎(chǔ)上又專門設(shè)計(jì)了AMX加速集成的IP模塊,提供更高效的AI算力。
使用早期的Sapphire Rapids 芯片,與使用英特爾AVX-512 VNNI指令的相同微基準(zhǔn)測(cè)試版本相比,使用新的英特爾AMX指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測(cè)試的運(yùn)行速度提高了7倍以上,為AI工作負(fù)載中的訓(xùn)練和推理上提供了顯著的性能提升
千呼萬(wàn)喚的GPU產(chǎn)品
在架構(gòu)日上,英特爾也宣布了將推出的顯卡架構(gòu),包括面向消費(fèi)者市場(chǎng)的Xe HPG微架構(gòu)和面向數(shù)據(jù)中心市場(chǎng)的Xe HPC微架構(gòu),以及Alchemist SoC,Ponte Vecchio SoC。
Xe HPG是一款全新的獨(dú)立顯卡微架構(gòu),專為游戲和創(chuàng)作工作負(fù)載提供發(fā)燒級(jí)的高性能。Xe HPG微架構(gòu)為Alchemist系列SoC提供動(dòng)力,首批相關(guān)產(chǎn)品將于2022年第一季度上市,并采用新的品牌名——英特爾銳炫(Intel Arc)。 Xe HPG微架構(gòu)采用全新的Xe內(nèi)核,是一款聚焦計(jì)算、可編程且可擴(kuò)展的元件。
Ponte Vecchio基于Xe HPC微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計(jì)算密度,以加速AI、HPC和高級(jí)分析工作負(fù)載。英特爾公布了Xe HPC微架構(gòu)的IP模塊信息;包括每個(gè)Xe核的8個(gè)矢量和矩陣引擎(稱為XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計(jì)算、基礎(chǔ)和Xe Link單元的處理節(jié)點(diǎn)的單元信息。
關(guān)于這兩種架構(gòu)的顯卡詳細(xì)技術(shù)參數(shù)信息,我就不太一一列出了。這里需要需要指出的是,顯卡架構(gòu)對(duì)于補(bǔ)齊英特爾XPU戰(zhàn)略具有重要意義,畢竟圖形處理以及AI類工作負(fù)載日漸流行的今天,GPU產(chǎn)品的需求是出繼續(xù)增加的。
王飛說(shuō),英特爾對(duì)于獨(dú)立顯卡的信心還是很強(qiáng)的,英特爾提供了OneAPI,可以把CPU和GPU很好地集成在一個(gè)系統(tǒng)之下,使軟件編程變得更容易,英特爾注重軟硬件的綜合實(shí)力。
另外,英特爾也非常重視生態(tài)圈,與客戶一起聯(lián)合創(chuàng)新,比如在IDM2.0的架構(gòu)之下,GPU產(chǎn)品既可以采用英特爾自己的工廠進(jìn)行生產(chǎn),也可以通過(guò)臺(tái)積電工廠進(jìn)行生產(chǎn),靈活性更高。所以很多客戶其實(shí)非常期待英特爾的GPU產(chǎn)品。
展望未來(lái),我們暫且不論英特爾顯卡的市場(chǎng)競(jìng)爭(zhēng)表現(xiàn)如何,其戰(zhàn)略價(jià)值已經(jīng)擺在那里,讓我們拭目以待。
基礎(chǔ)設(shè)施處理器(IPU)
IPU是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價(jià)值。
如這樣的定義,我們知道IPU與CPU的關(guān)系,比如云運(yùn)營(yíng)商可以將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上,更大化實(shí)現(xiàn)CPU利用率和收益。
架構(gòu)日上,英特爾介紹了首個(gè)ASIC IPU——Mount Evans,它是英特爾與一家一流云服務(wù)提供商共同設(shè)計(jì)和開發(fā)的,它融合了多代FPGA SmartNIC的經(jīng)驗(yàn)。例如Mount Evans使用硬件加速的NVMe存儲(chǔ)接口,該接口擴(kuò)展自英特爾傲騰技術(shù),以模擬NVMe設(shè)備;采用英特爾高性能Quick Assist技術(shù),部署高級(jí)加密和壓縮加速;可使用現(xiàn)有普遍部署的DPDK、SPDK等軟件環(huán)境進(jìn)行編程。
Oak Springs Canyon是一個(gè)IPU參考平臺(tái),基于英特爾至強(qiáng)D處理器(Intel Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾Agilex FPGA構(gòu)建。
王飛表示,在IPU方面,英特爾既提供ASIC又提供FPGA方案,一方面是給用戶提供多種可能性,另一方面這些產(chǎn)品更加兼容,英特爾可以在整體系統(tǒng)級(jí)別進(jìn)行優(yōu)化,客戶不需要整合不同家的產(chǎn)品,這是英特爾比較大的優(yōu)勢(shì)。
結(jié)語(yǔ)
如今的半導(dǎo)體的產(chǎn)業(yè)已經(jīng)早已不是“一招鮮吃遍天”的時(shí)代了,多樣化和不斷延展自身的邊界已經(jīng)成為芯片廠商的主基調(diào)。而此次英特爾在架構(gòu)日上的眾多創(chuàng)新產(chǎn)品公布,讓我們看到了英特爾在技術(shù)創(chuàng)新方面的持續(xù)迭代,隨著這些產(chǎn)品漸次落地,我們或?qū)⒂瓉?lái)全新的計(jì)算時(shí)代。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
