憑借全新A100產(chǎn)品線,英偉達(dá)欲徹底改變計(jì)算世界
數(shù)據(jù)中心架構(gòu)即將迎來重大變化
隨著越來越多的業(yè)務(wù)與AI工作負(fù)載被遷移至云端,用戶對(duì)于計(jì)算資源的需求自然也隨之產(chǎn)生變化。如今的數(shù)據(jù)中心必須將近乎無限的資源容量與極低的處理延遲結(jié)合起來。正是這些現(xiàn)實(shí)要求,驅(qū)動(dòng)著ARM、英特爾以及英偉達(dá)等技術(shù)供應(yīng)商不斷創(chuàng)造新的芯片設(shè)計(jì)方案與軟件平臺(tái),用以支持高性能計(jì)算用例。
對(duì)供應(yīng)商來說,其中顯然蘊(yùn)藏著巨大的市場機(jī)遇。根據(jù)統(tǒng)計(jì)機(jī)構(gòu)做出的預(yù)測(cè),到2025年,全球數(shù)據(jù)中心芯片市場總額將增長至156.4億美元,達(dá)到2017年的兩倍。而從英偉達(dá)的GTC大會(huì)中也可以看出,這家公司希望乘此東風(fēng)進(jìn)一步提升自身市場份額。沒錯(cuò),除了廣為人知的游戲圖形處理單元之外,英偉達(dá)公司也一直在為數(shù)據(jù)中心提供計(jì)算技術(shù)支持。
GPU的使用范圍不再僅限于AI訓(xùn)練
我們主要聊聊人工智能,因?yàn)檫@項(xiàng)技術(shù)目前代表著數(shù)據(jù)中心內(nèi)計(jì)算強(qiáng)度最高的工作負(fù)載類型。大多數(shù)企業(yè)將英偉達(dá)GPU視為利用大型數(shù)據(jù)集訓(xùn)練AI模型時(shí)的首選計(jì)算資源。事實(shí)上,英偉達(dá)也確實(shí)在這部分市場上取得了巨大成功。包括沃爾瑪在內(nèi)的諸多企業(yè)都用實(shí)際行動(dòng)為英偉達(dá)GPU投下了神圣一票。
但是,訓(xùn)練絕不是AI計(jì)算的全部。廣義上講,機(jī)器學(xué)習(xí)分為多個(gè)階段,具體包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練與推理、以及將模型實(shí)際部署至生產(chǎn)環(huán)境等。推理階段的核心,是使用經(jīng)過訓(xùn)練的模型推斷結(jié)果或者結(jié)論。如果說訓(xùn)練是AI計(jì)算流程中的高性能環(huán)節(jié),那么推理階段則是企業(yè)實(shí)際使用訓(xùn)練模型的環(huán)節(jié)。目前,大部分推理工作都在英特爾CPU上進(jìn)行。
GPU成本高昂,而且業(yè)界普遍認(rèn)為其無法帶來適合推理場景的低廉價(jià)格。但在最近的GTC大會(huì)上,英偉達(dá)展示了其最新GPU成果如何加快整個(gè)機(jī)器學(xué)習(xí)流程,希望借此扭轉(zhuǎn)人們的傳統(tǒng)觀念。如前所述,以往的GPU在處理機(jī)器學(xué)習(xí)中的計(jì)算密集型訓(xùn)練任務(wù)時(shí)表現(xiàn)出色,但在推理階段卻顯得有些大材小用。同時(shí),企業(yè)客戶還迫切希望在高端數(shù)據(jù)處理領(lǐng)域獲得性能更強(qiáng)的芯片解決方案。
英偉達(dá)A100:一套靈活的GPU設(shè)計(jì)方案
英偉達(dá)推出基于Ampere架構(gòu)的新型數(shù)據(jù)中心芯片
英偉達(dá)公司此次推出的A100屬于第八代GPU設(shè)計(jì),同時(shí)也是第一款基于Ampere架構(gòu)以滿足各類實(shí)際需求的產(chǎn)品。A100是一款專為數(shù)據(jù)中心高性能計(jì)算與推理場景設(shè)計(jì)的多實(shí)例GPU,其速度與上代Volta架構(gòu)相比提升了20倍,搭載540億個(gè)晶體管與第三代Tensor Cores。
有趣的是,這款芯片采用高靈活度設(shè)計(jì),可在單一芯片上同時(shí)支持訓(xùn)練與推理類工作負(fù)載。A100能夠高效擴(kuò)展至數(shù)千GPU并連,也可以使用英偉達(dá)多實(shí)例GPU(MIG)技術(shù)劃分出7個(gè)GPU實(shí)例以加速不同規(guī)模的工作負(fù)載。接下來就是問題的關(guān)鍵:每個(gè)人都清楚,英偉達(dá)GPU一直是大型模型訓(xùn)練領(lǐng)域的寵兒——但訓(xùn)練絕不是人工智能市場的全部。
推理工作負(fù)載在AI領(lǐng)域中的占比一直不斷提升,也讓英特爾等廠商賺了個(gè)盆滿缽滿。為了獲得長期成功,英偉達(dá)必須拿出一套能夠搞定人工智能中推理部分的解決方案。但英偉達(dá)的野心顯然不止于此,他們決定改變數(shù)據(jù)中心、改變計(jì)算世界的格局。
改變數(shù)據(jù)中心,改變計(jì)算世界
英偉達(dá)還在大會(huì)上談到將數(shù)據(jù)中心作為新的計(jì)算單元。EGX A100卡中封裝有一塊基于A100 Ampere的GPU,外加卡載Mellanox ConnectX-6 Dx NIC。二者相結(jié)合,相當(dāng)于將聯(lián)網(wǎng)功能與A100 GPU加以融合,進(jìn)一步消除了不必要的額外步驟與延遲因素。
根據(jù)英偉達(dá)方面的介紹,其第三代Tensor Cores能夠加速各類工作負(fù)載,并帶來高達(dá)6倍的開箱即用性能水平。同時(shí),對(duì)稀疏結(jié)構(gòu)的支持又進(jìn)一步將性能提升2倍,使得A100的推理表現(xiàn)再度升級(jí)。而對(duì)于不那么關(guān)心芯片本體的從業(yè)者來說,英偉達(dá)還在EGX A100卡上提供可隨意伸縮以支持不同計(jì)算類型的性能解決方案,并通過Mellanox網(wǎng)絡(luò)增強(qiáng)數(shù)據(jù)的智能移動(dòng)能力。
需要強(qiáng)調(diào)的是,將數(shù)據(jù)中心視為新的計(jì)算單元是個(gè)宏大且意義非凡的愿景。這一概念,使得開發(fā)人員能夠設(shè)計(jì)出延遲更低、且在本質(zhì)上具備巨大可擴(kuò)展能力的系統(tǒng)。越來越多的企業(yè)希望立足云端為用戶提供AI與機(jī)器學(xué)習(xí)功能,這意味著數(shù)據(jù)中心功能也必須實(shí)現(xiàn)快速擴(kuò)展。此外,對(duì)各類軟件工具的支持效果同樣非常重要,因此英偉達(dá)方面公布了Merlin等一系列工具。英偉達(dá)利用這些工具打造出新的平臺(tái),意在簡化復(fù)雜機(jī)器學(xué)習(xí)管道(例如推薦系統(tǒng))的架構(gòu)模式,同時(shí)提供一套整體框架以實(shí)現(xiàn)對(duì)話式AI。
其他芯片供應(yīng)商是否會(huì)緊跟其后?是的,而且不僅如此
英偉達(dá)的最新公告至少幫助其在短期之內(nèi)占得性能層面的至高點(diǎn)。但問題是,英偉達(dá)解決方案的推理成本雖然有所降低,但仍然不夠便宜。當(dāng)然,在數(shù)據(jù)密集型行業(yè)當(dāng)中,性能上的突破也許才是最重要、也是客戶們最關(guān)心的動(dòng)態(tài)。從這個(gè)角度看,英偉達(dá)已經(jīng)獲得了巨大勝利。那么他們能否借此一役占據(jù)數(shù)據(jù)中心芯片市場的最大份額?我們不清楚,但英特爾肯定不會(huì)坐視這種情況的發(fā)生。
當(dāng)前,我們?nèi)蕴幱跇?gòu)建未來AI基礎(chǔ)設(shè)施的摸索初期,希望英偉達(dá)帶來的新產(chǎn)品能夠吸引到數(shù)據(jù)中心供應(yīng)商們的關(guān)注。英偉達(dá)確實(shí)選擇了非常完美的入市時(shí)機(jī),如今的世界確實(shí)需要更多先進(jìn)技術(shù)以支撐起更完善的高性能計(jì)算體系。Ampere 100以及對(duì)Mellanox的收購,已經(jīng)成為英偉達(dá)打造下一代數(shù)據(jù)中心宏愿中的重要里程碑。英偉達(dá)這種以平臺(tái)為先導(dǎo)的發(fā)展思路也相當(dāng)明智,畢竟從長遠(yuǎn)來看,得平臺(tái)者方能得天下。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請(qǐng)掃描下方二維碼
