深度:Nvidia如何借助AI贏得數據中心博弈
Nvidia希望給企業(yè)計算帶來一場徹底的變革:讓數據中心運行速度提高10倍,而成本將至1/10。
Nvidia首席執(zhí)行官黃仁勛正在打造一項戰(zhàn)略,重新構建現有的本地數據中心、公有云和邊緣計算環(huán)境,他提出了利用Nvidia在人工智能架構中強大地位的愿景。而這項端到端戰(zhàn)略的關鍵,在于要有一個清晰的愿景、大規(guī)模的芯片設計能力,以及集成了內存、處理器、I/O和網絡的基于Arm的新架構,還有具有吸引力的軟件使用模式。
我們相信,即使現在Nvidia還沒有完成對Arm的收購,它仍然能夠通過積極參與Arm的生態(tài)系統來執(zhí)行這項戰(zhàn)略。而如果成功收購,我們相信Nvidia將能夠把這家全球最有價值的芯片公司,變成為全球最有價值的集成計算架構提供商。
在本文中,我們將解釋為什么我們認為Nvidia在為全球計算中心提供動力方面處于有利地位,以及Nvidia是如何計劃打破幾十年來英特爾x86架構在數據中心市場中的統治地位。我們還將分享一些把AI支出和競爭格局融入在內的Enterprise Technology Research調研數據。
轉型中的數據中心市場
超級云很少,但數據中心卻很多。據IDC稱,盡管全球數據中心正在經歷整合,但數量仍然超過700萬個。像宇宙一樣,云擴展的速度越來越快,數百萬個數據中心通過互聯網相互連接。這種新型云正在變得與越來越超級分布式,并且是由軟件運行的。
開放API、外部應用、龐大的數字供應鏈、不斷擴大的云,讓全球各地數據中心內那些最敏感的信息面臨越來越大的威脅面和脆弱性。零信任似乎在一夜之間從流行語變成了強制要求。
我們還看到,AI正在融入到每一個應用中,新冠疫情期間我們看到這個領域發(fā)生了翻天覆地的變化。我們相信,為人工智能提供動力的架構,將成為Nvidia強勢進入數據中心市場的關鍵。
我們相信,這個新世界不會完全由通用的x86 CPU所統治,而是會得到Arm廠商生態(tài)系統的支持,這些廠商正在影響著處理性能的空前提升。
在我們看來,Nvidia正處于領先地位,正在成為統治著全球數據中心、公有云、近端和遠端計算架構新時代的寵兒。
黃仁勛的清晰愿景
下面這張圖突出了Nvidia首席執(zhí)行官黃仁勛希望擴大市場的一些基本假設。首先是數據中心存在大量浪費情況,他認為,如今部署在數據中心的CPU核心中只有一半被真正用于支持應用運行,而另一半是圍繞著運行軟件定義數據中心應用處理基礎設施的,CPU核心的利用率嚴重不足。
分析師Zeus Kerravala在一篇博客文章中,將Nvidia Bluefield-3 DPU描述成一個完整的卡上迷你服務器,內置了軟件定義的網絡、存儲和安全加速。Nvidia聲稱,該產品的帶寬足以替代300個通用x86核心。
黃仁勛認為,每個網絡芯片最終都將是智能的、可編程的,能夠執(zhí)行這種加速并將計算從傳統CPU上卸載下來。他認為,每個服務器節(jié)點都將具有這個能力,讓每個數據包和每個應用始終受到實時監(jiān)控,以防入侵。隨著服務器遷移到邊緣位置,Bluefield將變成其中一個核心組件。他說,每年出貨2500 萬臺服務器,這就是他的目標。
在我們看來他說的最后一句話是關鍵:“人工智能是我們這個時代最強大的力量。”不管你是否同意,AI都與其密切相關,因為AI是無處不在的,而Nvidia在AI領域的地位以及正在打造的架構,是其數據中心和企業(yè)戰(zhàn)略的基本核心。
AI是最高優(yōu)先級支出項
讓我們來看看ETR的數據,看看AI在CIO們的優(yōu)先級列表上處于什么位置。下面這組數據采用了我們經常喜歡分享的視圖方式。橫軸是市場份額(或者說ETR定義的普遍性),但我們想提醒的是重點關注縱軸,也就是凈分數(Net Score),或者說支出速度。
疫情過后我們看到,AI在最近兩次調查中占據了第一的位置。我們認為,隨著AI成為數字化轉型和自動化的一個主要事項,這種趨勢將持續(xù)很長一段時間,AI將融入到你在這張圖表中看到的每個點。
Nvidia的架構是為AI工作負載量身打造的,上圖中幾乎每個部分都將使用Nvidia的技術。
工作負載正在涌向Nvidia
讓我們來量化一下,說說我們認為Nvidia是如何在企業(yè)級市場中借助Arm的力量。
上圖中顯示了來自Wikibon Research的預測,展示了按工作負載類型劃分的全球服務器基礎設施支出百分比。以下是一些要點:
在我們看來,Nvidia和Arm都處于有利地位,可以攻擊這個卸載部分的市場,從邏輯上講,就是基于AI的工作。但即使是橙色通用應用中的一部分,也可以采用基于Arm的系統。例如,AWS和Oracle都采用了基于Arm的設計來服務于通用型工作負載。
為什么這樣做?答案就是,成本。因為通常上x86(特別是英特爾)并不能提供所需的性價比和效率來滿足需求,從而降低數據中心成本。因此,這些公司正在與獨立軟件廠商展開合作,確保通用型應用可以運行在基于Arm的處理器上,而無需客戶進行任何更改。
思考練習:如果英特爾不回應會怎樣?
如果英特爾對這一明顯的趨勢不作回應的話,我們認為到2030年之前,英特爾只能贏得50%的通用工作負載。而Nvidia,將主導藍色的AI+和灰色卸載部分,也就是贏得90%的市場。
現在顯然英特爾不會坐以待斃讓這種情況發(fā)生的。英特爾首席執(zhí)行官Pat Gelsinger很清楚這一點,他正在英特爾推行一項新的戰(zhàn)略,更好地管理內存資源并且適應生態(tài)系統的卸載處理和更高可編程性。但是在這場競賽中,目前Nvidia和Arm還是遙遙領先的,而且Nvidia擴大了與存儲領導廠商的合作,例如NetApp、DataDirect Networks、VAST Data、WekaIO、Pure Storage等,我們認為,這將與Nvidia的部分產品組合戰(zhàn)略保持一致。
Nvidia不再是一家游戲公司
Nvidia最早是一家游戲公司成名的,即使在今天Nvidia也有近一半的收入來自游戲市場。如果你找一些游戲玩家,問問他們對Nvidia 的看法,他們會侃侃而談Nvidia那令人難以置信的性能、驚人的驅動、更流暢的色彩、更清晰的圖像呈現、出色的資源分配、以及屏幕錄制等一系列功能。他們唯一不完全喜歡的是高昂的價格——這是個很好的問題。
但是Nvidia通過進軍企業(yè)級市場擴大自身所覆蓋的市場規(guī)模。下面就讓我們快速瀏覽一下我們認為與本文討論主題相關的Nvidia企業(yè)產品組合戰(zhàn)略。
上面這張圖來自Nvidia的投資人幻燈片,闡述了Nvidia的三芯片戰(zhàn)略。重要的是,Nvidia正在積極轉向基于Arm的架構,這一點我們將在后面詳細介紹;脽羝械牡谝恍惺荖vidia Ampere架構(注意不要與Ampere Computing公司混淆了)。顯而易見,Nvidia正在采用以GPU為核心的策略(這也是Nvidia的優(yōu)勢),但我們認為隨著時間的推移,Nvidia可能會重新考慮這一點,并出于成本和靈活性的考慮,更多地考慮體現多樣化的替代選擇,例如NPU。但這個還是留到以后吧。
第二行,Nvidia推出了Grace CPU,向知名計算機科學家Grace Hopper致敬。Grace是一種新架構,不依賴于x86,可以更有效地使用內存資源。
最后一行是Nvidia Bluefield DPU路線圖,正如Zeus Kerravala所描述的,它本質上是一個完整的卡上服務器。
最后一點非常重要,但經常被忽視。采用Arm架構將把從芯片設計到生產的時間縮短50%,也就是說,時間會從數年縮短到18個月或者更短,這將讓Nvidia企業(yè)級市場中占有產品快速上市的優(yōu)勢。
押注AI工作負載 贏得領先優(yōu)勢
在這里我們不打算深入探究Nvidia的企業(yè)產品組合。如果你有興趣,網上有很多信息。但是,我們認為下圖突出了在我們看來很重要的一些事情,與Nvidia的端到端戰(zhàn)略有關。
上圖顯示了Nvidia Jetson架構的一部分細節(jié),該架構旨在加速上述藍色的AI+工作負載。我們認為這很重要,原因是同一個軟件可以支持小型一直到大型系統,還包括邊緣系統。我們認為這種架構非常適合邊緣的AI推理以及使用AI的核心數據中心應用。所以這是一個很好的例子,通過一個架構覆蓋了很大的性能和成本范圍,這對Nvidia來說是有利的。
尤其是與邊緣工作負載有關聯的時候,我們認為目前傳統服務器廠商正在錯過一個更大的機會——主要是因為目前這個市場規(guī)模還較小,無法證明投資該市場是合理的。這些廠商正在貼近他們的客戶,并與工業(yè)巨頭建立合作關系,找到途徑重新將他們現有的x86架構投資投入到他們看到的認“邊緣”位置。
我們認為,他們很大程度上是把邊緣視為小型數據中心或者數據聚合點。他們希望大規(guī)模提供橫向基礎設施,以利用他們的運營杠桿。他們很小心謹慎,不要過于深入“邊緣”,不要過于深入專業(yè)應用。
我們認為,Nvidia和Arm看到了更大的格局。當有廠商拋出TAM數據,即邊緣價值將達到數萬億美元時,真正的機會在于邊緣深處的實時AI推理,這將需要大量的處理,而且看起來不像傳統x86服務器。這些服務器節(jié)省空間、低功耗、緊密封裝或者是嵌入式的、高性能、可編程、且超便宜。我們認為這就是Nvidia和Arm希望的發(fā)展方向。
Nvidia聯手Arm解決了最大的技術瓶頸
我們想花點時間解釋一下,為什么我們認為轉向基于Arm的架構對Nvidia來說如此重要。
目前Nvidia面臨的最大成本挑戰(zhàn)之一是保持GPU的利用率。通常GPU的利用率遠低于 20%。上圖試圖解釋其中的原因。
想象一下,圖表左側顯示了傳統計算機架,突顯了Nvidia面臨的瓶頸。處理器和DRAM在不同的塊中捆綁在一起。想象一下,一個機架中有數千個核心,每次當系統需要保存在另一個處理器中的數據時,就必須發(fā)送請求,請找回這些數據,這個過程開銷很大。RoCE等技術可以提供幫助,但這并不能解決基本的架構瓶頸。
因為如底部左側所示,每個GPU都有自己的DRAM,必須與處理器進行通信才能獲得所需的數據——也就是說,GPU彼此之間不能有效地相互通信。
面向未來的架構
右側顯示了Nvidia的發(fā)展方向。從中間的片上系統(SoC)開始,CPU和NPU、IPU(圖像處理單元)以及XPU(其他替代處理器),這些都與SRAM相連,SRAM作為一個高速層,例如L1緩存。內部是SoC的操作系統,也是Nvidia發(fā)揮殺手級新定價模型作用的地方。
Nvidia正在對這個操作系統采取售賣許可的模式,該系統實施了一種全新的、真正引人注目的軟件訂閱模式,與企業(yè)買家購買軟件的方式越來越保持一致。理論上說,Nvidia甚至可以免費贈送芯片,只對軟件收費,就像剃須刀模式一樣。
右側外層是DPU和共享DRAM及其他資源(例如Ampere Computing——這次是這家公司了——以及CPU、固態(tài)組件和其他資源),這些處理器將共同管理SoC。
這一設計是基于Nvidia使用了Bluefield DPU的三芯片方法,采用了Mellanox網絡。該網絡支持跨CPU共享DRAM,最終將全部基于Arm。Grace位于SoC內部,也位于外部。當然,GPU以縮小版本(例如,渲染型GPU)的形式存在于SoC內,外層是一些GPU,以及用于 AI 工作負載的一些GPU——至少近期的情況是這樣的。我們認為最終這些GPU可能只會存在于SoC內部,但只有時間能證明一切。
所以正如你所看到的,Nvidia正在采取一系列重要決策,與Arm合作、傾向于Arm生態(tài)系統。這就是Nvidia計劃大幅提升其解決方案效率、減少對x86的依賴、支持之前我們提到的新型AI工作負載的途徑。
誰在爭奪計算領導者位置?
下面是同一張XY圖表,顯示了市場份額,或者說反應普遍性追蹤結果的凈得分,或者支出形勢。我們已經摘出了一些ETR的計算、存儲和網絡細分市場數據,關于那些我們認為正在爭奪計算數據中心領導者地位的主要廠商。
AWS處于非常有利的地位。我們認為AWS有一半以上的收入來自計算,所以運營規(guī)模大概是250多億美元,非常龐大。AWS自己設計芯片,并與獨立軟件開發(fā)商合作,在基于Arm的Graviton芯片上運行通用工作負載。微軟和谷歌是計算的消耗大戶,同時銷售量也很大。特別是微軟可能會繼續(xù)與OEM合作伙伴合作,抓住本地數據中心的機會,但實際上計算提供商是英特爾,客戶包括HPE、戴爾、思科,以及這里沒有羅列出來的原始設計制造商。
HPE一直以來都是開發(fā)架構的,在這里我們不想提及HPE,但HPE在人工智能和數據密集型高性能計算領域擁有強勁的表現。HPE在新型計算架構上所做的工作,及惠普實驗室開發(fā)的共享內存可能還有影響力,也許未來某一天會派上用場。HPE也以自己設計定制芯片而聞名,因此我們也把HPE視為這場競賽中的一個創(chuàng)新者。
思科很有意思,因為它不僅擁有定制的芯片設計,而且十年前憑借統一計算系統進入計算領域之所以引人關注,是因為思科開創(chuàng)了一種新的整合數據中心資源的方法。思科也會投資架構,我們預計下一代UCS將標志著思科數據中心業(yè)務發(fā)展的又一重要里程碑。此外,思科還有安全業(yè)務,并通過大量收購——例如AppDynamics、ThousandEyes、Banzai、Meraki等——鞏固自己在數據中心的地位。
戴爾剛剛發(fā)布了一份令人意外的季度財報,總收入增長了約12%。盡管傳統EMC存儲業(yè)務持續(xù)疲軟,但戴爾仍然有出色的執(zhí)行力。筆記本電腦需求持續(xù)飆升,戴爾的服務器業(yè)務再次增長。不過,我們并不認為戴爾是計算領域的架構創(chuàng)新者。相反,我們認為戴爾將會滿足于與供應商合作,無論是英特爾、Nvidia、基于Arm的合作伙伴、還是上述所有合作伙伴。我們預計,戴爾將依靠龐大的產品組合、優(yōu)秀的供應鏈和執(zhí)行精神,通過整合其他公司開發(fā)的核心架構創(chuàng)新來擠壓利潤空間。然而,我們確實希望,特別是在存儲方面,戴爾能利用成本更低的替代方案來更好地服務于我們之前討論過的那部分卸載工作負載。
IBM因其歷史原因而值得關注。IBM憑借大型機創(chuàng)造了自己的計算寡頭地位,然后不知不覺地將其交給了英特爾還有微軟。我們不認為IBM有志于重新奪回曾經擁有的大型機的計算平臺地位,相反,我們認為Red Hat和混合云是IBM未來的發(fā)展方向。
房間里的大象:英特爾、Nvidia和一些中國公司
現在讓我們來看看這些大公司:英特爾、Nvidia和一些中國公司。中國之所以重要,是因為阿里巴巴、華為等公司以及中國政府希望在半導體技術方面能做到自給自足。
但我們的前提是,上圖中的趨勢有利于Nvidia而不是英特爾,因此我們用logo標出了相對位置。Nvidia正在采取措施進一步贏得數據中心的新工作負載,并一步步逼近英特爾的大本營。英特爾試圖進行自我重塑,但今天Pat Gelsinger正在做的,是英特爾5-7年前就應該開始做了的。英特爾無法改變這一點,并且遠遠落后,需要數年時間才能趕上。
通過數字看Nvidia
讓我們花一些時間來對Nvidia和英特爾進行比較,快速看看兩家公司的財務狀況。
上面是一個概覽表,我們把一些直觀的關鍵業(yè)績指標放在了一起,其中一些數字是近似的或者四舍五入的。你可以看到,英特爾是一家年收入800億美元的公司——是Nvidia的4倍。然而Nvidia的市值遠遠超過英特爾。為什么?因為生長線。在我們看來,這要歸功于Nvidia更強大的戰(zhàn)略定位。
英特爾曾經是毛利率之王,但Nvidia的利潤率要高得多。在自由現金流方面,英特爾仍然占據主導地位。從資產負債表來看,英特爾——特別公布了新代工戰(zhàn)略——的業(yè)務要比Nvidia更為資金密集型。隨著英特爾開始為其代工廠構建更高的制造能力,這將給企業(yè)的現金狀況帶來壓力。
我們在第三列匯總了2022年底Nvidia與Arm合體的大概情況。我們認為合并之后的年收入將達到英特爾的一半左右。要說收購Arm獲得什么好處的話,那就是可能會將Nvidia的市值推高至超過5000億美元。風險在于,由于收購Arm是基于現金加上大量股票,因此可能會在一段時間內對市值造成壓力。
Arm的毛利率為90%,因為Arm有一套純許可的模式,對毛利率是有幫助的——但Arm的收入規(guī)模相對較小,只有20億美元左右,所以這并沒有起到太大的推動作用。從資產負債表數據來看,Arm曾表示不會通過舉債來進行收購,但我們沒有時間搞明白如何在不承擔債務的情況下做到這一點,所以我們猜測是和超低資本成本有關的。
關鍵是,鑒于Nvidia的勢頭和增長,以及在AI方面的戰(zhàn)略地位,針對所有正確目標領域的深度參與,以及與Arm一起釋放巨大價值的潛力,所以看起來,如果可以很好地執(zhí)行下去的話,Nvidia將是會勝出的。
總結:Nvidia進擊企業(yè)級市場
Nvidia正在打造占據主導的AI業(yè)務,在此之上的架構正在不斷演化。工作負載組合和未來需求正朝著這些新架構的方向發(fā)展。在我們看來,Nvidia正處于進擊企業(yè)級市場的有利位置。
發(fā)展勢頭正在從英特爾Intel/x86架構轉移到Arm生態(tài)系統,Nvidia正在積極投身其中,而英特爾必須在重塑自我的同時維持當前的業(yè)務傾斜。這是需要時間的,不過英特爾可能得到美國政府的強大支持。
現在未知數是:Nvidia能否成功收購Arm?英國和歐盟的某些派系正在反對這筆收購交易,不希望由美國來決定Arm可以向誰出售他們的技術——例如為打壓華為而針對很多Arm芯片商實施的限制措施。此外,Nvidia的競爭對手博通和高通也擔心,如果Nvidia最終收購了Arm,他們將處于競爭劣勢。
我們可以預想有這樣一種情況,即美國政府向英國/歐盟監(jiān)管機構施壓,要求通過這筆交易,以換取在歐洲投資建廠的承諾。人工智能和半導體:沒有比這更具戰(zhàn)略意義的了,我們認為美國軍方有充分的理由支持這筆收購交易。作為交換,政府方面可向Nvidia施壓,要求其供給英特爾的代工業(yè)務,以及我們之前蘋果的方案。與此同時,政府可以施加條件,確保Nvidia的競爭對手也可以使用Arm的技術。
目前我們沒有任何關于幕后的消息,但Nvidia在財報電話會議上表示,正在與監(jiān)管機構合作有望在2022年初完成交易。
現在正是勝負關頭,在這場博弈中有很多個可能性。從國家層面的戰(zhàn)略考量,與呼吁打破技術限制的呼吁發(fā)生沖突。中國的行動措施清晰而確定。Nvidia在數據中心市場大獲全勝的大門是敞開的,即使沒有Arm,我們認為Nvidia也要比其他公司更有能力滿足企業(yè)級技術的未來需求。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼
