国产亚洲精品成人av久久,最近2019中文字幕免费版视频8

Habana Labs憑什么“叫板”英偉達？

文/高玉嫻

面對人工智能芯片這樣一個百億級規(guī)模的市場，充滿“野心”的企業(yè)不在少數(shù)，甚至有不少初后起之秀直接“叫板”英偉達。Habana Labs正是其中之一。

計算力的突破是引燃如今這一輪人工智能發(fā)展熱潮的最關(guān)鍵因素。而這，也使得人工智能芯片領(lǐng)域近幾年來逐漸成了群雄逐鹿的重要“戰(zhàn)場”。雖然包括英特爾、谷歌、蘋果、華為、百度等在內(nèi)的國內(nèi)外各大科技巨頭不斷涌入，但從AI推理預(yù)測到AI訓(xùn)練，截至目前，英偉達的地位似乎仍然難以被撼動。

即便如此，面對這樣一個百億級規(guī)模的市場，充滿“野心”的企業(yè)還是不在少數(shù)，甚至有不少初后起之秀直接“叫板”英偉達。Habana Labs正是其中之一。

成立于2016年，Habana Labs最初的業(yè)務(wù)是開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺。2018年，Habana Labs發(fā)布了第一款產(chǎn)品，即AI推理處理器「Goya」；9個月后，Habana Labs又宣布推出AI訓(xùn)練處理器「Gaudi」，不斷完善自己的產(chǎn)品版圖。

在本周的媒體溝通會上，Habana Labs首席商務(wù)官Eitan Medina介紹，其團隊成員主要是來自處理器、DSP、系統(tǒng)設(shè)計以及網(wǎng)絡(luò)設(shè)計等領(lǐng)域全球知名企業(yè)的精英，能夠支持Habana Labs從軟件到硬件的研發(fā)需求。同時，他還直接“放話”—— 要做人工智能芯片產(chǎn)業(yè)的領(lǐng)導(dǎo)者。而其底氣，就是Goya和Gaudi兩款產(chǎn)品。

Habana Labs首席商務(wù)官Eitan Medina

AI推理處理器「Goya」：強大性能與高性價比并存

據(jù)了解，Goya是一款基于PCle的雙槽位處理器，可基于ResNet-50推理基準(zhǔn)實現(xiàn)每秒15,000張圖片的吞吐量，延遲時間僅為1.3毫秒, 功耗僅為100瓦。它主要用于傳統(tǒng)服務(wù)器環(huán)境，提供推理和預(yù)測支持。

“這些數(shù)字與英偉達最新的GPU產(chǎn)品T4相比，性能上是其3倍，能耗上是其1/2，而延時也更低。可以說，我們幾乎可以做到實時的圖片處理。”Eitan Medina表示。

Goya與CPU、GPU在性能方面的對比

如何做到？Eitan Medina向記者解釋，無論是GPU還是CPU，其架構(gòu)都是面向通用計算或常用圖形處理而設(shè)計的，因此在人工智能的計算工作中并不具備優(yōu)勢。而Goya則是完全針對人工智能需求進行的架構(gòu)設(shè)計，這一獨特架構(gòu)稱為“Tensor processor core”，能夠讓Goya支持不通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，進而處理不同的數(shù)據(jù)類型。這就是Goya能夠提供如此高性價比的原因之一。

深度學(xué)習(xí)中Batch Size（批尺寸，即一次訓(xùn)練所選取的樣本數(shù)）的大小直接會影響到處理器的性能。在GPU中，為了實現(xiàn)其最高性能，需要將這一數(shù)值設(shè)置得很大，大量數(shù)據(jù)在同一時間并行處理，這將無形造成計算的延遲。而Goya則可以將Batch Size設(shè)置為1，這意味著它可以一次處理1張圖片，并且每秒鐘處理超過7000張圖片。這樣的性能優(yōu)勢，使得它可以被應(yīng)用于自動駕駛等對計算延遲要求極高的領(lǐng)域。

除此之外，在云計算場景中，Goya還可以做到多個用戶共享單卡，從而降低用戶的使用成本，讓用戶以更低價格享受更好的產(chǎn)品體驗。

總的來說，Goya優(yōu)勢有三：一是強大的計算能力，二是高性價比，三是可以實現(xiàn)多用戶之間的計算資源共享。“當(dāng)然，基于ResNet-50的測試只是我們眾多性能測試的其中之一，除此之外我們還做了很多比較通用的模型測試，可以看到，在這些測試中，Goya也表現(xiàn)出了強大的性能優(yōu)勢。”Eitan Medina 強調(diào)說。

據(jù)他介紹，Goya還為用戶提供了一套名為Synapse AI的軟件環(huán)境。SynapseAI軟件棧包含一個豐富的內(nèi)核庫和開放工具鏈，以供用戶添加專有內(nèi)核。借此，用戶不僅可以直接部署模型、進行定制化操作，同時還能幫助使用CPU和GPU的用戶快速、輕松、準(zhǔn)確地將之前的工作部署到Goya上。

AI訓(xùn)練處理器「Gaudi」：實現(xiàn)本地以太網(wǎng)擴展

再來看一下最新發(fā)布的人工智能訓(xùn)練處理器Gaudi。

Gaudi是一款完全可編程且可定制的處理器，搭載基于第二代Tensor處理核 (TPC™) 并集成開發(fā)工具、庫和編譯器。基于ResNet-50，Gaudi可以提供每秒1650張的圖片處理能力——這是在業(yè)界單一處理器中最高的計算能力。同時，Gaudi的創(chuàng)新架構(gòu)可以實現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴展，即使是在較小Batch Size的情況下，也能保持高計算力。這意味著，基于Gaudi處理器的訓(xùn)練性能可以實現(xiàn)從單一設(shè)備擴展至由數(shù)百個處理器搭建的大型系統(tǒng)的線性擴展。

還是和英偉達的V100相比，基于ResNet-50基準(zhǔn)測試，Gaudi所表現(xiàn)出來的計算性能、功耗比和延遲時間仍然相當(dāng)出色，在速度上要比V100快3.8倍。比如，在性能方面，V100單卡大概每秒處理600多張圖片，而Gaudi單卡則可以處理1600多張；在功耗方面，V100處理600多張圖片的功耗達到了300瓦，而Gaudi處理1600多張圖片的功耗只有150瓦左右。在這方面，Gaudi創(chuàng)造了新的性能紀(jì)錄。

Gaudi與V100在性能方面的對比

除了性能，Gaudi還創(chuàng)造了人工智能訓(xùn)練領(lǐng)域的另一項“行業(yè)第一”。其處理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能，能夠讓人工智能系統(tǒng)使用標(biāo)準(zhǔn)以太網(wǎng)擴展至任何規(guī)模。借此，用戶還可以利用標(biāo)準(zhǔn)以太網(wǎng)交換進行人工智能訓(xùn)練系統(tǒng)的縱向擴展和橫向擴展。同時，以太網(wǎng)交換機已被數(shù)據(jù)中心應(yīng)用于計算系統(tǒng)和存儲系統(tǒng)的擴展中，在速度和端口數(shù)方面可提供幾乎無限的可擴展性。在這一方面，與Habana的標(biāo)準(zhǔn)設(shè)計相比，基于GPU的系統(tǒng)則依賴于專有的系統(tǒng)接口，對系統(tǒng)設(shè)計人員來說，這從本質(zhì)上已經(jīng)大大限制了其可擴展性和選擇性。

另外，Habana Labs還推出了一款名為HLS-1的8-Gaudi系統(tǒng)，配備了8個HL-205子卡、PCIe外部主機連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機的100Gbps以太網(wǎng)端口，讓用戶能夠通過在19英寸標(biāo)準(zhǔn)機柜中部署多個HLS-1系統(tǒng)實現(xiàn)性能擴展。

HLS-1

Eitan Medina介紹，Gaudi配備的是32GB HBM-2內(nèi)存，目前提供兩種規(guī)格：一種是HL-200 - PCIe卡，設(shè)有8個100Gb以太網(wǎng)端口；另一種是HL-205 - 基于OCP-OAM標(biāo)準(zhǔn)的子卡，設(shè)有10個100Gb以太網(wǎng)端口或20個50Gb以太網(wǎng)端口。

據(jù)悉，Habana Labs將于今年下半年面向特定客戶提供Gaudi的樣品。“通過這幾款產(chǎn)品的推出，我們的第一目的還是推動人工智能芯片領(lǐng)域的進一步發(fā)展，幫助這個領(lǐng)域中的用戶解決相關(guān)問題，比如計算性能、效率、靈活性等等。”Eitan Medina表示。

本文章選自《AI啟示錄》雜志，閱讀更多雜志內(nèi)容，請掃描下方二維碼

四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

Habana Labs憑什么“叫板”英偉達？

AI推理處理器「Goya」：強大性能與高性價比并存

AI訓(xùn)練處理器「Gaudi」：實現(xiàn)本地以太網(wǎng)擴展

Habana Labs憑什么“叫板”英偉達？