四虎影视精品永久在线观看,中文字幕婷婷日韩欧美亚洲 ,婷婷成人综合激情在线视频播放,中文在线а√天堂,伊人久久大香线蕉成人

AI啟示錄 第7期 2019/07/11

Habana Labs憑什么“叫板”英偉達?

文/高玉嫻
面對人工智能芯片這樣一個百億級規(guī)模的市場,充滿“野心”的企業(yè)不在少數(shù),甚至有不少初后起之秀直接“叫板”英偉達。Habana Labs正是其中之一。

計算力的突破是引燃如今這一輪人工智能發(fā)展熱潮的最關(guān)鍵因素。而這,也使得人工智能芯片領(lǐng)域近幾年來逐漸成了群雄逐鹿的重要“戰(zhàn)場”。雖然包括英特爾、谷歌、蘋果、華為、百度等在內(nèi)的國內(nèi)外各大科技巨頭不斷涌入,但從AI推理預(yù)測到AI訓(xùn)練,截至目前,英偉達的地位似乎仍然難以被撼動。

即便如此,面對這樣一個百億級規(guī)模的市場,充滿“野心”的企業(yè)還是不在少數(shù),甚至有不少初后起之秀直接“叫板”英偉達。Habana Labs正是其中之一。

成立于2016年,Habana Labs最初的業(yè)務(wù)是開發(fā)專為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和生產(chǎn)環(huán)境中的推理部署而優(yōu)化的處理器平臺。2018年,Habana Labs發(fā)布了第一款產(chǎn)品,即AI推理處理器「Goya」;9個月后,Habana Labs又宣布推出AI訓(xùn)練處理器「Gaudi」,不斷完善自己的產(chǎn)品版圖。

在本周的媒體溝通會上,Habana Labs首席商務(wù)官Eitan Medina介紹,其團隊成員主要是來自處理器、DSP、系統(tǒng)設(shè)計以及網(wǎng)絡(luò)設(shè)計等領(lǐng)域全球知名企業(yè)的精英,能夠支持Habana Labs從軟件到硬件的研發(fā)需求。同時,他還直接“放話”—— 要做人工智能芯片產(chǎn)業(yè)的領(lǐng)導(dǎo)者。而其底氣,就是Goya和Gaudi兩款產(chǎn)品。

Habana Labs首席商務(wù)官Eitan Medina

AI推理處理器「Goya」:強大性能與高性價比并存

據(jù)了解,Goya是一款基于PCle的雙槽位處理器,可基于ResNet-50推理基準(zhǔn)實現(xiàn)每秒15,000張圖片的吞吐量,延遲時間僅為1.3毫秒, 功耗僅為100瓦。它主要用于傳統(tǒng)服務(wù)器環(huán)境,提供推理和預(yù)測支持。

“這些數(shù)字與英偉達最新的GPU產(chǎn)品T4相比,性能上是其3倍,能耗上是其1/2,而延時也更低。可以說,我們幾乎可以做到實時的圖片處理。”Eitan Medina表示。

Goya與CPU、GPU在性能方面的對比

如何做到?Eitan Medina向記者解釋,無論是GPU還是CPU,其架構(gòu)都是面向通用計算或常用圖形處理而設(shè)計的,因此在人工智能的計算工作中并不具備優(yōu)勢。而Goya則是完全針對人工智能需求進行的架構(gòu)設(shè)計,這一獨特架構(gòu)稱為“Tensor processor core”,能夠讓Goya支持不通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進而處理不同的數(shù)據(jù)類型。這就是Goya能夠提供如此高性價比的原因之一。

深度學(xué)習(xí)中Batch Size(批尺寸,即一次訓(xùn)練所選取的樣本數(shù))的大小直接會影響到處理器的性能。在GPU中,為了實現(xiàn)其最高性能,需要將這一數(shù)值設(shè)置得很大,大量數(shù)據(jù)在同一時間并行處理,這將無形造成計算的延遲。而Goya則可以將Batch Size設(shè)置為1,這意味著它可以一次處理1張圖片,并且每秒鐘處理超過7000張圖片。這樣的性能優(yōu)勢,使得它可以被應(yīng)用于自動駕駛等對計算延遲要求極高的領(lǐng)域。

除此之外,在云計算場景中,Goya還可以做到多個用戶共享單卡,從而降低用戶的使用成本,讓用戶以更低價格享受更好的產(chǎn)品體驗。

總的來說,Goya優(yōu)勢有三:一是強大的計算能力,二是高性價比,三是可以實現(xiàn)多用戶之間的計算資源共享。“當(dāng)然,基于ResNet-50的測試只是我們眾多性能測試的其中之一,除此之外我們還做了很多比較通用的模型測試,可以看到,在這些測試中,Goya也表現(xiàn)出了強大的性能優(yōu)勢。”Eitan Medina 強調(diào)說。

據(jù)他介紹,Goya還為用戶提供了一套名為Synapse AI的軟件環(huán)境。SynapseAI軟件棧包含一個豐富的內(nèi)核庫和開放工具鏈,以供用戶添加專有內(nèi)核。借此,用戶不僅可以直接部署模型、進行定制化操作,同時還能幫助使用CPU和GPU的用戶快速、輕松、準(zhǔn)確地將之前的工作部署到Goya上。

AI訓(xùn)練處理器「Gaudi」:實現(xiàn)本地以太網(wǎng)擴展

再來看一下最新發(fā)布的人工智能訓(xùn)練處理器Gaudi。

Gaudi是一款完全可編程且可定制的處理器,搭載基于第二代Tensor處理核 (TPC™) 并集成開發(fā)工具、庫和編譯器。基于ResNet-50,Gaudi可以提供每秒1650張的圖片處理能力——這是在業(yè)界單一處理器中最高的計算能力。同時,Gaudi的創(chuàng)新架構(gòu)可以實現(xiàn)訓(xùn)練系統(tǒng)性能的近線性擴展,即使是在較小Batch Size的情況下,也能保持高計算力。這意味著,基于Gaudi處理器的訓(xùn)練性能可以實現(xiàn)從單一設(shè)備擴展至由數(shù)百個處理器搭建的大型系統(tǒng)的線性擴展。

還是和英偉達的V100相比,基于ResNet-50基準(zhǔn)測試,Gaudi所表現(xiàn)出來的計算性能、功耗比和延遲時間仍然相當(dāng)出色,在速度上要比V100快3.8倍。比如,在性能方面,V100單卡大概每秒處理600多張圖片,而Gaudi單卡則可以處理1600多張;在功耗方面,V100處理600多張圖片的功耗達到了300瓦,而Gaudi處理1600多張圖片的功耗只有150瓦左右。在這方面,Gaudi創(chuàng)造了新的性能紀(jì)錄。

Gaudi與V100在性能方面的對比

除了性能,Gaudi還創(chuàng)造了人工智能訓(xùn)練領(lǐng)域的另一項“行業(yè)第一”。其處理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,能夠讓人工智能系統(tǒng)使用標(biāo)準(zhǔn)以太網(wǎng)擴展至任何規(guī)模。借此,用戶還可以利用標(biāo)準(zhǔn)以太網(wǎng)交換進行人工智能訓(xùn)練系統(tǒng)的縱向擴展和橫向擴展。同時,以太網(wǎng)交換機已被數(shù)據(jù)中心應(yīng)用于計算系統(tǒng)和存儲系統(tǒng)的擴展中,在速度和端口數(shù)方面可提供幾乎無限的可擴展性。在這一方面,與Habana的標(biāo)準(zhǔn)設(shè)計相比,基于GPU的系統(tǒng)則依賴于專有的系統(tǒng)接口,對系統(tǒng)設(shè)計人員來說,這從本質(zhì)上已經(jīng)大大限制了其可擴展性和選擇性。

另外,Habana Labs還推出了一款名為HLS-1的8-Gaudi系統(tǒng),配備了8個HL-205子卡、PCIe外部主機連接器和24個用于連接現(xiàn)有以太網(wǎng)交換機的100Gbps以太網(wǎng)端口,讓用戶能夠通過在19英寸標(biāo)準(zhǔn)機柜中部署多個HLS-1系統(tǒng)實現(xiàn)性能擴展。

HLS-1

Eitan Medina介紹,Gaudi配備的是32GB HBM-2內(nèi)存,目前提供兩種規(guī)格:一種是HL-200 - PCIe卡,設(shè)有8個100Gb以太網(wǎng)端口;另一種是HL-205 - 基于OCP-OAM標(biāo)準(zhǔn)的子卡,設(shè)有10個100Gb以太網(wǎng)端口或20個50Gb以太網(wǎng)端口。

據(jù)悉,Habana Labs將于今年下半年面向特定客戶提供Gaudi的樣品。“通過這幾款產(chǎn)品的推出,我們的第一目的還是推動人工智能芯片領(lǐng)域的進一步發(fā)展,幫助這個領(lǐng)域中的用戶解決相關(guān)問題,比如計算性能、效率、靈活性等等。”Eitan Medina表示。

本文章選自《AI啟示錄》雜志,閱讀更多雜志內(nèi)容,請掃描下方二維碼

《AI啟示錄》雜志