datasheet

Habana Labs最強AI處理器PK英偉達

2019-06-18來源: 半導體行業觀察關鍵字:Habana

Habana Labs推出了Gaudi HL-2000,這是一款定制的AI處理器,該公司聲稱,Gaudi HL-2000能夠在訓練神經網絡方面超越英偉達最優秀、最亮眼的GPU。隨著新芯片的發布,這家位于特拉維夫的初創公司推出了一系列基于Gaudi的PCIe卡,以及一個八處理器服務器,可用作構建超大型訓練集群的基礎。



Gaudi代表著Habana進軍AI市場的第二次嘗試。2018年第四季度,該公司開始向客戶出貨Goya推理卡。正如我們當時報告的那樣,與英偉達的V100 GPU相比,HL-1000驅動的Goya在ResNet-50上進行推理時,提供了超過4倍的吞吐量,2倍的能源效率,以及一半的延遲。據Habana首席商務官Eitan Medina稱,Habana已經收集了近20名Goya客戶,他們目前正在評估這項技術。


新的HL-2000在周一發布,與HL-1000對應。同樣,使用ResNet-50,Gaudi演示了它可以達到每秒1,650張圖像,批量大小為64。(對于V100,我們可以找到的最佳訓練結果是每秒1,360張圖像,批量大小不詳。)Medina對The Next Platform講:“讓我們在小批量的情況下實現這種性能的基本屬性與核心架構有關——它是從頭設計的,而不是依賴于老架構,比如GPU或經典CPU。”


Habana并沒有提供太多關于芯片內部細節的信息,只聲稱它是基于第二代Tensor處理核心(TPC),第一代進入了他們的推理芯片。Medina告訴我們,Gaudi處理器支持用于訓練的典型浮點格式,如FP32和bfloat16,以及一些整數格式。On-package memory采用32GB HBM2的形式,反映了GPU加速器上可用的內容,比如英偉達的V100和AMD的Radeon Instinct MI60。


Habana沒有透露新處理器的任何原始性能數據。Medina解釋說:“如果我告訴你我在芯片上放了多少個乘法器,以及它們的工作頻率,但是這個架構卻不允許你使用它們,那么我所做的一切都是在誤導你。”據他介紹,由于他們的clean-sheet設計,他們的芯片可以實現比GPU更高的利用率。


也許Gaudi最大的潛在優勢將是提供大規模性能的能力,這對于構建更大、更復雜的神經網絡一直是一個挑戰。對于大多數訓練設置,一旦超過8個或16個加速器,也就是說,一旦離開服務器機箱,性能就趨于平穩。Medina說,Gaudi的技術并非如此。他指出,同樣的ResNet-50訓練擴展到數百個HL-2000處理器,其性能接近線性增長。與V100相比,Habana技術能夠在650處理器的水平上提供3.8倍的吞吐量優勢。



Habana通過在他們的Gaudi芯片中插入大量網絡帶寬,以RDMA over Converted Ethernet(ROCE)的形式實現這一點。使用以太網(而不是NVLink或OpenCAPI等更奇特的東西)的理由是,它使客戶能夠輕松地將Habana硬件放入現有的數據中心,以及使用各種網絡提供商提供的標準以太網交換機構建AI集群。


在HL-2000處理器的情況下,10個100GbE接口集成在芯片上,其中一些接口可用于連接節點內的其他HL-2000處理器,其余接口可用于跨節點的處理器內通信。后一個功能消除了對NIC的需求。


在Habana自己的HLS-1系統中可以看到這種工作原理,這是一個配備8個HL-2000處理器的類似3U DGX的盒子。在內部,每個芯片的100GbE鏈路中有7個用于以無阻塞、all-to-all的方式將HL-2000處理器連接到另一個處理器,而其余3個鏈路則提供給服務器以構建更大的集群——因此有24個100GbE外部端口。連接到主機服務器或閃存不會占用以太網帶寬。為此,Habana提供了4個PCIe Gen4 x16接口。



將其與典型的GPU加速服務器進行對比,后者通常受單個網絡接口的限制。在這方面最好的是英偉達最新的16 GPU DGX-2系統,它配備了多達8個100G端口,但這仍然是24端口HLS-1提供的一小部分。


Habana Gaudi系統的機架可以通過將6臺HLS-1服務器與6臺CPU主機服務器(HLS-1沒有主機處理器)穿插在一起,再加上機架頂部的以太網交換機來構建。這樣的機架可以連在一起構建任意大的集群。雖然沒有板載主機處理器可能會讓一些人感到厭煩,但它確實允許客戶選擇CPU的型號和品牌,并讓他們能夠微調CPU核心與AI加速器的比例。


想要構建自己的基于Gaudi的系統的客戶可以使用Habana的HL-200 PCIe卡,它提供8個100GbE端口,或HL-205夾層卡,它有20個56Gbps SerDes接口,足以支持ROCE形式的10個100GbE或20個50GbE端口。HL-200的功耗為200瓦,而HL-205的功耗則為300瓦。


夾層卡是Habana的HLS-1服務器的基礎。但也有可能用它來構建更大的系統。例如,如果你降低到50GbE以便在機箱中進行all-to-al連接,則可以使用16個HL-205卡構建16個處理器的機箱,仍然留下32個100GbE端口以進行擴展。如果你想構建一個較小的服務器,則可以在一個機箱中以菊花鏈形式連接多達8個HL-200卡。


順便提一下,夾層卡支持OCP加速器模塊(OAM)規范,這是一種開放硬件計算加速器模塊形式,開發了Facebook、微軟和百度。這告訴了我們Habana瞄準這個特定產品的許多地方。


與英偉達對NVLink所做的不同,Habana不支持跨多個處理器的緩存一致的全局內存空間。Gaudi設計師認為緩存一致是一種性能殺手,無法有效擴展到少數加速器之外。從他們的角度來看,實現訓練神經網絡的可擴展性基本上是一個網絡問題,使用RDMA可以非常有效地生成更大的模型。


Habana的競爭可能也會轉向這種思維方式。正如Medina所指出的,在最近的GTC會議上,英偉達首席執行官Jensen Huang將RoCE作為一種大大提高深度學習工作可擴展性的方法。這意味著,一旦這家GPU制造商的收購在今年晚些時候完成,那么該公司對于利用Mellanox的以太網技術有一些非常具體的想法。



軟件方面,Gaudi配備了Habana的AI軟件棧,稱為SynapseAI。它由圖形編譯器、運行時、調試器、深度學習庫和驅動程序組成。在這一點上,Habana支持TensorFlow來構建模型,但是Medina說,隨著時間的推移,他們將增加對PyTorch和其他機器學習框架的支持。


從評估系統到生產部署可能還有很長一段路要走,但如果Habana技術能像承諾的那樣交付,AI市場將樂于轉向追求更好的性能。盡管如此,在AI硬件方面,英偉達已證明自己是一個快速移動的目標,無論對于初創公司還是像英特爾和AMD這樣的老牌芯片制造商而言都是如此。有一點是肯定的:對更大更好的AI的需求正在創造一個高度競爭的市場,在這個市場中,工程團隊的靈活執行幾乎與架構設計同等重要。


Habana將在2019年下半年向選定的客戶提供Gaudi平臺。雖然Medina告訴我們,Gaudi將與市場上的同類產品“競爭”,但價格尚未透露。


關鍵字:Habana

編輯:muyan 引用地址:http://www.cxwndx.tw/IoT/ic464967.html
本網站轉載的所有的文章、圖片、音頻視頻文件等資料的版權歸版權所有人所有,本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如果本網所選內容的文章作者及編輯認為其作品不宜公開自由傳播,或不應無償使用,請及時通過電子郵件或電話通知我們,以迅速采取適當措施,避免給雙方造成不必要的經濟損失。

上一篇:萊迪思新版sensAI助力網絡邊緣低功耗、智能IoT設備
下一篇:Xilinx發布新型異構計算器件—Versal? AI Core和Versal Prime

關注eeworld公眾號 快捷獲取更多信息
關注eeworld公眾號
快捷獲取更多信息
關注eeworld服務號 享受更多官方福利
關注eeworld服務號
享受更多官方福利

推薦閱讀

重裝上陣!Habana攜2款深度學習芯片叫板英偉達

神經網絡和人工智能是目前最炙手可熱的科技,它們應用廣泛,在各種你喜歡或者不喜歡的社交平臺上助力識別圖像,在智能音箱上語音識別,在智能手機里擔任數字語音助理,神經網絡比人類有更好的識別模式能力。不久,它們會很快應用到注入安全攝像頭這樣的嵌入式設備中,帶來更多意想不到的體驗。 近日,人工智能處理器開發商Habana Labs在京召開發布會為我們隆重介紹了最新研制的兩款AI芯片及解決方案,分別用于推理和訓練,適合數據中心、自動駕駛等應用,競爭目標直指用于AI領域最高性能的CPU和英偉達GPU。 Goya—三倍性能,架構創新 Goya產品是一款基于PCIE的產品,主要是用于傳統服務器,主要是未來插在服務器
發表于 2019-06-25
重裝上陣!Habana攜2款深度學習芯片叫板英偉達

四倍GPU處理能力 Gaudi?人工智能訓練處理器問市

行業領先的人工智能處理器開發商Habana Labs宣布推出Habana Gaudi?人工智能訓練處理器,基于Gaudi的訓練系統實現了比擁有相同數量的GPU系統高四倍的處理能力。 Gaudi?處理器的創新架構可實現訓練系統性能的近線性擴展,即使是在較小Batch Size的情況下,也能保持高計算力。因此,基于Gaudi?處理器的訓練性能可實現從單一設備擴展至由數百個處理器搭建的大型系統的線性擴展。 除了領先的性能,Gaudi?處理器還為人工智能訓練帶來了另一項“行業第一”。該人工智能處理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,從而讓人工智能系統能夠使用
發表于 2019-06-19
四倍GPU處理能力 Gaudi?人工智能訓練處理器問市

Habana Labs推出生產就緒型Goya HL-1000處理器

退出隱身模式,Habana Labs推出生產就緒型Goya HL-1000處理器?以色列特拉維夫和加州圣何塞2018年9月17日電-- Habana Labs, Ltd. (www.habana.ai) 今天宣布,該公司正式退出隱身模式,將面向精選客戶推出首個人工智能?(AI) 處理器樣品。基于其 Goya HL-1000 處理器的 PCIe 卡可基于 ResNet-50 推理基準實現每秒15000張圖片的吞吐量,延遲時間為1.3毫秒,功耗僅為100瓦。與如今數據中心部署的一般解決方案相比,Habana Labs 人工智能處理器的性能要高出一到三個數量級。?旨在處理各種人工智能推理工作負載,如圖像識別、神經機器翻譯、情感分析、推薦
發表于 2018-09-28

Habana Labs宣布推出全球性能最高的人工智能推理處理器

退出隱身模式,Habana Labs推出生產就緒型Goya? HL-1000處理器Habana Labs, Ltd. (www.habana.ai) 17日宣布,該公司正式退出隱身模式,將面向精選客戶推出首個人工智能 (AI) 處理器樣品。基于其 Goya HL-1000 處理器的 PCIe 卡可基于 ResNet-50 推理基準實現每秒15000張圖片的吞吐量,延遲時間為1.3毫秒,功耗僅為100瓦。與如今數據中心部署的一般解決方案相比,Habana Labs 人工智能處理器的性能要高出一到三個數量級。旨在處理各種人工智能推理工作負載,如圖像識別、神經機器翻譯、情感分析、推薦系統以及許多其它應用,Habana Lab
發表于 2018-09-18

小廣播

電子工程世界版權所有 京ICP證060456號 京ICP備10001474號 電信業務審批[2006]字第258號函 京公海網安備110108001534 Copyright ? 2005-2019 EEWORLD.com.cn, Inc. All rights reserved
青海快三技巧