您正在瀏覽的是香港網站,香港證監會BJA907號,投資有風險,交易需謹慎
市場資訊

市場資訊

首頁市場資訊資訊詳情

MLPerf跑分:Nvidia領跑,中國力量正在崛起

格隆匯 07-05 16:40

本文來自:半導體行業觀察

六月底,MLPerf公佈了最新的人工智能模型訓練在不同的芯片上的跑分結果。該結果也是第一個正式版(版本號1.0)的結果,因此是我們比較各個芯片運行人工智能訓練性能非常好的一個平臺。

首先我們簡單回顧一下MLPerf的背景。隨着人工智能應用的崛起,其在不同的硬件芯片平臺上的性能也逐漸變成了比較不同硬件和芯片的重要參考。然而,最初由各個芯片廠商自行公佈的跑分結果往往很難直接比較,因爲其中包括了許多不同的參數,例如模型版本(例如同一個ResNet50可以延伸出許多不同的版本,不同廠商可能會選取對自己芯片最有利的版本來做跑分),模型數字精度(浮點數還是整數)等等。在這種情況下,MLPerf就出現了,該跑分(benchmark)平臺是一個由第三方機構(MLCommons)維護的平臺,該第三方機構根據目前人工智能領域的發展,選取出數個具有代表性的標準人工智能模型(包括機器視覺領域的ResNet,Mask R-CNN,自然語言處理領域的BERT,推薦系統領域的DLRM等)以供有需要的機構做測評。不同的機構則可以上傳這些標準模型在自己的硬件芯片上的跑分結果,並且由MLCommons收集並驗證後統一公佈在網站上。這樣一來,不同硬件芯片平臺在做AI模型跑分的時候,就可以有一個統一的模型,也可以直接相互比較。

目前,MLPerf公佈的跑分結果已經成爲了業界的主流AI模型硬件性能指標。在這次最新公佈的1.0版本AI模型訓練結果中,既包括了主流GPU(Nvidia A100)的結果,也包括了Habana Gaudi,Graphcore IPU等來自初創公司AI加速芯片的結果,還有來自Google TPU和華爲Ascend這樣的來自巨頭公司的自用ASIC的結果。此外,在結果部分也大體可以分爲兩類,一類是單機多卡訓練結果,該結果主要突出芯片本身的性能;另一類是多機分佈式訓練結果,該結果則體現了芯片以及系統對於分佈式計算的支持。


單機訓練Nvidia地位仍然穩固


在MLPerf公佈的單機訓練結果主要包括Nvidia A100、Habana Gaudi以及Graphcore IPU的結果(谷歌的TPU和華爲Ascend僅公佈了多機訓練結果)。從結果來看,Nvidia的下一代GPU A100性能仍然很強。

我們可以比較Habana Gaudi(目前Habana已經被Intel收購,因此可以認爲是Intel出品的AI加速器)和Graphcore IPU相對於Nvidia A100的性能。在機器視覺類任務(在ImageNet數據集上訓練ResNet50)的結果中,Habana Gaudi在使用八個加速器核心時訓練需要62分鐘,該結果與使用4張Nvidia A100 GPU所需要的時間接近。而在BERT訓練任務中,Habana Gaudi的八加速卡訓練結果甚至比4張A100還要慢三倍以上。對於Graphcore,使用16個加速器在機器視覺任務上性能大約與Nvidia 8張A100性能接近,而在自然語言處理(BERT)任務中則與4張A100接近。有趣的是,Graphcore還公佈了使用64張IPU的結果,該結果與使用16-24張A100的結果比較接近。根據現有數據,尚不清楚使用64張IPU需要使用幾臺機器來實現。

從目前結果來看,至少在訓練任務中,來自Habana和Graphcore的AI加速芯片與Nvidia最新的GPU的單卡性能處於同一數量級,同時在某些任務(例如自然語言處理)中Nvidia的GPU有更大的單芯片性能優勢。由於沒有公佈大規模分佈式訓練的結果,我們還不清楚這些AI加速卡能否咋大規模訓練的極限性能上超越Nvidia。


分佈式訓練Nvidia與谷歌極限性能接近


除了單機(單芯片)性能之外,AI模型的訓練任務還關心分佈式訓練的極限性能。隨着人工智能模型越來越複雜(例如GPT-3這樣的超大型模型出現併成爲主流),越來越多的人工智能模型需要能使用分佈式計算才能完成訓練,單機訓練要麼速度太慢(例如需要幾個月才能完成),或者甚至根本無法裝下模型。在分佈式訓練中,理想情況下訓練速度與分佈式機器的數量呈線性關係,但是現實中隨着分佈式機器數量上升,機器之間互相通信的開銷越來越大,最終其訓練速度會在機器數量增加到一定數量時達到飽和,即再繼續增加機器數量也不會顯著改善訓練速度。這種訓練速度的飽和值我們不妨稱作極限性能。

在本次MLPerf公佈的結果中,我們發現Nvidia和谷歌的TPU在大規模分佈式訓練性能(尤其是極限性能)方面旗鼓相當(谷歌在MLPerf中僅僅公佈了TPU的分佈式訓練結果,並沒有公佈單機訓練結果),甚至我們還可以發現谷歌在大規模訓練的系統設計方面略勝一籌。

在極限性能方面,谷歌TPU在使用2048張TPU時在訓練BERT時的性能和Nvidia使用4096張A100時幾乎一致(同時如果使用3456張TPU可以將訓練速度提升10%不到,可見該訓練速度基本已經是極限性能)。值得注意的是,當使用64張TPU時,谷歌訓練BERT的速度要比使用64張A100的訓練速度慢20%左右。這意味着Nvidia的A100 GPU的性能在分佈計算數量較少時優於TPU,但是當分佈式數量上升時,基於TPU的系統性能在逐步追上,最後僅僅需要使用更少的TPU(2048)即可實現與更多A100 GPU(4096)相同的極限性能。我們認爲這體現了谷歌在分佈式計算領域的深厚積累,包括從系統架構定義,底層軟件優化到相關的芯片設計優化上。


中國力量崛起


最後,值得我們關注的是北大和鵬城實驗室基於華爲Kunpeng CPU+Ascend加速卡+mindspore軟件框架的分佈式訓練結果。

從結果來看,在自然語言處理領域,BERT訓練結果的跑分華爲Ascend 128卡的結果與介於64卡Nvidia A100和64卡TPU之間,而在機器視覺領域,Ascend 1024卡的結果與A100 1024卡的結果接近。我們認爲這是一個非常優秀的結果,證明中國在AI計算領域處於全球領先水平。分佈式訓練並不是一個容易的領域,它需要芯片、系統和軟件的深度協同設計和調優,而MLPerf的結果中,CPU、AI加速卡、機器學習軟件框架以及分佈式機器設計全部來自中國且能實現與Nvidia、谷歌等全球最高水準可媲美是一件值得我們自豪的事情。

展望未來,機器學習領域的芯片性能通常對於半導體工藝較爲敏感,需要最好的工藝才能實現最強的單芯片性能。但是,如前所述,大規模分佈式計算的極限性能(以及分佈式計算規模較大時的性能)不僅僅取決於單芯片性能,還取決於整個系統設計。因此,即使已知無法使用最先進的工藝實現最強的單芯片性能,大規模分佈式計算領域仍然是值得長期投入的領域,因爲結合優化的系統設計,有可能可以彌補單芯片性能的短板。希望中國半導體芯片業界和人工智能系統設計行業可以進一步在這個領域加強合作並推動技術進步,我們認爲該領域中國在未來有相當大的潛力。

20240601谷歌GOOG
相關股票