亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

最新測試:NVIDIA的安培GPU測試性能是最先進 CPU的237倍

如意 ? 來源:雷鋒網(wǎng) ? 作者:包永剛 ? 2020-10-23 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

MLPerf組織今天發(fā)布最新的推理基準測試(Benchmark)MLPerf Inference v0.7結果,總共有23個組織提交了結果,相比上一個版本(MLPerf Inference v0.5)的12個提交者增加了近一倍。

結果顯示,今年5月NVIDIA(Nvidia)發(fā)布的安培(Ampere)架構A100 Tensor Core GPU,在云端推理的基準測試性能是最先進Intel CPU的237倍。

最新測試:NVIDIA的安培GPU測試性能是最先進 CPU的237倍

MLPerf Inference V0.7部分結果截圖

最新的AI推理測試結果意味著,NVIDIA未來可能在AI推理和訓練市場都占據(jù)領導地位,給云端AI推理市場擁有優(yōu)勢的Intel帶來更大壓力的同時,也將讓其他追趕者面臨更大挑戰(zhàn)。

MLPerf推理基準測試進一步完善的價值

與2019年的MLPerf Inference v0.5版本相比,最新的0.7版本將測試從AI研究的核心視覺和語言的5項測試,擴展了到了包括推薦系統(tǒng)、自然語言理解、語音識別和醫(yī)療影像應用的6項測試,并且有分別針對云端和終端推理的測試,還加入了手機和筆記本電腦的結果。

擴展的測試項從MLPerf和業(yè)界兩個角度都有積極意義。

最新測試:NVIDIA的安培GPU測試性能是最先進 CPU的237倍

任何一個基準測試都需要給業(yè)界具有參考價值的指標。MLPerf基準測試是在業(yè)界缺乏對AI芯片公認的評價標準的2018年誕生,因此,MLPerf組織既需要給出各方都認可的成績,還需要根據(jù)AI行業(yè)的發(fā)展完善評價標準。

不過,AI行業(yè)發(fā)展迅速,AI模型的參數(shù)越來越多,應用的場景也越來越廣泛。評價AI芯片和系統(tǒng)的推理性能需要涵蓋可編程性、延遲、準確性、模型大小、吞吐量、能效等指標,也需要選擇更具指導價值的模型和應用。

此次增加的推薦系統(tǒng)測試對于互聯(lián)網(wǎng)公司意義重大。在王喆的《深度學習推薦系統(tǒng)》一書中提到,2019年天貓“雙11”的成交額是2684億元,假設推薦系統(tǒng)進行了優(yōu)化,整體的轉化率提高1%,那么增加的成交額大約為26.84億元。

另外,MLPerf Inference v0.7中增加醫(yī)療影像3D U-Net模型測試與新冠大流行以及AI在醫(yī)療行業(yè)的重要性與日俱增密切相關,比如一家初創(chuàng)公司使用AI簡化了超聲心電圖的采集工作,在新冠大流行初期發(fā)揮了作用。

基準測試從v0.5到v0.7,能夠為要選用AI芯片和系統(tǒng)的公司提供更直觀和有價值的參考是MLPerf基準測試的價值所在,比如,幫助金融結構的會話式AI更快速回答客戶問題,幫助零售商使用AI保證貨架庫存充足。

與此同時,這也將促進MLPerf組織在業(yè)界的受認可程度,從接近翻倍的提交成績的組織就能看出來。

GPU云端推理性能最高是CPU的237倍

過去幾年,云端AI訓練市場NVIDIA擁有絕對優(yōu)勢,云端AI推理市場被Intel賺取了大部分利潤是事實。這讓不少人都產(chǎn)生了GPU更適合訓練而CPU更適合推理的認知,但MLPerf最新的推理測試結果可能會改變這一觀點。

MLPerf Inference V0.7的測試結果顯示,在數(shù)據(jù)中心OFFLINE(離線)測試模式下,賽靈思U250和IntelCooper Lake在各個測試模型下與NVIDIAT4的差距不大,但A100對比CPU、FPGA和自家的T4就有明顯的性能差距。

在SERVER模式下的推薦系統(tǒng)DLRM模型下,A100 GPU對比IntelCooper Lake有最高237倍的性能差距,在其他模型下也有比較顯著的差距。值得注意的是,Intel的Cooper Lake系統(tǒng)的狀態(tài)還是預覽,其余三款芯片的系統(tǒng)都已經(jīng)可用。

A100 GPU的優(yōu)勢也在邊緣推理中也十分明顯。在單數(shù)據(jù)流(Singel-Stream)測試中,A100對比NVIDIAT4和面向邊緣終端的NVIDIAJetson AGX Xavier有幾倍到十幾倍的性能優(yōu)勢。在多數(shù)據(jù)流(Multi-Stream)測試中,A100對比另外兩款自家產(chǎn)品在不同AI模型中有幾倍到二十多倍的性能優(yōu)勢。

在邊緣OFFLINE模式下,A100對比T4和Jetson AGX Xavier也有幾倍到二十多倍的性能優(yōu)勢。

這很好地說明A100的安培架構以及其第三代Tensor Core優(yōu)勢的同時,也表明了NVIDIA能夠覆蓋整個AI推理市場。

在此次提交結果的23家公司中,除了NVIDIA外還有11家其合作伙伴提交了基于NVIDIA GPU的1029個測試結果,占數(shù)據(jù)中心和邊緣類別中參評測試結果總數(shù)的85%以上。

從提交結果的合作伙伴的系統(tǒng)中可以看到,NVIDIAT4仍然是企業(yè)的邊緣服務器推理平臺的主要選擇。A100提升到新高度的性能意味著未來企業(yè)邊緣服務器在選擇AI推理平臺的時候,可以從T4升級到A100,對于功耗受限的設備,可以選擇Jeston系列產(chǎn)品。

特別值得注意的是,NVIDIA GPU首次在公有云中實現(xiàn)了超越CPU的AI推理能力。

臨界點到來?AI推理芯片市場競爭門檻更高

五年前,只有少數(shù)領先的高科技公司使用GPU進行推理。如今,NVIDIAGPU首次在公有云市場實現(xiàn)超越CPU的AI推理能力,或許意味著AI推理市場臨界點的到來。NVIDIA還預測,基于其GPU的總體云端AI推理計算能力每兩年增長約10倍,增長速度高于CPU。

另外,NVIDIA還強調基于A100高性能系統(tǒng)的成本效益。NVIDIA表示,一套DGX A100系統(tǒng)可以提供相當于近1000臺雙插槽CPU服務器的性能,能為客戶AI推薦系統(tǒng)模型從研發(fā)走向生產(chǎn)的過程,具有極高的成本效益。

同時,NVIDIA也在不斷優(yōu)化推理軟件堆棧,進一步提升在推理市場的競爭力。

最先感受到影響的會是Intel,但在云端AI推理市場體現(xiàn)出顯著變化至少需要幾年時間,因為企業(yè)在更換平臺的時候會更加謹慎,生態(tài)的護城河此時也更能體現(xiàn)出價值。

但無論如何,我們都看到NVIDIA在AI市場的強勢地位。雷鋒網(wǎng)七月底報道,在MLPerf發(fā)布的MLPerf Training v0.7基準測試中,A100 Tensor Core GPU,和HDR InfiniBand實現(xiàn)多個DGX A100 系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng)在性能上開創(chuàng)了八個全新里程碑,共打破16項紀錄。

安培架構A100在MLPerf最新的訓練和推理成績表明NVIDIA不僅給云端AI訓練的競爭者更大的壓力,也可能改變AI推理市場的格局。

NVIDIA將其在云端訓練市場的優(yōu)勢進一步拓展到云端和邊緣推理市場符合AI未來的發(fā)展趨勢。有預測指出,隨著AI模型的成熟,市場對云端AI訓練需求的增速將會降低,云端AI推理的市場規(guī)模將會迅速增加,并有望在2022年超過訓練市場。

另據(jù)市場咨詢公司ABI Research的數(shù)據(jù),預計到2025年,邊緣AI芯片市場收入將達到122億美元,云端AI芯片市場收入將達到119億美元,邊緣AI芯片市場將超過云端AI芯片市場。

憑借強大的軟硬件生態(tài)系統(tǒng),NVIDIA和Intel依舊會是AI市場的重要玩家,只是隨著他們競爭力的不斷提升,其他參與AI市場競爭的AI芯片公司們面臨的壓力也隨之增加。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11200

    瀏覽量

    222136
  • NVIDIA
    +關注

    關注

    14

    文章

    5464

    瀏覽量

    108730
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5066

    瀏覽量

    134123
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構 GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?2348次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>測試</b>分析

    NVIDIA桌面GPU系列擴展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發(fā)表于 08-18 11:50 ?833次閱讀

    PCIe協(xié)議分析儀能測試哪些設備?

    :提升數(shù)據(jù)中心的整體效率,降低CPU負載。 四、異構計算與擴展設備 多GPU系統(tǒng) 測試場景:利用PCIe協(xié)議分析儀模擬高負載的GPU間通信,測試
    發(fā)表于 07-25 14:09

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?2804次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場景中的<b class='flag-5'>性能</b>紀錄

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    。。) 原理學習 在「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中,作者詳解了從帕斯卡架構到40系的Hopper架構的技術演變進化,按照出版時間算是囊括了NVIDIA
    發(fā)表于 06-18 19:31

    1.9性能提升!英特爾至強6在MLPerf基準測試中表現(xiàn)卓越

    與第五代至強處理器相比,英特爾至強6性能核的性能平均提高了1.9。 今日,MLCommons公布了最新的MLPerf推理v5.0基準測試結果,其中,英特爾??至強??6
    的頭像 發(fā)表于 04-07 10:58 ?439次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級 GPU 和 AI 賦能的開發(fā)者工具—同時,ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結束測試階段,本月的
    的頭像 發(fā)表于 03-28 09:59 ?955次閱讀

    比斯特電池組綜合性能測試機:基于先進技術的性能優(yōu)勢展現(xiàn)

    在鋰電池測試設備的領域中,比斯特BT-100V20C100F 電池組綜合性能測試機憑借其基于先進技術構建的強大性能優(yōu)勢,脫穎而出,成為了行業(yè)
    的頭像 發(fā)表于 03-07 09:49 ?488次閱讀
    比斯特電池組綜合<b class='flag-5'>性能</b><b class='flag-5'>測試</b>機:基于<b class='flag-5'>先進</b>技術的<b class='flag-5'>性能</b>優(yōu)勢展現(xiàn)

    NVIDIA推出GeForce RTX 50系列臺式機和筆記本電腦GPU

    NVIDIA 宣布為游戲玩家、創(chuàng)作者和開發(fā)者推出最先進的消費級 GPU——GeForce RTX 50 系列臺式機和筆記本電腦 GPU。
    的頭像 發(fā)表于 01-08 11:05 ?1286次閱讀

    Advantest CEO:先進芯片測試需求大增

    技術的不斷進步,現(xiàn)代先進芯片在測試方面的需求較以往有了大幅提升。他透露,目前最先進的芯片從晶圓切割到成品組裝的全流程中,需要經(jīng)過Advantest設備10~20道的測試。而在五年前,這
    的頭像 發(fā)表于 01-03 14:26 ?751次閱讀

    如何測試電子開關的性能

    測試電子開關的性能是確保其質量和可靠性的重要環(huán)節(jié)。以下是一些常用的測試方法和步驟: 一、基本性能測試 標志檢查 :確保產(chǎn)品有清晰的標志和說明
    的頭像 發(fā)表于 12-30 14:55 ?1653次閱讀

    華為云 X 實例 CPU 性能測試詳解與優(yōu)化策略

    引言 ? 1. 測試環(huán)境搭建 ? 1.1 測試實例的選擇 ? 1.2 CPU性能測試工具介紹 ? 1.3 安裝和配置Sysbench ? 2
    的頭像 發(fā)表于 12-30 14:52 ?1047次閱讀
    華為云 X 實例 <b class='flag-5'>CPU</b> <b class='flag-5'>性能</b><b class='flag-5'>測試</b>詳解與優(yōu)化策略

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發(fā)揮出卓越的推理性能
    的頭像 發(fā)表于 12-17 17:47 ?1495次閱讀

    《CST Studio Suite 2024 GPU加速計算指南》

    問題,但會降低舊GPU硬件性能,可通過NVIDIA控制面板或命令行工具nvidia - smi管理。 - TCC模式(Windows only):某些
    發(fā)表于 12-16 14:25

    如何測試PROM器件的性能

    測試PROM(Programmable Read-Only Memory,可編程只讀存儲器)器件的性能是確保其在實際應用中穩(wěn)定可靠的重要環(huán)節(jié)。以下是一些常用的測試PROM器件性能的方法
    的頭像 發(fā)表于 11-23 11:33 ?1007次閱讀