亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為MLPerf HPC v1.0實(shí)現(xiàn)的選定優(yōu)化

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Sukru Burc Eryilmaz ? 2022-04-02 12:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 MLPerf HPC v1 . 0 中, NVIDIA 供電系統(tǒng)贏得了五項(xiàng)新的行業(yè)指標(biāo)中的四項(xiàng),這些指標(biāo)主要關(guān)注 HPC 中的人工智能性能。作為一個(gè)全行業(yè)人工智能聯(lián)盟, MLPerf HPC 評(píng)估了一套性能基準(zhǔn),涵蓋了廣泛使用的人工智能工作負(fù)載。

在這一輪中,與 MLPerf 0 . 7 的強(qiáng)大擴(kuò)展性結(jié)果相比, NVIDIA 在 CosmoFlow 上的性能提高了 5 倍,在 DeepCAM 上的性能提高了 7 倍。這一強(qiáng)大的表現(xiàn)得益于成熟的 NVIDIA AI 平臺(tái)和全套軟件。

提供豐富多樣的庫、 SDK 、工具、編譯器和探查器,很難知道在正確的情況下何時(shí)何地應(yīng)用正確的資產(chǎn)。這篇文章詳細(xì)介紹了各種場(chǎng)景的工具、技術(shù)和好處,并概述了 CosmoFlow 和 DeepCAM 基準(zhǔn)測(cè)試所取得的成果。

我們已經(jīng)為 MLPerf Training v1.0 和 MLPerf Inference v1.1 發(fā)布了類似的指南,推薦用于其他面向基準(zhǔn)測(cè)試的案例。

調(diào)整計(jì)劃

我們使用包括 NVIDIA DALI 在內(nèi)的工具對(duì)代碼進(jìn)行了優(yōu)化,以加速數(shù)據(jù)處理,以及 CUDA Graphs 減少了小批量延遲,從而有效地?cái)U(kuò)展到 1024 個(gè)或更多 GPU 。我們還應(yīng)用了 NVIDIA SHARP ,通過將一些操作卸載到網(wǎng)絡(luò)交換機(jī)來加速通信。

我們提交的文件中使用的軟件可從 MLPerf repository 獲得。我們定期向 NGC catalog 添加新工具和新版本,這是我們針對(duì)預(yù)訓(xùn)練 AI 模型、行業(yè)應(yīng)用程序框架、 GPU 應(yīng)用程序和其他軟件資源的軟件中心。

主要性能優(yōu)化

在本節(jié)中,我們將深入討論為 MLPerf HPC 1 . 0 實(shí)現(xiàn)的選定優(yōu)化。

使用 NVIDIA DALI 庫進(jìn)行數(shù)據(jù)預(yù)處理

在每次迭代之前,從磁盤獲取數(shù)據(jù)并進(jìn)行預(yù)處理。我們從默認(rèn)的數(shù)據(jù)加載器移到了 NVIDIA DALI library 。這為 GPU 提供了優(yōu)化的數(shù)據(jù)加載和預(yù)處理功能。

DALI 庫使用 CPU 和 GPU 的組合,而不是在 CPU 上執(zhí)行數(shù)據(jù)加載和預(yù)處理并將結(jié)果移動(dòng)到 GPU 。這將為即將到來的迭代帶來更有效的數(shù)據(jù)預(yù)處理。優(yōu)化后, CosmoFlow 和 DeepCAM 的速度都顯著加快。 DeepCAM 實(shí)現(xiàn)了超過 50% 的端到端性能提升。

此外, DALI 還為即將到來的迭代提供異步數(shù)據(jù)加載,以消除關(guān)鍵路徑的 I / O 開銷。啟用此模式后,我們看到 DeepCAM 額外增加了 70% 。

將通道應(yīng)用于最后的 NHWC 布局

默認(rèn)情況下, DeepCAM 基準(zhǔn)使用 NCHW 布局作為激活張量。我們使用 PyTorch 的通道 last ( NHWC 布局)支持來避免額外的轉(zhuǎn)置內(nèi)核。 cuDNN 中的大多數(shù)卷積核都針對(duì) NHWC 布局進(jìn)行了優(yōu)化。

因此,在框架中使用 NCHW 布局需要額外的轉(zhuǎn)置內(nèi)核,以便從 NCHW 轉(zhuǎn)換到 NHWC ,從而實(shí)現(xiàn)高效的卷積運(yùn)算。在框架中使用 NHWC 布局避免了這些冗余拷貝,并在 DeepCAM 模型上實(shí)現(xiàn)了約 10% 的性能提升。 NHWC support 在 PyTorch 框架中以 beta 模式提供。

CUDA 圖

CUDA 圖形允許啟動(dòng)由一系列內(nèi)核組成的單個(gè)圖形,而不是單獨(dú)啟動(dòng)從 CPU 到 GPU 的每個(gè)內(nèi)核。此功能最大限度地減少了 CPU 在每次迭代中的參與,通過最大限度地減少延遲(尤其是在強(qiáng)擴(kuò)展場(chǎng)景中)顯著提高了性能。

MXNet 先前添加了 CUDA 圖形支持,而 CUDA Graphs support 最近也添加到了 PyTorch 。 PyTorch 中的 CUDA 圖形支持使 DeepCAM 在強(qiáng)擴(kuò)展場(chǎng)景中的端到端性能提高了約 15% ,這對(duì)延遲和抖動(dòng)最為敏感。

使用 MPI 進(jìn)行高效的數(shù)據(jù)暫存

在伸縮性較弱的情況下,分布式文件系統(tǒng)的性能無法滿足 GPU 的需求。為了增加總存儲(chǔ)帶寬,我們將數(shù)據(jù)集放入 DeepCAM 的節(jié)點(diǎn)本地 NVME 內(nèi)存中。

由于各個(gè)實(shí)例都很小,我們可以靜態(tài)地分割數(shù)據(jù),因此每個(gè)節(jié)點(diǎn)只需要準(zhǔn)備完整數(shù)據(jù)集的一小部分。該解決方案如圖 1 所示。這里,我們用 M 表示實(shí)例數(shù),用 N 表示每個(gè)實(shí)例的秩數(shù)。

圖 1 :將列組聚集到碎片中。

請(qǐng)注意,跨實(shí)例,具有相同列組 ID 的每個(gè)列組使用相同的數(shù)據(jù)碎片。這意味著在本機(jī)上,每個(gè)數(shù)據(jù)碎片被讀取 M 次。為了減輕文件系統(tǒng)的壓力,我們創(chuàng)建了與實(shí)例正交的數(shù)據(jù)子硬盤,如圖 2 所示。

圖 2 :亞硬化的演示。

這樣,每個(gè)文件從全局文件系統(tǒng)只讀一次。最后,每個(gè)實(shí)例都需要接收所有數(shù)據(jù)。為此,我們創(chuàng)建了與實(shí)例內(nèi)通訊器正交的新 MPI 通訊器,也就是說,我們將具有相同列組 id 的所有實(shí)例列組組合到相同的實(shí)例間通訊器中。然后,我們可以使用 MPI allgather 將各個(gè)子硬盤組合成原始碎片的 M 個(gè)副本。

圖 3 :子硬塊的分布。

我們不按順序執(zhí)行這些步驟,而是使用批處理來創(chuàng)建一個(gè)管道,該管道與子硬盤的數(shù)據(jù)讀取和分發(fā)重疊。為了提高讀寫性能,我們進(jìn)一步實(shí)現(xiàn)了一個(gè)小型輔助工具,它使用 O _ DIRECT 來提高 I / O 帶寬。

優(yōu)化使 DeepCAM 基準(zhǔn)測(cè)試的端到端加速比超過 2 倍。這在提交文件 repository 中提供。

損失函數(shù)的混合編程

使用命令式編程可以靈活地定義和運(yùn)行模型,這樣定義一個(gè)機(jī)器學(xué)習(xí)模型就像寫一個(gè)python程序。與此相對(duì)的是符號(hào)式編程,它會(huì)先定義計(jì)算過程,然后再執(zhí)行。這種編程方法允許執(zhí)行引擎進(jìn)行各種優(yōu)化,但丟失了命令式方法的靈活性。

MXNet 框架采用了合并這兩種方法的混合式編程。命令式定義的計(jì)算可以被編譯成符號(hào)式,并在可能時(shí)進(jìn)行優(yōu)化。CosmoFlow 將模型混合式編程進(jìn)行了擴(kuò)展,把損失函數(shù)也包含進(jìn)來。

Hybridization of a larger scope of the model allows realizing further fusion opportunities.

圖 4 :損失函數(shù)的模型混合式。

這允許將損耗計(jì)算中的元素操作與 CosmoFlow 模型的縮放激活輸出進(jìn)行融合,從而減少總體迭代延遲。優(yōu)化使 CosmoFlow 的端到端性能提高了近 5% 。

節(jié)間均采用夏普處理,降低了集體成本

SHARP 允許將集合操作從 CPU 卸載到節(jié)間網(wǎng)絡(luò)結(jié)構(gòu)中的交換機(jī)。這有效地將 allreduce 操作的 InfiniBand 網(wǎng)絡(luò)的節(jié)間帶寬增加了一倍。這種優(yōu)化可使 MLPerf HPC 基準(zhǔn)測(cè)試的性能提高高達(dá) 5% ,特別是在強(qiáng)擴(kuò)展場(chǎng)景中。

繼續(xù)使用 MLPerf HPC

科學(xué)家們正在加速取得突破,部分原因是人工智能和高性能計(jì)算相結(jié)合,能夠比傳統(tǒng)方法更快、更準(zhǔn)確地提供洞察力。

MLPerf HPC v1 . 0 反映了超級(jí)計(jì)算行業(yè)對(duì)客觀、同行評(píng)審的方法的需求,以測(cè)量和比較與 HPC 相關(guān)用例的 AI 培訓(xùn)性能。在這一輪中, NVIDIA 計(jì)算平臺(tái)通過損壞所有三個(gè)性能基準(zhǔn)來證明清晰的領(lǐng)導(dǎo),同時(shí)也證明了兩個(gè)吞吐量測(cè)量的最高效率。

關(guān)于作者

Sukru Burc Eryilmaz 是 NVIDIA 計(jì)算機(jī)體系結(jié)構(gòu)的高級(jí)架構(gòu)師,他致力于在單節(jié)點(diǎn)和超級(jí)計(jì)算機(jī)規(guī)模上改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的端到端性能。他從斯坦福大學(xué)獲得博士學(xué)位,并從比爾肯特大學(xué)獲得學(xué)士學(xué)位。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5461

    瀏覽量

    108709
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7741

    瀏覽量

    92511
  • MLPerf
    +關(guān)注

    關(guān)注

    0

    文章

    37

    瀏覽量

    936
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    RISC-V HPC新標(biāo)桿Sophon SG2044深度評(píng)估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    在RISC-V架構(gòu)的普及浪潮中,嵌入式領(lǐng)域的成功早已眾人皆知,但高性能計(jì)算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現(xiàn)打破了僵局。國際權(quán)威技術(shù)媒體發(fā)布的深度評(píng)測(cè)《IsRISC-VreadyforHighPerformanceComputing?
    的頭像 發(fā)表于 10-16 13:23 ?283次閱讀
    RISC-<b class='flag-5'>V</b> <b class='flag-5'>HPC</b>新標(biāo)桿Sophon SG2044深度評(píng)估:支持RVV <b class='flag-5'>v1.0</b>適配GCC 15.2,多核性能潛力巨大!

    Andes晶心科技推出AutoOpTune v1.0提升開發(fā)效率

    Andes AutoOpTune v1.0 可自動(dòng)探索并選擇優(yōu)化編譯程序選項(xiàng),協(xié)助軟件開發(fā)人員在效能與程序代碼大小間取得最佳平衡,加速整體開發(fā)流程。
    的頭像 發(fā)表于 08-18 10:23 ?786次閱讀

    請(qǐng)問是否可以將 Nu-Link2-Me V1.0 的固件升級(jí)到 V2.0?

    我目前有一個(gè) NuMaker-M251KG V1.1 板,我正在嘗試將其連接到 Crossworks for ARM IDE 并運(yùn)行它。但是,它沒有連接。 NuMaker-M433SE V1.0
    發(fā)表于 08-18 08:09

    瑞芯微RV1126&RV1109替換RV1126B-P說明_V1.0

    瑞芯微RV1126&RV1109替換RV1126B-P說明_V1.0目前RV1109/1126已停產(chǎn)可提供新版本樣品與技術(shù)支持
    發(fā)表于 08-11 12:02 ?0次下載

    OAH0428 V1.0英文規(guī)格書

    電子發(fā)燒友網(wǎng)站提供《OAH0428 V1.0英文規(guī)格書.pdf》資料免費(fèi)下載
    發(fā)表于 08-06 15:52 ?11次下載

    匠芯創(chuàng)D133CBS RISC-V KunLun Pi V1.0開發(fā)板開發(fā)資料

    、豐富的屏接口,支持工業(yè)寬溫,具有高可靠性、高開放性,可廣泛應(yīng)用于工業(yè) HMI、 網(wǎng)關(guān)、串口屏等泛工業(yè)和智慧家居領(lǐng)域。 D133CBS RISC-V KunLun Pi V1.0 是一款基于 D13x
    發(fā)表于 07-15 17:27

    深控?cái)?shù)據(jù)平臺(tái)V1.0發(fā)布!以IoT之力重塑工廠“數(shù)據(jù)脈絡(luò)”

    自主研發(fā)的“深控?cái)?shù)據(jù)平臺(tái)V1.0”(軟著登記號(hào):XXXXXXXX),以IoT技術(shù)核心,打造“全域感知-智能分析-精準(zhǔn)控制”的一體化平臺(tái)。
    的頭像 發(fā)表于 05-28 14:56 ?402次閱讀

    CR6520B應(yīng)用指導(dǎo)書 V1.0

    電子發(fā)燒友網(wǎng)站提供《CR6520B應(yīng)用指導(dǎo)書 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 04-22 15:52 ?0次下載

    中軟國際推出昇騰金融AI解決方案和一體機(jī)v1.0

    近日,中軟國際重磅推出昇騰金融AI解決方案和一體機(jī)v1.0,該方案基于昇騰AI基礎(chǔ)軟硬件平臺(tái),完成并通過昇騰原生技術(shù)認(rèn)證,深度對(duì)接DeepSeek大模型,金融行業(yè)帶來了創(chuàng)新的數(shù)字化轉(zhuǎn)型思路,旨在
    的頭像 發(fā)表于 03-28 17:05 ?925次閱讀

    主機(jī)處理器板DSI MIPI輸出是否與DLPC3430的DSI輸入匹配?就是v1.0V1.2是否兼容?

    DLPC3430和DLPC3433控制器實(shí)現(xiàn)DSI v1.02.00和D-PHY MIPI v1.0,主機(jī)處理器DSI變送器的DSI適用標(biāo)準(zhǔn)MIPI聯(lián)盟規(guī)范,DSIV1.2和MIP
    發(fā)表于 02-25 06:29

    WH-M溫濕度模塊安裝使用說明書 V1.0

    電子發(fā)燒友網(wǎng)站提供《WH-M溫濕度模塊安裝使用說明書 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 02-19 14:30 ?0次下載

    EG3112芯片數(shù)據(jù)手冊(cè) V1.0

    電子發(fā)燒友網(wǎng)站提供《EG3112芯片數(shù)據(jù)手冊(cè) V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 02-08 15:36 ?3次下載

    HPC工作負(fù)載管理的關(guān)鍵要素

    HPC工作負(fù)載管理是一個(gè)復(fù)雜而精細(xì)的過程,涉及資源分配、作業(yè)調(diào)度、性能監(jiān)控與優(yōu)化以及故障處理與恢復(fù)等多個(gè)關(guān)鍵要素。下面,AI部落小編帶您了解HPC工作負(fù)載管理的關(guān)鍵要素。
    的頭像 發(fā)表于 02-08 09:53 ?496次閱讀

    HPC云計(jì)算的技術(shù)架構(gòu)

    HPC云計(jì)算結(jié)合了HPC的強(qiáng)大計(jì)算能力和云計(jì)算的彈性、可擴(kuò)展性,用戶提供了按需獲取高性能計(jì)算資源的便利。下面,AI部落小編帶您了解HPC云計(jì)算的技術(shù)架構(gòu)。
    的頭像 發(fā)表于 02-05 14:51 ?607次閱讀

    ESP32-CAM Wi-Fi+BT SoC模組 V1.0

    電子發(fā)燒友網(wǎng)站提供《ESP32-CAM Wi-Fi+BT SoC模組 V1.0.pdf》資料免費(fèi)下載
    發(fā)表于 11-21 16:24 ?1次下載