亚洲a∨精品一区二区三区,国产传媒一区二区三区

作者：Ole Dreessen

人工智能應用需要大量的能源消耗，通常以服務器群或昂貴的現(xiàn)場可編程門陣列（FPGA）的形式出現(xiàn)。挑戰(zhàn)在于提高計算能力，同時保持較低的能耗和成本?，F(xiàn)在，人工智能應用正在看到強大的智能邊緣計算所帶來的巨大轉變。與傳統(tǒng)的基于固件的計算相比，基于硬件的卷積神經網絡加速以其驚人的速度和功能開創(chuàng)了計算性能的新時代。通過使傳感器節(jié)點能夠做出自己的決策，智能邊緣技術大大降低了 5G 和 Wi-Fi 網絡的數(shù)據(jù)傳輸速率。這為新興技術和獨特的應用提供了動力，這在以前是不可能的。例如，遠程位置的煙霧/火災探測器或傳感器級別的環(huán)境數(shù)據(jù)分析成為現(xiàn)實 - 所有這些都在電池電源上使用多年。為了研究這些功能是如何實現(xiàn)的，本文探討了帶有專用AI 微控制器的CNN的硬件轉換。

具有超低功耗卷積神經網絡加速器的人工智能微控制器

MAX78000是一款具有超低功耗CNN加速器的AI微控制器，這是一種先進的片上系統(tǒng)。它支持超低功耗的神經網絡，適用于資源受限的邊緣設備或物聯(lián)網應用。此類應用包括對象檢測和分類、音頻處理、聲音分類、噪聲消除、面部識別、心率/健康信號分析的時間序列數(shù)據(jù)處理、多傳感器分析和預測性維護。

圖1顯示了MAX78000的框圖，該由帶有浮點單元的Arm Cortex-M100F內核供電至4 MHz。為了給應用提供足夠的存儲器資源，此版本的微控制器配備了512 kB閃存和128 kBSRAM。包括多個外部接口，如I2C、SPI和UART，以及I2S，這對于音頻應用非常重要。此外，還有一個集成的60 MHz RISC-V內核。RISC-V將數(shù)據(jù)從/復制到各個外設模塊和存儲器（閃存和SRAM），使其成為智能直接存儲器訪問（DMA）引擎。RISC-V內核預處理AI加速器的傳感器數(shù)據(jù)，因此Arm內核在此期間可以處于深度睡眠模式。如有必要，推理結果可以通過中斷觸發(fā) Arm 內核，然后 Arm CPU 在主應用程序中執(zhí)行操作，無線傳遞傳感器數(shù)據(jù)或通知用戶。??

圖 1。MAX78000模塊原理圖。

用于卷積神經網絡推理的硬件加速器單元是MAX7800x系列微控制器的一個顯著特點，使其有別于標準微控制器架構和外設。該硬件加速器可以支持完整的CNN模型架構以及所有必需的參數(shù)（權重和偏差）。CNN 加速器配備 64 個并行處理器和一個集成存儲器，其中 442 kB 用于存儲參數(shù)，896 kB 用于輸入數(shù)據(jù)。由于模型和參數(shù)存儲在SRAM存儲器中，因此可以通過固件進行調整，并且可以實時調整網絡。根據(jù)模型中使用的是 1 位、2 位、4 位還是 8 位權重，此內存足以容納多達 3 萬個參數(shù)。由于存儲器功能是加速器的一個組成部分，因此不必在每次連續(xù)的數(shù)學運算中通過微控制器總線結構獲取參數(shù)。由于高延遲和高功耗，此活動的成本很高。神經網絡加速器可以支持 5 或 32 層，具體取決于池化函數(shù)。每層可編程圖像輸入/輸出大小高達 64 × 1024 像素。

CNN 硬件轉換：能耗和推理速度比較

CNN推理是一項復雜的計算任務，由矩陣形式的大型線性方程組成。利用 Arm Cortex-M4F 微控制器的強大功能，可以在嵌入式系統(tǒng)的固件上進行 CNN 推理;但是，有一些缺點需要考慮。在微控制器上運行基于固件的推理時，需要從內存中檢索計算所需的命令以及相關的參數(shù)數(shù)據(jù)，然后才能寫回中間結果，因此會消耗大量精力和時間。

表 1 比較了使用三種不同解決方案的 CNN 推理速度和能耗。該示例模型是使用手寫數(shù)字識別訓練集MNIST開發(fā)的，該訓練集對視覺輸入數(shù)據(jù)中的數(shù)字和字母進行分類，以得出準確的輸出結果。測量每種處理器類型所需的推理時間，以確定能耗和速度之間的差異。

表 1.利用MNIST數(shù)據(jù)集進行手寫數(shù)字識別的三種不同場景

在第一個場景中，集成到MAX4中的Arm Cortex-M32630F處理器（運行頻率為96 MHz）用于計算推理。在第二種情況下，為了處理計算，使用了MAX78000基于硬件的CNN加速器。當使用帶有基于硬件的加速器（MAX400）的微控制器時，推理速度（即在網絡輸入處呈現(xiàn)視覺數(shù)據(jù)與結果輸出之間的時間）會降低 78000 倍。此外，每次推理所需的能量要低 1100 倍。在第三個比較中，MNIST網絡針對每次推理的最小能耗進行了優(yōu)化。在這種情況下，結果的準確性從 99.6% 下降到 95.6%。但是，網絡速度要快得多，每次推理只需要 0.36 毫秒。每次推理的能耗降至僅 1.1 μW。在使用兩節(jié)AA堿性電池（總能量為6 Wh）的應用中，可以進行《》萬次推理（省略電路其余部分消耗的功率）。

這些數(shù)據(jù)說明了硬件加速計算的強大功能。硬件加速計算對于無法利用連接或連續(xù)電源的應用程序來說是一種寶貴的工具。該MAX78000支持邊緣處理，而無需大量能源、寬帶互聯(lián)網接入或延長推理時間。

MAX78000 AI 微控制器的示例用例

該MAX78000支持多種潛在應用程序，但讓我們以以下用例為例。要求是設計一個電池供電的攝像頭，檢測貓何時在其圖像傳感器的視野中，從而能夠通過貓門的數(shù)字輸出進入房屋。

圖2描述了這種設計的示例框圖。在這種情況下，RISC-V內核定期打開圖像傳感器，并將圖像數(shù)據(jù)加載到由MAX78000供電的CNN中。如果貓識別的概率高于先前定義的閾值，則啟用貓門。然后，系統(tǒng)將返回到待機模式。

圖2.智能寵物門的框圖。

開發(fā)環(huán)境和評估套件

開發(fā)邊緣 AI 應用程序的過程可以分為以下幾個階段：

第 1 階段：人工智能——網絡的定義、訓練和量化

第 2 階段：Arm 固件 – 將第 1 階段生成的網絡和參數(shù)包含在 C/C++ 應用程序中，并創(chuàng)建和測試應用程序固件

開發(fā)過程的第一部分涉及 AI 模型的建模、訓練和評估。在這個階段，開發(fā)人員可以利用開源工具，如PyTorch和TensorFlow。GitHub 存儲庫提供了全面的資源，幫助用戶規(guī)劃他們使用 PyTorch 開發(fā)環(huán)境構建和訓練 AI 網絡的旅程，同時考慮MAX78000的硬件規(guī)格。存儲庫中包含一些簡單的AI網絡和應用程序，例如面部識別（Face ID）。

圖 3 顯示了 PyTorch 中典型的 AI 開發(fā)過程。首先，對網絡進行建模。需要注意的是，并非所有MAX7800x微控制器的硬件都支持PyTorch環(huán)境中的所有數(shù)據(jù)操作。因此，ADI公司提供的文件 ai8x.py 必須首先包含在項目中。此文件包含使用該MAX78000所需的 PyTorch 模塊和運算符。基于此設置，可以構建網絡，然后使用訓練數(shù)據(jù)進行訓練、評估和量化。此步驟的結果是一個檢查點文件，其中包含最終合成過程的輸入數(shù)據(jù)。在最后一個流程步驟中，網絡及其參數(shù)被轉換為適合硬件CNN加速器的形式。這里應該提到的是，網絡培訓可以在任何PC（筆記本電腦，服務器等）上完成。但是，如果沒有 CUDA 顯卡支持，這可能需要大量時間——即使對于小型網絡，幾天甚至幾周也是完全現(xiàn)實的。

圖 3。人工智能開發(fā)過程。

在開發(fā)過程的第 2 階段，使用將數(shù)據(jù)寫入 CNN 加速器并讀取結果的機制創(chuàng)建應用程序固件。在第一階段創(chuàng)建的文件通過 #include 指令集成到 C/C++ 項目中。Eclipse IDE和GNU工具鏈等開源工具也用于微控制器的開發(fā)環(huán)境。ADI提供軟件開發(fā)套件（Maxim Micros SDK （Windows））作為安裝程序，其中包含所有必要的組件和配置。軟件開發(fā)套件還包含外設驅動程序以及示例和說明，以簡化開發(fā)應用程序的過程。

一旦項目被編譯和鏈接而沒有任何錯誤，就可以在目標硬件上對其進行評估。為此，ADI開發(fā)了兩種不同的硬件平臺。圖 4 顯示了MAX78000EVKIT，圖 5 顯示了MAX78000FTHR，這是一個稍小的羽毛外形板。每塊板都配有一個VGA攝像頭和一個麥克風。

結論

以前，人工智能應用需要服務器場或昂貴的FPGA形式的大量能源消耗?，F(xiàn)在，借助帶有專用 CNN 加速器的 MAX78000 系列微控制器，可以使用單塊電池長時間為 AI 應用供電。能源效率和功耗的這一突破使邊緣 AI 比以往任何時候都更容易獲得，并釋放了以前不可能實現(xiàn)的令人興奮的全新邊緣 AI 應用的潛力。

編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微控制器

微控制器

+關注

關注
48

文章
8214

瀏覽量
160920
FPGA

FPGA

+關注

關注
1652

文章
22231

瀏覽量
628548
神經網絡

神經網絡

+關注

關注
42

文章
4821

瀏覽量
106428
AI

AI

+關注

關注
89

文章
37451

瀏覽量
292901
cnn

cnn

+關注

關注
3

文章
355

瀏覽量
23195

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

基于AI微控制器的CNN的硬件轉換

評論