TI 處理器與深度學(xué)習(xí)加速器
[TI]的AM6xA(如[AM68Ax]和[AM69Ax])邊緣AI處理器采用異構(gòu)架構(gòu),帶有用于深度學(xué)習(xí)計算的專用加速器。這個加速器被稱為MMA -矩陣乘法加速器。該MMA與TI自己的C7x數(shù)字信號處理器一起,可以進行高效的張量,矢量和標量處理。加速器是獨立的深度學(xué)習(xí)處理,不依賴于主機ARM CPU。由于模型計算有大量的數(shù)據(jù)傳輸,加速器有自己的DMA引擎和內(nèi)存子系統(tǒng),與SoC的其余部分連接到相同的DDR。這與專有的Super-tiling技術(shù)一起,導(dǎo)致高達90%的加速器引擎利用率和DDR帶寬驅(qū)動盡可能低的功耗,以實現(xiàn)節(jié)能計算。
*附件:am68a 數(shù)據(jù)手冊.pdf
*附件:am69a數(shù)據(jù)手冊.pdf
MMA架構(gòu)(來源:TI)
使用MMA作為AI功能的加速,整體SoC框圖如下圖所示。產(chǎn)品組合中的每個邊緣AI設(shè)備(如AM62A、AM68A等)的架構(gòu)都是相似的。
AM6xA處理器框圖(來源:TI)
基于異構(gòu)架構(gòu),片上系統(tǒng)(SoC)經(jīng)過優(yōu)化,可在多核Cortex-A微處理單元(mpu)上輕松編程,同時集成深度學(xué)習(xí)、成像、視覺、視頻和圖形處理等計算密集型任務(wù)。任務(wù)被卸載到專用硬件加速器和可編程核心上。使用高帶寬互連和智能存儲器架構(gòu)對這些核心進行整體系統(tǒng)級集成,可實現(xiàn)高吞吐量和能源效率。通過系統(tǒng)組件的預(yù)集成實現(xiàn)優(yōu)化的系統(tǒng)BOM。請注意,像AM62A這樣的成本和功耗優(yōu)化的SoC并不包括所有硬件功能,例如GPU和DMPAC,或者可能包括性能降低的加速器變體以降低功耗。
深度學(xué)習(xí)效率
通常,TOPS(每秒tera次操作)用于衡量深度學(xué)習(xí)的性能比較。TOPS不能完全涵蓋深度學(xué)習(xí)性能的所有方面,因為它還依賴于內(nèi)存(DDR)容量和神經(jīng)網(wǎng)絡(luò)架構(gòu)。
實際的推理時間取決于系統(tǒng)架構(gòu)利用系統(tǒng)中最優(yōu)數(shù)據(jù)流的效率。因此,更好的性能基準是給定模型在給定輸入圖像分辨率下的推理時間。更快的推理時間允許處理更多的圖像,從而產(chǎn)生更高的每秒幀數(shù)(FPS)。因此,F(xiàn)PS除以TOPS (FPS/TOPS)顯示了建筑的效率。同樣,F(xiàn)PS/瓦特是嵌入式處理器能源效率的一個很好的基準。
特性

處理器內(nèi)核:
- 高達雙 64 位 Arm Cortex-A72 微處理器子系統(tǒng),頻率高達 2GHz
- 每個雙核 Cortex-A72 群集 1MB 共享 L2 緩存
- 每個 Cortex-A72 內(nèi)核 32KB L1 D-Cache 和 48KB L1 I-Cache
- 深度學(xué)習(xí)加速器:
- 高達 8 萬億次每秒作 (TOPS)
- 帶有圖像信號處理器 (ISP) 和多個視覺輔助加速器的視覺處理加速器 (VPAC)
- 雙核 Arm Cortex-R5F MCU,在通用計算分區(qū)中高達 1.0GHz,帶 FFI
- 16KB L1 D-Cache、16KB L1 I-Cache 和 64KB L2 TCM
- 雙核 Arm? Cortex-R5F? MCU,頻率高達 1.0 GHz,支持設(shè)備管理
- 32K L1 D-Cache、32K I-Cache 和 64K L2 TCM,所有內(nèi)存均支持 SECDED ECC
- 帶有圖像信號處理器 (ISP) 和多個視覺輔助加速器的視覺處理加速器 (VPAC)
- 480 MPixel/s 圖像處理器
- 支持高達 16 位的輸入 RAW 格式
- 寬動態(tài)范圍 (WDR)、鏡頭畸變校正 (LDC)、視覺成像子系統(tǒng) (VISS) 和多標量 (MSC) 支持
- 輸出顏色格式 : 8 位、12 位和 YUV 4:2:2、YUV 4:2:0、RGB、HSV/HSL
多媒體:
- 顯示子系統(tǒng)支持:
- 3D 圖形處理單元
- IMG BXS-4-64,高達 800MHz
- 50GFLOPS,4GTexels/秒
500MTexels/s,>8GFLOPs
- 支持至少 2 個合成圖層
- 最高支持 2048x1080 @60fps
- 支持 ARGB32、RGB565 和 YUV 格式
- 支持 2D 圖形
- OpenGL ES 3.1、Vulkan 1.2
- 兩個 CSI2.0 4L 攝像機串行接口 (CSI-Rx) 加上帶 DPHY 的 CSI2.- 4L Tx (CSI-Tx)
- 視頻編碼器/解碼器
- 支持 5.1 級高級的 HEVC (H.265) 主要配置文件
- 支持 5.2 級 H.264 BaseLine/Main/High 配置文件
- 支持高達 4K UHD 分辨率 (3840 × 2160)
- 4K60 H.264/H.265 編碼/解碼(高達 480MP/s)
內(nèi)存子系統(tǒng):
- 高達 4MB 的片上 L3 RAM,具有 ECC 和一致性
- ECC 錯誤保護
- 共享一致性緩存
- 支持內(nèi)部 DMA 引擎
- 最多兩個帶 ECC 的外部內(nèi)存接口 (EMIF) 模塊
- 支持 LPDDR4 內(nèi)存類型
- 支持高達 4266MT/s 的速度
- 多達 2 個 32 位數(shù)據(jù)總線,每個 EMIF 具有高達 17GB/s 的內(nèi)聯(lián) ECC
- 通用內(nèi)存控制器 (GPMC)
- 在 MAIN 域中最多兩個 512KB 片上 SRAM,受 ECC 保護
設(shè)備安全性:
- 具有安全運行時支持的安全啟動
- 客戶可編程根密鑰,最高 RSA-4K 或 ECC-512
- 嵌入式硬件安全模塊
- 加密硬件加速器 – 具有 ECC、AES、SHA、RNG、DES 和 3DES 的 PKA
高速串行接口:
- 一個 PCI-Express (PCIe) Gen3 控制器
- 每個控制器最多 4 個通道
- 第 1 代 (2.5GT/s)、第 2 代 (5.0GT/s) 和第 3 代 (8.0GT/s)作,具有自動協(xié)商功能
- 一個 USB 3.0 雙角色設(shè)備 (DRD) 子系統(tǒng)
- 兩個 CSI2.0 4L 攝像機串行接口 RX (CSI-RX) 和兩個帶 DPHY 的 CSI2.0 4L TX (CSI-TX)
- 符合 MIPI CSI 1.3 標準 + MIPI-DPHY 1.2
- CSI-RX 支持 1、2、3 或 4 數(shù)據(jù)通道模式,每通道高達 2.5Gbps
- CSI-TX 支持 1、2 或 4 數(shù)據(jù)通道模式,每通道高達 2.5Gbps
- 兩個以太網(wǎng) RMII/RGMII 接口
閃存接口:
- 嵌入式多媒體卡接口 (eMMC? 5.1)
- 1 個安全數(shù)字 3.0/安全數(shù)字輸入輸出 3.0 接口 (SD3.0/SDIO3.0)
- 兩個同步閃存接口配置為
- 一個 OSPI 或 HyperBus? 或 QSPI,以及
- 一個 QSPI
技術(shù)/封裝:
- 16nm FinFET 技術(shù)
- 23mm x 23mm、0.8mm 間距、770 引腳 FCBGA (ALZ)
技術(shù)文檔
=TI 選擇的此產(chǎn)品的熱門文檔
-
處理器
+關(guān)注
關(guān)注
68文章
20098瀏覽量
244136 -
加速器
+關(guān)注
關(guān)注
2文章
833瀏覽量
39641 -
AI
+關(guān)注
關(guān)注
88文章
37282瀏覽量
292248 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5587瀏覽量
123779
發(fā)布評論請先 登錄
TDA4VL-Q1處理器技術(shù)文檔總結(jié)
TDA4AL-Q1處理器的技術(shù)文檔摘要
?AM68A/AM68處理器技術(shù)文檔摘要
AM62A7-Q1處理器的技術(shù)文檔總結(jié)
?AM62Ax處理器技術(shù)文檔總結(jié)
AM67x處理器技術(shù)文檔總結(jié)
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)
Andes晶心科技推出新一代深度學(xué)習(xí)加速器
德州儀器AM62Ax Sitara?處理器技術(shù)解析
TPU處理器的特性和工作原理
AI MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-AI3 加速器和高性能實時處理器
端側(cè) AI 音頻處理器:集成音頻處理與 AI 計算能力的創(chuàng)新芯片

TI Edge AI - AM6xA 處理器與深度學(xué)習(xí)加速器及其效率
image586×586 85.1 KB
image865×320 68.2 KB
評論