亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

穎脈Imgtec ? 2025-06-13 08:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

報(bào)告作者:

Pallavi Sharma, Imaginaiton產(chǎn)品管理總監(jiān)

Dr.Eric Norige, Baya Systems 首席軟件架構(gòu)師

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在設(shè)計(jì)多核或CPU/GPU混合系統(tǒng),卻依然未能達(dá)成性能目標(biāo)?你并不孤單。如今,系統(tǒng)架構(gòu)師們不斷追求構(gòu)建更強(qiáng)大的SoC,過(guò)于專注于計(jì)算能力的“堆砌”:更多核、更快引擎、更強(qiáng)AI加速。然而現(xiàn)實(shí)是:如果數(shù)據(jù)無(wú)法及時(shí)送達(dá),再?gòu)?qiáng)的算力也無(wú)從發(fā)揮。

在2025年Andes RISC-V大會(huì)上,Imagination Technologies與Baya Systems聯(lián)手深入剖析了這一挑戰(zhàn),結(jié)果令人震驚。兩家公司利用Baya的CacheStudio工具,對(duì)CPU、GPU及混合計(jì)算系統(tǒng)中的緩存行為進(jìn)行了建模分析。

目的就是要揭示:盡管硬件資源充足,現(xiàn)實(shí)中的異構(gòu)計(jì)算性能為何仍頻頻“失速”。
那么,讓我們一起來(lái)看看他們的發(fā)現(xiàn),以及這些見(jiàn)解如何幫助你打造更好、更快、更高效的系統(tǒng)。


隱藏的瓶頸:不是算力不足,而是數(shù)據(jù)流動(dòng)受限

現(xiàn)代SoC的性能瓶頸早已不再是純粹的計(jì)算能力。相反,系統(tǒng)越來(lái)越受到數(shù)據(jù)在各處理單元與存儲(chǔ)層級(jí)之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動(dòng)等同于性能提升。事實(shí)上,若架構(gòu)缺乏精細(xì)協(xié)同,這種集成反而可能帶來(lái)資源競(jìng)爭(zhēng)、延遲增加以及緩存效率下降等問(wèn)題。

本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統(tǒng)中的關(guān)鍵性能限制點(diǎn),同時(shí)更深入地理解異構(gòu)計(jì)算單元在緩存大小配置、一致性管理及內(nèi)存訪問(wèn)模式方面所面臨的權(quán)衡取舍。

盡管這些發(fā)現(xiàn)提供了諸多有價(jià)值的洞見(jiàn),但應(yīng)結(jié)合本研究的具體范圍與假設(shè)前提進(jìn)行解讀。以下是部分關(guān)鍵發(fā)現(xiàn):


純CPU負(fù)載:優(yōu)先考慮時(shí)間局部性與分層緩存策略


一級(jí)緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢(shì)。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗(yàn)證了CPU主導(dǎo)型任務(wù)具備顯著的時(shí)間局部性——即最近訪問(wèn)的數(shù)據(jù)很可能會(huì)在短時(shí)間內(nèi)再次被訪問(wèn)。

二級(jí)緩存(L2):命中率與L1容量呈負(fù)相關(guān)關(guān)系。隨著L1緩存吸收更多訪問(wèn)請(qǐng)求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應(yīng)側(cè)重于一致性管理與回退路徑延遲優(yōu)化,而非盲目擴(kuò)展容量。

三級(jí)緩存(L3):命中率維持在相對(duì)中等的水平(20–35%),其主要作用在于多核之間的一致性維護(hù)以及降低對(duì)DRAM的訪問(wèn)壓力。

實(shí)際啟示:對(duì)于以CPU為主的工作負(fù)載,最佳性能依賴于為每個(gè)核心配置合適容量的私有L1緩存,同時(shí)針對(duì)延遲與一致性需求精細(xì)調(diào)優(yōu)L2。L3緩存主要在多核或共享內(nèi)存環(huán)境中發(fā)揮作用,特別是在DRAM壓力或一致性流量較高時(shí)更為關(guān)鍵。


純GPU負(fù)載:?jiǎn)慰考哟缶彺嫒萘繜o(wú)法彌補(bǔ)訪問(wèn)模式的不規(guī)則性

一級(jí)緩存(L1):相較于CPU,GPU工作負(fù)載的L1命中率更低——隨著緩存從16 KB擴(kuò)展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要?dú)w因于高并行計(jì)算中常見(jiàn)的發(fā)散式和分散式內(nèi)存訪問(wèn)模式。

二級(jí)緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達(dá)約55%;但當(dāng)L1提升至64 KB時(shí),命中率驟降至6–7%。這表明,過(guò)度放大上層緩存可能會(huì)破壞下層緩存的重用機(jī)會(huì)。

三級(jí)緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數(shù)據(jù)訪問(wèn)模式以及線程間局部性較差的特點(diǎn)。

實(shí)際啟示:GPU的內(nèi)存層級(jí)性能高度依賴于軟件層的訪問(wèn)優(yōu)化,例如本地存儲(chǔ)使用、數(shù)據(jù)分塊(tiling)及顯式同步,而不能僅依賴傳統(tǒng)的緩存層次結(jié)構(gòu)。硬件改進(jìn)必須與面向負(fù)載的編程模型相結(jié)合,才能充分發(fā)揮性能。


混合負(fù)載:緩存層級(jí)的協(xié)同至關(guān)重要

一級(jí)緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴(kuò)展至64 KB,命中率從約94%提升至約97%。

二級(jí)緩存(L2):行為對(duì)配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時(shí),L2命中率達(dá)到61.7%;但當(dāng)配置變?yōu)?4 KB L1和64 KB L2時(shí),命中率下降至23.2%。這表明在設(shè)計(jì)時(shí)必須同時(shí)考慮各級(jí)緩存的替換模式(eviction patterns)。

三級(jí)緩存(L3):在L1和L2容量不足的情況下,L3展現(xiàn)出顯著優(yōu)勢(shì)。配置為1024 KB的L3時(shí),對(duì)于較小L1/L2配置,命中率最高可達(dá)57%。

DRAM訪問(wèn)流量:隨著緩存層級(jí)協(xié)調(diào)優(yōu)化,內(nèi)存訪問(wèn)量顯著下降,從最小緩存配置下的約38.5萬(wàn)次訪問(wèn)減少至優(yōu)化配置下的約32.8萬(wàn)次。

實(shí)際啟示:在異構(gòu)計(jì)算環(huán)境中,緩存設(shè)計(jì)不能孤立于某一處理引擎。必須精心架構(gòu)各層緩存與計(jì)算單元之間的交互機(jī)制。經(jīng)常被低估的L3,在降低DRAM壓力和提升系統(tǒng)整體響應(yīng)能力方面發(fā)揮著關(guān)鍵作用。


設(shè)計(jì)的重點(diǎn)應(yīng)是數(shù)據(jù)流,而非僅僅追求FLOPS(浮點(diǎn)運(yùn)算性能)

本研究再次強(qiáng)調(diào)系統(tǒng)架構(gòu)設(shè)計(jì)中的核心原則:在異構(gòu)計(jì)算環(huán)境中,性能擴(kuò)展的決定因素并非計(jì)算引擎的數(shù)量,而是這些引擎與共享內(nèi)存及互連架構(gòu)的協(xié)同方式。

CacheStudio并非終點(diǎn)工具,而是一個(gè)分析代理,可用于揭示系統(tǒng)中不易察覺(jué)的性能下降,并在設(shè)計(jì)初期為更優(yōu)架構(gòu)決策提供指導(dǎo)依據(jù)。


以協(xié)同為核心進(jìn)行架構(gòu)設(shè)計(jì),而非各自為戰(zhàn)

針對(duì)CPU、GPU及混合負(fù)載,本研究得出以下關(guān)鍵結(jié)論:

CPU負(fù)載需配備針對(duì)性配置的私有L1緩存及延遲優(yōu)化的L2緩存。

GPU負(fù)載需要架構(gòu)層面支持發(fā)散式內(nèi)存訪問(wèn),并輔以軟件層面的訪問(wèn)優(yōu)化。

混合負(fù)載在依賴L3一致性緩沖和多級(jí)緩存平衡配置方面獲益最大。

系統(tǒng)級(jí)性能剖析對(duì)于預(yù)判內(nèi)存壓力、指導(dǎo)緩存層級(jí)設(shè)計(jì)至關(guān)重要。


結(jié)論明確:聰明的架構(gòu)優(yōu)于一味堆砌算力。

通過(guò)聚焦數(shù)據(jù)流動(dòng)與內(nèi)存協(xié)調(diào),工程師才能真正釋放異構(gòu)計(jì)算系統(tǒng)的全部潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 系統(tǒng)架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    72

    瀏覽量

    24095
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    611

    瀏覽量

    63005
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Imagination GPU上優(yōu)化計(jì)算任務(wù)的十大技巧

    Imagination「開(kāi)發(fā)者文檔」網(wǎng)站正式上線,涵蓋了從計(jì)算機(jī)圖形學(xué)基礎(chǔ)到如何充分發(fā)揮Imagination高能效PowerVRGPU架構(gòu)優(yōu)勢(shì)的豐富內(nèi)容。網(wǎng)站中不僅增加了針對(duì)我們最新
    的頭像 發(fā)表于 09-25 09:37 ?416次閱讀
    在<b class='flag-5'>Imagination</b> GPU上優(yōu)化<b class='flag-5'>計(jì)算</b>任務(wù)的十大技巧

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國(guó)產(chǎn)化智能異構(gòu)計(jì)算平臺(tái)

    TEC100TAI-KIT是一款基于國(guó)產(chǎn)100TAI的全國(guó)產(chǎn)智能異構(gòu)計(jì)算平臺(tái)開(kāi)發(fā)套件,該套件包含1個(gè)100TAI核心板和1個(gè)PCIE規(guī)格的擴(kuò)展底板。 該套件的核心板集成了100TAI的最小系統(tǒng)
    的頭像 發(fā)表于 09-19 17:16 ?517次閱讀
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國(guó)產(chǎn)化智能<b class='flag-5'>異構(gòu)計(jì)算</b>平臺(tái)

    WAIC 直擊|Arm 鄒挺:突破基礎(chǔ)設(shè)施、數(shù)據(jù)安全與人才三重挑戰(zhàn),釋放 AI 發(fā)展新潛能

    WAIC 直擊|Arm 鄒挺:突破基礎(chǔ)設(shè)施、數(shù)據(jù)安全與人才三重挑戰(zhàn),釋放 AI 發(fā)展新潛能
    的頭像 發(fā)表于 07-28 11:33 ?784次閱讀
    WAIC 直擊|Arm 鄒挺:突破基礎(chǔ)設(shè)施、數(shù)據(jù)安全與人才三重挑戰(zhàn),<b class='flag-5'>釋放</b> AI 發(fā)展新<b class='flag-5'>潛能</b>

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構(gòu)架構(gòu)下的智能邊緣計(jì)算標(biāo)桿

    璞致電子推出PZ-ZU15EG-KFB異構(gòu)計(jì)算開(kāi)發(fā)板,搭載Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、雙核Cortex-R5F
    的頭像 發(fā)表于 07-22 09:47 ?568次閱讀
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>異構(gòu)架構(gòu)</b>下的智能邊緣<b class='flag-5'>計(jì)算</b>標(biāo)桿

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu)

    異構(gòu)計(jì)算解決方案通過(guò)整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì)
    的頭像 發(fā)表于 06-23 07:40 ?492次閱讀

    能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過(guò)集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對(duì)不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?3286次閱讀

    國(guó)產(chǎn)芯片多架構(gòu)開(kāi)發(fā)實(shí)踐:從工業(yè)控制到邊緣AI的硬件設(shè)計(jì)經(jīng)驗(yàn)

    近年來(lái),國(guó)產(chǎn)處理器與異構(gòu)計(jì)算架構(gòu)的成熟為硬件開(kāi)發(fā)者提供了新選擇。我們基于飛騰、龍芯、海光等平臺(tái),在VPX/COMe/ITX架構(gòu)上完成了多個(gè)工業(yè)級(jí)項(xiàng)目驗(yàn)證,在此分享一些實(shí)戰(zhàn)經(jīng)驗(yàn)。 硬件架構(gòu)
    的頭像 發(fā)表于 05-23 09:24 ?590次閱讀

    Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    近日, Imagination Technologies 與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發(fā)表于 05-21 09:40 ?1071次閱讀

    Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    近日,ImaginationTechnologies與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合云服務(wù)提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開(kāi)合作。雙方將
    的頭像 發(fā)表于 05-20 08:33 ?686次閱讀
    <b class='flag-5'>Imagination</b>與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓<b class='flag-5'>計(jì)算</b>生態(tài)

    全志科技多核異構(gòu)SoC助力行業(yè)智能化創(chuàng)新

    近日, “第十二屆開(kāi)源操作系統(tǒng)年度技術(shù)會(huì)議”在北京舉行,全志科技受邀參會(huì)。會(huì)上,全志進(jìn)行了題為《多核異構(gòu)SoC在行業(yè)應(yīng)用中軟件方案的思考與實(shí)踐》的分享。分享從市場(chǎng)和技術(shù)洞察、方案設(shè)計(jì)創(chuàng)新、場(chǎng)景化應(yīng)用落地三個(gè)維度展開(kāi)
    的頭像 發(fā)表于 04-18 09:11 ?967次閱讀
    全志科技多核<b class='flag-5'>異構(gòu)</b>SoC助力行業(yè)智能化創(chuàng)新

    RAKsmart智能算力架構(gòu)異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    在AI大模型參數(shù)量突破萬(wàn)億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計(jì)算資源池化與超低時(shí)延網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實(shí)現(xiàn)訓(xùn)練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發(fā)表于 04-17 09:29 ?532次閱讀

    RK3399處理器:高性能多核異構(gòu)計(jì)算平臺(tái)

    RK3399是一款高性能的多核異構(gòu)計(jì)算平臺(tái),集成了強(qiáng)大的CPU、GPU以及豐富的多媒體和接口功能。其獨(dú)特的雙Cortex-A72+四Cortex-A53大小核CPU結(jié)構(gòu),使得RK3399在處理復(fù)雜
    的頭像 發(fā)表于 02-08 18:04 ?2243次閱讀

    異構(gòu)計(jì)算的概念、核心、優(yōu)勢(shì)、挑戰(zhàn)及考慮因素

    異構(gòu)計(jì)算就像是一支由“多才多藝”處理器組成的團(tuán)隊(duì),每個(gè)成員都有自己的強(qiáng)項(xiàng)和責(zé)任。 ? 什么是異構(gòu)計(jì)算????? “異構(gòu)計(jì)算”指的是在同一個(gè)計(jì)算平臺(tái)中,部署多種不同類型的處理單元(比如
    的頭像 發(fā)表于 01-13 11:43 ?1487次閱讀

    【一文看懂】什么是異構(gòu)計(jì)算?

    隨著人工智能、深度學(xué)習(xí)、大數(shù)據(jù)處理等技術(shù)的快速發(fā)展,計(jì)算需求的復(fù)雜性不斷提升。傳統(tǒng)的單一計(jì)算架構(gòu)已難以滿足高效處理復(fù)雜任務(wù)的要求,異構(gòu)計(jì)算因此應(yīng)運(yùn)而生,成為現(xiàn)代
    的頭像 發(fā)表于 12-04 01:06 ?3376次閱讀
    【一文看懂】什么是<b class='flag-5'>異構(gòu)計(jì)算</b>?

    《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    線程調(diào)度,與Hopper架構(gòu)的細(xì)粒度同步機(jī)制,使得異構(gòu)計(jì)算場(chǎng)景下的任務(wù)協(xié)同更加靈活。在我的分布式訓(xùn)練實(shí)踐中,這些特性顯著提升了模型收斂速度。 張量處理器的設(shè)計(jì)是本書(shū)點(diǎn)睛之筆。從數(shù)學(xué)抽象來(lái)看,張量統(tǒng)一了
    發(fā)表于 11-24 17:12