最近中文字幕在线视频1,亚洲国产成人久久综合一区77,最近中文字幕完整视频高清1

報(bào)告作者：

Pallavi Sharma, Imaginaiton產(chǎn)品管理總監(jiān)

Dr.Eric Norige, Baya Systems 首席軟件架構(gòu)師

你是否正在設(shè)計(jì)多核或CPU/GPU混合系統(tǒng)，卻依然未能達(dá)成性能目標(biāo)？你并不孤單。如今，系統(tǒng)架構(gòu)師們不斷追求構(gòu)建更強(qiáng)大的SoC，過(guò)于專注于計(jì)算能力的“堆砌”：更多核、更快引擎、更強(qiáng)AI加速。然而現(xiàn)實(shí)是：如果數(shù)據(jù)無(wú)法及時(shí)送達(dá)，再?gòu)?qiáng)的算力也無(wú)從發(fā)揮。

在2025年Andes RISC-V大會(huì)上，Imagination Technologies與Baya Systems聯(lián)手深入剖析了這一挑戰(zhàn)，結(jié)果令人震驚。兩家公司利用Baya的CacheStudio工具，對(duì)CPU、GPU及混合計(jì)算系統(tǒng)中的緩存行為進(jìn)行了建模分析。

目的就是要揭示：盡管硬件資源充足，現(xiàn)實(shí)中的異構(gòu)計(jì)算性能為何仍頻頻“失速”。
那么，讓我們一起來(lái)看看他們的發(fā)現(xiàn)，以及這些見(jiàn)解如何幫助你打造更好、更快、更高效的系統(tǒng)。

隱藏的瓶頸：不是算力不足，而是數(shù)據(jù)流動(dòng)受限

現(xiàn)代SoC的性能瓶頸早已不再是純粹的計(jì)算能力。相反，系統(tǒng)越來(lái)越受到數(shù)據(jù)在各處理單元與存儲(chǔ)層級(jí)之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上，也并不自動(dòng)等同于性能提升。事實(shí)上，若架構(gòu)缺乏精細(xì)協(xié)同，這種集成反而可能帶來(lái)資源競(jìng)爭(zhēng)、延遲增加以及緩存效率下降等問(wèn)題。

本次研究將緩存行為作為一種潛在的診斷工具，旨在揭示系統(tǒng)中的關(guān)鍵性能限制點(diǎn)，同時(shí)更深入地理解異構(gòu)計(jì)算單元在緩存大小配置、一致性管理及內(nèi)存訪問(wèn)模式方面所面臨的權(quán)衡取舍。

盡管這些發(fā)現(xiàn)提供了諸多有價(jià)值的洞見(jiàn)，但應(yīng)結(jié)合本研究的具體范圍與假設(shè)前提進(jìn)行解讀。以下是部分關(guān)鍵發(fā)現(xiàn)：

純CPU負(fù)載：優(yōu)先考慮時(shí)間局部性與分層緩存策略

一級(jí)緩存（L1）：性能提升隨著緩存容量的增加呈線性趨勢(shì)。將L1從16 KB提升至64 KB，命中率從約94.5%提升至約97.8%。這驗(yàn)證了CPU主導(dǎo)型任務(wù)具備顯著的時(shí)間局部性——即最近訪問(wèn)的數(shù)據(jù)很可能會(huì)在短時(shí)間內(nèi)再次被訪問(wèn)。

二級(jí)緩存（L2）：命中率與L1容量呈負(fù)相關(guān)關(guān)系。隨著L1緩存吸收更多訪問(wèn)請(qǐng)求，L2的利用率下降，從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應(yīng)側(cè)重于一致性管理與回退路徑延遲優(yōu)化，而非盲目擴(kuò)展容量。

三級(jí)緩存（L3）：命中率維持在相對(duì)中等的水平（20–35%），其主要作用在于多核之間的一致性維護(hù)以及降低對(duì)DRAM的訪問(wèn)壓力。

實(shí)際啟示：對(duì)于以CPU為主的工作負(fù)載，最佳性能依賴于為每個(gè)核心配置合適容量的私有L1緩存，同時(shí)針對(duì)延遲與一致性需求精細(xì)調(diào)優(yōu)L2。L3緩存主要在多核或共享內(nèi)存環(huán)境中發(fā)揮作用，特別是在DRAM壓力或一致性流量較高時(shí)更為關(guān)鍵。

純GPU負(fù)載：?jiǎn)慰考哟缶彺嫒萘繜o(wú)法彌補(bǔ)訪問(wèn)模式的不規(guī)則性

一級(jí)緩存（L1）：相較于CPU，GPU工作負(fù)載的L1命中率更低——隨著緩存從16 KB擴(kuò)展到64 KB，命中率僅從約54%提升至約73%。這一收益受限，主要?dú)w因于高并行計(jì)算中常見(jiàn)的發(fā)散式和分散式內(nèi)存訪問(wèn)模式。

二級(jí)緩存（L2）：隨著L1緩存增大，L2性能顯著下降。在16 KB L1配置下，L2命中率可達(dá)約55%；但當(dāng)L1提升至64 KB時(shí)，命中率驟降至6–7%。這表明，過(guò)度放大上層緩存可能會(huì)破壞下層緩存的重用機(jī)會(huì)。

三級(jí)緩存（L3）：在所有配置下，L3利用率始終偏低，最高命中率僅約為2.2%。這可能反映出GPU的流式數(shù)據(jù)訪問(wèn)模式以及線程間局部性較差的特點(diǎn)。

實(shí)際啟示：GPU的內(nèi)存層級(jí)性能高度依賴于軟件層的訪問(wèn)優(yōu)化，例如本地存儲(chǔ)使用、數(shù)據(jù)分塊（tiling）及顯式同步，而不能僅依賴傳統(tǒng)的緩存層次結(jié)構(gòu)。硬件改進(jìn)必須與面向負(fù)載的編程模型相結(jié)合，才能充分發(fā)揮性能。

混合負(fù)載：緩存層級(jí)的協(xié)同至關(guān)重要

一級(jí)緩存（L1）：CPU和GPU線程的命中率均有提升，隨著L1從16 KB擴(kuò)展至64 KB，命中率從約94%提升至約97%。

二級(jí)緩存（L2）：行為對(duì)配置變化極為敏感。例如，在配置為256 KB L2和16 KB L1時(shí)，L2命中率達(dá)到61.7%；但當(dāng)配置變?yōu)?4 KB L1和64 KB L2時(shí)，命中率下降至23.2%。這表明在設(shè)計(jì)時(shí)必須同時(shí)考慮各級(jí)緩存的替換模式（eviction patterns）。

三級(jí)緩存（L3）：在L1和L2容量不足的情況下，L3展現(xiàn)出顯著優(yōu)勢(shì)。配置為1024 KB的L3時(shí)，對(duì)于較小L1/L2配置，命中率最高可達(dá)57%。

DRAM訪問(wèn)流量：隨著緩存層級(jí)協(xié)調(diào)優(yōu)化，內(nèi)存訪問(wèn)量顯著下降，從最小緩存配置下的約38.5萬(wàn)次訪問(wèn)減少至優(yōu)化配置下的約32.8萬(wàn)次。

實(shí)際啟示：在異構(gòu)計(jì)算環(huán)境中，緩存設(shè)計(jì)不能孤立于某一處理引擎。必須精心架構(gòu)各層緩存與計(jì)算單元之間的交互機(jī)制。經(jīng)常被低估的L3，在降低DRAM壓力和提升系統(tǒng)整體響應(yīng)能力方面發(fā)揮著關(guān)鍵作用。

設(shè)計(jì)的重點(diǎn)應(yīng)是數(shù)據(jù)流，而非僅僅追求FLOPS（浮點(diǎn)運(yùn)算性能）

本研究再次強(qiáng)調(diào)系統(tǒng)架構(gòu)設(shè)計(jì)中的核心原則：在異構(gòu)計(jì)算環(huán)境中，性能擴(kuò)展的決定因素并非計(jì)算引擎的數(shù)量，而是這些引擎與共享內(nèi)存及互連架構(gòu)的協(xié)同方式。

CacheStudio并非終點(diǎn)工具，而是一個(gè)分析代理，可用于揭示系統(tǒng)中不易察覺(jué)的性能下降，并在設(shè)計(jì)初期為更優(yōu)架構(gòu)決策提供指導(dǎo)依據(jù)。

以協(xié)同為核心進(jìn)行架構(gòu)設(shè)計(jì)，而非各自為戰(zhàn)

針對(duì)CPU、GPU及混合負(fù)載，本研究得出以下關(guān)鍵結(jié)論：

純CPU負(fù)載需配備針對(duì)性配置的私有L1緩存及延遲優(yōu)化的L2緩存。

純GPU負(fù)載需要架構(gòu)層面支持發(fā)散式內(nèi)存訪問(wèn)，并輔以軟件層面的訪問(wèn)優(yōu)化。

混合負(fù)載在依賴L3一致性緩沖和多級(jí)緩存平衡配置方面獲益最大。

系統(tǒng)級(jí)性能剖析對(duì)于預(yù)判內(nèi)存壓力、指導(dǎo)緩存層級(jí)設(shè)計(jì)至關(guān)重要。

結(jié)論明確：聰明的架構(gòu)優(yōu)于一味堆砌算力。

通過(guò)聚焦數(shù)據(jù)流動(dòng)與內(nèi)存協(xié)調(diào)，工程師才能真正釋放異構(gòu)計(jì)算系統(tǒng)的全部潛力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)

+關(guān)注

關(guān)注
1

文章
72

瀏覽量
24095
imagination

imagination

+關(guān)注

關(guān)注
1

文章
611

瀏覽量
63005

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

如何釋放異構(gòu)計(jì)算的潛能？Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

評(píng)論