當下,AI模型規(guī)模持續(xù)膨脹、多模態(tài)應用場景日益復雜,企業(yè)正面臨異構算力資源碎片化帶來的嚴峻挑戰(zhàn)。為應對行業(yè)痛點,江蘇潤和軟件股份有限公司(以下簡稱“潤和軟件”)正式發(fā)布自主研發(fā)的StackRUNS異構分布式推理框架,高效融合異構算力,精細化配置算力資源,釋放算力效能。
潤和軟件發(fā)布StackRUNS異構分布式推理框架
StackRUNS是基于“異構算力建模+動態(tài)調(diào)度優(yōu)化+統(tǒng)一通信接口+模型分層加載”核心技術打造的輕量級分布式推理框架,可實現(xiàn)多類型AI設備的資源整合與大模型的協(xié)同高效推理,廣泛適用于對推理能力有高要求但資源異構、預算受限的實際應用場景,如多節(jié)點異構硬件的老舊部署環(huán)境、突發(fā)性大模型任務需求、高?;蚩蒲袡C構低成本模型實驗場景。目前,StackRUNS已在教育、安防、能源等行業(yè)落地,通過智能調(diào)度算力、分鐘級快速部署、分布式協(xié)同等能力,加快大模型落地進程。
功能架構
	
StackRUNS功能架構圖
1. 框架適配層:統(tǒng)一接入主流推理框架
通過統(tǒng)一的框架適配能力,StackRUNS可有效屏蔽上層差異,提升系統(tǒng)的靈活性與兼容性,支持主流框架與模型組件的即插即用,大幅縮短模型部署與遷移周期。
支持PyTorch、TensorFlow、MindSpore等主流AI框架;
無縫集成llama.cpp、vLLM等主流推理引擎;
插件化架構,支持多模型統(tǒng)一推理入口,便于快速上層接入與復用。
2.調(diào)度層:智能調(diào)度與自動并行優(yōu)化
通過異構設備資源的智能感知與動態(tài)調(diào)度,StackRUNS可最大化利用系統(tǒng)整體算力,并通過推理場景的深度優(yōu)化,顯著提升大模型多設備協(xié)同推理的效率與可控性。
異構資源感知與建模,實現(xiàn)不同設備算力精準識別;
自動并行策略生成與模型切分,支持切片并行、專家路由等;
涵蓋精度控制與任務生命周期管理,保障精度性能雙優(yōu);
通信圖優(yōu)化與算子融合,提升跨設備數(shù)據(jù)流通效率。
3. 通信適配層:統(tǒng)一通信接口與性能反饋機制
StackRUNS具備統(tǒng)一通信能力適配的異構平臺,可有效消除設備間通信瓶頸,為分布式推理提供高效、穩(wěn)定的通信支撐,提升跨設備協(xié)同性能。
提供統(tǒng)一通信算子接口,適配 HCCL、NCCL、RCCL等多種通信協(xié)議;
支持通信運行時、拓撲管理與性能建模,為調(diào)度策略提供反饋依據(jù);
深度學習框架通信插件化集成,增強生態(tài)兼容性。
4. 硬件支持層:兼容多種AI算力平臺
StackRUNS全面兼容主流AI硬件平臺,涵蓋Ascend、NVIDIA、AMD、ARM、Intel、Mac等,實現(xiàn)算力資源的靈活組合與無縫協(xié)同,推動AI應用從“專用單機”邁向“異構集群”,釋放硬件潛能。
核心技術
	
StackRUNS架構圖
1. 異構算力識別與建模
通過自動識別和建模不同類型的計算資源,StackRUNS建立了統(tǒng)一的資源抽象層,確保在異構環(huán)境下的資源統(tǒng)一管理和高效利用。
資源抽象與建模:對各類計算設備的性能、內(nèi)存、帶寬等關鍵參數(shù)進行建模,形成統(tǒng)一的資源描述;
動態(tài)資源感知:實時監(jiān)控資源的使用情況,支持動態(tài)調(diào)整和優(yōu)化。
2. 調(diào)度層
調(diào)度層根據(jù)任務需求和資源狀況,可根據(jù)計算任務智能分配算力資源,實現(xiàn)資源的高效利用和任務執(zhí)行效率。
任務劃分與分配:將大模型分解為多個子任務,合理分配到不同的計算節(jié)點;
負載均衡:根據(jù)資源使用情況,動態(tài)調(diào)整任務分配,避免資源瓶頸;
容錯與恢復:在節(jié)點故障時,能夠快速重新調(diào)度任務,確保系統(tǒng)穩(wěn)定性。
3. 通信適配層
通信適配層提供統(tǒng)一的通信接口,支持多種通信協(xié)議,實現(xiàn)高效的數(shù)據(jù)傳輸,確保在分布式環(huán)境下的統(tǒng)一、可靠通信。
協(xié)議適配:支持如NCCL、HCCL、RCCL等多種通信協(xié)議,確保在不同硬件平臺上的兼容性;
通信優(yōu)化:通過通信圖優(yōu)化、算子融合等技術,減少通信開銷,提高數(shù)據(jù)傳輸效率。
4. 大模型分層加載通訊
針對超大規(guī)模模型,StackRUNS采用分層加載和通信策略,優(yōu)化模型的加載和推理過程,保持模型性能的同時,顯著降低通信成本,提升整體推理效率。
分層加載:通過結構感知的模型切分,需考慮各層之間的依賴關系和數(shù)據(jù)傳輸量;
通信與計算重疊執(zhí)行:采用流水線并行策略,在模型推理過程中,采用異步通信策略,提高并行度和效率;
通信內(nèi)容優(yōu)化:采用混合精度傳輸策略,在不影響模精度的前提下,減少通信數(shù)據(jù)量是降低通信成本的直接方式;
拓撲感知的通信策略:根據(jù)硬件拓撲結構,優(yōu)化通信路徑和方式,提升通信效率。
核心優(yōu)勢
1. 異構兼容與靈活部署:適用于多種硬件架構,結合底層統(tǒng)一通信適配器,可在混合平臺中實現(xiàn)透明部署與調(diào)用;
2. 輕量級推理服務端:將推理能力解耦為服務端組件,便于調(diào)度層動態(tài)調(diào)配計算任務,按需分發(fā)至合適節(jié)點運行,實現(xiàn)推理資源的彈性擴展與動態(tài)負載均衡;
3. 通信優(yōu)化與統(tǒng)一適配:通過“統(tǒng)一通信算子接口”與“深度學習框架插件”,支持異構資源統(tǒng)一調(diào)度、模型分布式執(zhí)行與通信圖優(yōu)化;
4. 分布式與邊云協(xié)同支持:結合通信適配層實現(xiàn)跨節(jié)點協(xié)同推理,亦支持邊緣側(cè)模型分片部署,打造邊云協(xié)同的智能推理能力;
5. 混合精度與策略支持:結合調(diào)度層的混合精度策略支持,充分利用不同設備的計算與內(nèi)存資源,在資源受限環(huán)境下依然保障推理效率與響應速度。
適用場景
1. 多節(jié)點異構硬件的老舊部署環(huán)境:支持不同類型設備按性能分配模型層或批次任務,實現(xiàn)“以最小代價釋放最大算力”;
2. 臨時性、突發(fā)性大模型任務需求:臨時調(diào)用空閑設備組成協(xié)同集群,按需啟用、任務后回收,資源零浪費;
3. 多精度模型混合部署場景:在內(nèi)存、算力受限環(huán)境下使用INT4、INT8等低精度模型提升吞吐與響應;
4. 邊緣設備能力有限邊云協(xié)同:模型分層部署、分片推理、流水線式協(xié)同處理,保障復雜分析任務順利完成;
5. 資源彈性調(diào)度與負載均衡場景:多節(jié)點集群中按需調(diào)度模型推理任務,提升整體資源利用率;
6. 高校、科研機構低成本模型實驗場景:利用分布式異構環(huán)境拼接起完整的推理通路,推動教學與研究實際落地。
用戶價值
1. 智能調(diào)度算力,整體成本最高可降低60%成本
通過智能調(diào)度異構資源,打破設備之間的“算力孤島”,實現(xiàn)資源池化管理;
無需新增昂貴硬件投入,充分利用現(xiàn)有 GPU、NPU、CPU 組合,即可完成大模型部署;
原有設備基礎上部署大模型后,設備成本可節(jié)省約60%。
2. 分鐘級快速部署,推理任務響應能力提升超5倍
彈性部署機制支持模型“即需即調(diào)、即跑即收”,無需長時間準備資源環(huán)境;
針對高峰期或突發(fā)任務,可在5分鐘內(nèi)完成大模型分布式加載與推理啟動;
部署周期相比傳統(tǒng)方案縮短70%+,顯著提升AI應用上線效率。
3.跨設備協(xié)同,讓原本“跑不動”的大模型輕松可落地
支持在多設備之間按層或?qū)<夷K切分模型,實現(xiàn)“拼接式協(xié)同計算”;
即使單設備顯存不足,亦可通過分布式推理完整運行數(shù)百億/千億參數(shù)模型;
32B多模態(tài)模型部署在兩臺低配設備上推理延遲可控制在1s以內(nèi)。
4.不中斷原有業(yè)務,系統(tǒng)兼容性與可控性雙優(yōu)
推理任務調(diào)度與原有業(yè)務計算負載物理隔離,不影響日常業(yè)務穩(wěn)定運行,推理任務可靈活穿插執(zhí)行;
支持Linux、Windows、MacOS等多操作系統(tǒng)與NVIDIA、Ascend、AMD等主流硬件平臺。
5.邊云協(xié)同優(yōu)化推理鏈路,體驗更優(yōu)、響應更快
推理過程中自動判斷本地與遠程計算資源的最優(yōu)分配路徑,降低核心推理延遲;
智能事件響應任務整體時延下降30%-50%,有效提升邊緣智能體驗。
6.促進AI普惠,加速智能化落地
高校與科研機構可在現(xiàn)有設備上部署百億級模型,用于課程教學與實驗研究;
中小企業(yè)可按業(yè)務需求靈活部署模型任務,降低模型接入門檻;
在未采購新設備條件下,超大模型教學實訓場景部署成功率超95%。
江蘇潤和軟件股份有限公司(簡稱“潤和軟件”)成立于2006年,2012年在深圳證券交易所創(chuàng)業(yè)板上市(證券代碼:300339),是國家重點規(guī)劃布局內(nèi)的大型軟件企業(yè)。公司總部位于南京,在北京、上海、深圳、香港等22個國內(nèi)主要城市設有研發(fā)中心或分子公司,在日本、美國、新加坡等國設有海外分支機構,全球員工約13000人,擁有全球化的技術整合、客戶響應與服務到達能力。
秉承“做民族軟件脊梁,擔世界進步責任”的使命,潤和軟件致力成為“中國數(shù)智技術與服務創(chuàng)新的引領者”,通過國產(chǎn)化、數(shù)字化、智能化創(chuàng)新技術,軟硬件一體化解決方案能力及全生命周期軟件服務體系,激活行業(yè)新動能、發(fā)展新質(zhì)生產(chǎn)力,助力廣大客戶數(shù)字化轉(zhuǎn)型和智能化升級。
- 
                                AI
                                +關注
關注
89文章
37454瀏覽量
292906 - 
                                算力
                                +關注
關注
2文章
1347瀏覽量
16513 - 
                                潤和軟件
                                +關注
關注
1文章
364瀏覽量
1884 
原文標題:潤和軟件發(fā)布StackRUNS異構分布式推理框架,釋放算力效能
文章出處:【微信號:hoperun300339,微信公眾號:潤和軟件】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
【節(jié)能學院】Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在奉賢平高食品 4.4MW 分布式光伏中應用
    
分布式光伏發(fā)電監(jiān)測系統(tǒng)技術方案
    
曙光存儲領跑中國分布式存儲市場
安科瑞Acrel-1000DP分布式光伏監(jiān)控系統(tǒng)在嘉興亨泰分布式光伏項目中的應用
    
分布式光伏發(fā)運維系統(tǒng)實際應用案例分享
    
淺談工商企業(yè)用電管理的分布式儲能設計
    
分布式云化數(shù)據(jù)庫有哪些類型
基于ptp的分布式系統(tǒng)設計
HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權限與基礎數(shù)據(jù)
分布式通信的原理和實現(xiàn)高效分布式通信背后的技術NVLink的演進
    
淺談屋頂分布式光伏發(fā)電技術的設計與應用
    
          
        
        
潤和軟件發(fā)布StackRUNS異構分布式推理框架
                
 
    
    
           
            
            
                
            
評論