9月5日,在2025重慶世界智能產(chǎn)業(yè)博覽會(huì)上,中科曙光發(fā)布了國(guó)內(nèi)首個(gè)基于AI計(jì)算開放架構(gòu)設(shè)計(jì)的產(chǎn)品——曙光AI超集群系統(tǒng)。該系統(tǒng)以GPU為核心,實(shí)現(xiàn)了“算、存、網(wǎng)、電、冷、管、軟”一體化緊耦合設(shè)計(jì),具備“超高性能、超高效率、超高可靠、全面開放”四大特點(diǎn),可為萬億參數(shù)大模型訓(xùn)練推理、行業(yè)大模型微調(diào)、多模態(tài)大模型開發(fā)、AI4S等場(chǎng)景提供高效算力底座。
相比封閉系統(tǒng),曙光AI超集群系統(tǒng)除了通過緊耦合設(shè)計(jì)像一臺(tái)計(jì)算機(jī)般高效工作外,還支持多品牌AI加速卡以及兼容CUDA等主流軟件生態(tài),為用戶提供更多開放性選擇,并大幅降低硬件成本和軟件開發(fā)適配成本,保護(hù)前期投資。
當(dāng)前,伴隨AI大模型快速演進(jìn)以及全球IT產(chǎn)業(yè)生態(tài)體系調(diào)整,國(guó)內(nèi)AI算力領(lǐng)域面臨高端算力供給不足、國(guó)產(chǎn)加速卡性能差距大、算力成本高、自主軟硬件生態(tài)不成熟等嚴(yán)峻挑戰(zhàn)。
而發(fā)展更大規(guī)模、更高效智算集群來彌補(bǔ)國(guó)產(chǎn)單卡算力差距以突破算力瓶頸,打造開放式、標(biāo)準(zhǔn)化、高效率的算力集群,以實(shí)現(xiàn)智算集群的易用與可控成本,已經(jīng)成為產(chǎn)業(yè)界共識(shí)。
“中科曙光擁有30年高性能計(jì)算技術(shù)積累,可攜手產(chǎn)業(yè)伙伴一起突破當(dāng)下算力瓶頸,共建開放、普惠的智算產(chǎn)業(yè)生態(tài)。”中科曙光總裁助理、智能計(jì)算產(chǎn)品事業(yè)部總經(jīng)理杜夏威表示,克服國(guó)內(nèi)AI算力多維挑戰(zhàn),需匯聚芯片、計(jì)算系統(tǒng)、大模型等產(chǎn)業(yè)鏈多方力量,構(gòu)建開放AI計(jì)算架構(gòu)并拉通產(chǎn)業(yè)間跨層協(xié)作,以打破“技術(shù)墻”與“生態(tài)墻”。
而作為開放式、標(biāo)準(zhǔn)化、高效率算力集群的樣板,曙光AI超集群系統(tǒng)具有如下技術(shù)特點(diǎn):
超高性能:?jiǎn)螜C(jī)柜可搭載96張GPU卡、算力規(guī)模達(dá)百P級(jí)、訪存總帶寬超180TB/s;支持多精度、混合精度運(yùn)算;支持百萬卡超大集群擴(kuò)展。
超高效率:千卡集群大模型訓(xùn)練推理性能達(dá)到業(yè)界主流水平2.3倍、開發(fā)效率提升4倍、人天投入減少70%;存算傳協(xié)同,提升GPU計(jì)算效率55%;先進(jìn)冷板液冷,394項(xiàng)節(jié)能設(shè)計(jì)PUE低于1.12。
超高可靠:121項(xiàng)設(shè)備和鏈路RAS可靠性設(shè)計(jì);平均無故障時(shí)間(MTBF)提高2.1倍;平均故障修復(fù)時(shí)間(MTTR)降低47%;超30天長(zhǎng)穩(wěn)運(yùn)行集群可靠性測(cè)試;實(shí)現(xiàn)百萬級(jí)部件故障自動(dòng)分析與秒級(jí)隔離。
全面開放:基于AI計(jì)算開放架構(gòu)設(shè)計(jì);硬件適配多品牌AI加速卡;軟件兼容主流AI計(jì)算生態(tài);多項(xiàng)技術(shù)能力開放與共享。
杜夏威介紹,曙光AI超集群系統(tǒng)不僅是產(chǎn)品,更是面向產(chǎn)業(yè)界的開放創(chuàng)新平臺(tái)。依托AI超集群系統(tǒng),中科曙光將開放AI存儲(chǔ)優(yōu)化能力、液冷基礎(chǔ)設(shè)施設(shè)計(jì)規(guī)范、DeepAI基礎(chǔ)軟件棧等三項(xiàng)技術(shù)能力,助力合作伙伴、重點(diǎn)用戶在AI應(yīng)用存儲(chǔ)性能加速、液冷超節(jié)點(diǎn)系統(tǒng)設(shè)計(jì)、GPU開發(fā)統(tǒng)一開發(fā)框架等方面獲得高級(jí)別技術(shù)共享、深度定制優(yōu)化與專業(yè)技術(shù)支持。
-
AI
+關(guān)注
關(guān)注
88文章
37404瀏覽量
292751 -
中科曙光
+關(guān)注
關(guān)注
5文章
442瀏覽量
18810 -
大模型
+關(guān)注
關(guān)注
2文章
3384瀏覽量
4852
原文標(biāo)題:可支持百萬卡擴(kuò)展!中科曙光發(fā)布國(guó)內(nèi)首個(gè)開放架構(gòu)AI超集群系統(tǒng)
文章出處:【微信號(hào):sugoncn,微信公眾號(hào):中科曙光】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄

中科曙光發(fā)布國(guó)內(nèi)首個(gè)開放架構(gòu)AI超集群系統(tǒng)
評(píng)論