亚洲国产成人一区二区在线,人妻熟人中文字幕一区二区

長期以來，在科學(xué)計算這一關(guān)鍵領(lǐng)域，核心軟件與硬件大多依賴國外生態(tài)體系。這一現(xiàn)狀，不僅在性能優(yōu)化上存在掣肘，也讓國產(chǎn)科研面臨“算力不可控”的現(xiàn)實挑戰(zhàn)。如何讓國產(chǎn)軟件在國產(chǎn)硬件上高效運行，構(gòu)建真正自主可控的科學(xué)計算生態(tài)，成為科研界與產(chǎn)業(yè)界共同關(guān)注的焦點課題。

最近，國產(chǎn)開源密度泛函理論軟件——原子算籌（ABACUS）發(fā)布了最新迭代版v3.9.0.14和v3.9.0.15。值得關(guān)注的是，在這些更新中，沐曦科學(xué)計算團隊首次以開發(fā)者身份正式加入 ABACUS 社區(qū)。

這不僅是一項功能優(yōu)化的升級，更是國產(chǎn) GPGPU 與國產(chǎn)科學(xué)計算軟件深度融合的重要體現(xiàn)，標(biāo)志著國產(chǎn)算力生態(tài)正在走向新的發(fā)展階段。

1沐曦 —— 賦能科學(xué)計算的國產(chǎn) GPGPU

圖 1 MXMACA軟件棧

（高度兼容國際主流GPU軟件生態(tài)）

沐曦專注于高性能通用 GPU（GPGPU）的研發(fā)，致力于打造完整、自主可控的國產(chǎn)科學(xué)計算生態(tài)[1]。在軟件生態(tài)層面，沐曦推出了兼容國際主流GPU軟件生態(tài)的MXMACA 軟件棧：

兼容國際主流GPU軟件生態(tài)

使原代碼應(yīng)用能夠輕松在沐曦GPGPU 上運行，為國產(chǎn)科學(xué)計算軟件的遷移和適配提供便利。

自研高性能數(shù)學(xué)庫

包括mcBLAS、mcFFT等，為科學(xué)計算提供核心算力保障。

AI4Science支撐[2]

依托MXMACA，在AI4Materials[3]領(lǐng)域，沐曦已覆蓋從第一性原理計算、分子動力學(xué)到 AI 融合的材料科學(xué)應(yīng)用場景，為 AI4Materials 提供全面支持。更多AI4Science場景請點擊下方【閱讀原文】。

憑借出色的軟件生態(tài)兼容性與深厚的團隊開發(fā)和優(yōu)化能力，沐曦正在加速推動科學(xué)計算領(lǐng)域的國產(chǎn)化進程。

2ABACUS —— 開源開放的國產(chǎn)電子結(jié)構(gòu)軟件

圖 2 ABACUS軟件的框架

來源：ABACUS: An Electronic Structure Analysis Package for the AI Era

ABACUS（中文名：原子算籌）[4,5]作為一款基于第一性原理方法的開源材料計算平臺，由中國科學(xué)技術(shù)大學(xué)、中科院物理研究所、北京大學(xué)、北京科學(xué)智能研究院、合肥綜合性科學(xué)中心人工智能研究院等多家單位共同開發(fā)維護，擁有完全自主的知識產(chǎn)權(quán)，主要面向凝聚態(tài)材料及高溫高壓物質(zhì)模擬計算功能支持：

平面波基組與數(shù)值原子軌道基組；

電子結(jié)構(gòu)優(yōu)化、原子結(jié)構(gòu)弛豫、分子動力學(xué)模擬等功能；

從小體系到上千原子的材料模擬計算。

ABACUS 還具備良好的擴展性：

可與DeePMD-kit、DeePKS-kit、DP-GEN、DeepTB、DeepH、HammGNN、Hefei-NAMD、PYATB、APEX、LibRI、LibCOMM、Multiwfn、Candela、ASE、Phonopy、Wannier90、TB2J、ShengBTE、Atomkit、PEXSI、等軟件聯(lián)動[6]；

提供友好的開發(fā)者文檔、自動化測試與調(diào)試工具，方便科研人員快速上手[7]。

ABACUS不僅是一款科學(xué)計算軟件，更是國產(chǎn)開源科學(xué)計算生態(tài)的重要基石。

3沐曦 × ABACUS —— 共筑國產(chǎn)科學(xué)計算新生態(tài)

在 ABACUS 最新版本（v3.9.0.14和v3.9.0.15）的開發(fā)中，沐曦科學(xué)計算團隊首次以開發(fā)者身份正式加入社區(qū)[8-10]，并取得了顯著成果：

快速適配

得益于MXMACA 出色的軟件生態(tài)兼容性，ABACUS在沐曦GPU上無需改動一行源碼即可順利運行，平面波的CG或Davidson方法求解特征值、LCAO基組求解Kohn-Sham方程等主流算法均已支持。

深度優(yōu)化

通過沐曦自研求解器實現(xiàn) DAV 特征值求解，大幅提升求解效率；在沐曦 C 系列硬件的高帶寬架構(gòu)支持下，性能進一步釋放。

社區(qū)貢獻

沐曦科學(xué)計算團隊積極提交 PR，不僅帶來性能優(yōu)化，也完成了部分 Bug 修復(fù)，為 ABACUS 的穩(wěn)定發(fā)展貢獻力量。

3.164 GB顯存：單卡承載更大材料體系

在處理超大原子體系時，部分軟件可能因使用 32 位整型（int）作為數(shù)組索引或計數(shù)器，在體系規(guī)模超過一定閾值后觸發(fā)整數(shù)溢出，進而導(dǎo)致計算崩潰。這一問題通常在顯存容量較大的 GPU 上才會暴露——因為只有當(dāng)單卡能容納足夠大的體系時，相關(guān)數(shù)據(jù)結(jié)構(gòu)的尺寸才會增長到使 int 索引越界；而在顯存較小的 GPU 上，由于體系規(guī)模受限，往往無法觸發(fā)該邊界條件，因此問題長期隱藏。

沐曦科學(xué)計算團隊不僅協(xié)助 ABACUS 團隊定位并修復(fù)了這一關(guān)鍵 Bug，從根本上消除了大體系計算中的穩(wěn)定性隱患，更充分發(fā)揮沐曦 GPGPU 大顯存（64 GB）容量優(yōu)勢——單卡即可承載更大規(guī)模的體系，無需過早切分到多卡。這不僅顯著降低了對分布式內(nèi)存和通信的依賴，也讓用戶能在更穩(wěn)定、更經(jīng)濟的單機多卡配置下高效完成超大體系的第一性原理模擬。

3.2性能再提速：算子融合 + Batch FFT 優(yōu)化

在第一性原理計算中，傅里葉變換（FFT）是連接實空間與倒空間的核心操作，貫穿于電子密度構(gòu)建、勢能計算、波函數(shù)更新等多個關(guān)鍵步驟。尤其在平面波或數(shù)值原子軌道基組框架下，F(xiàn)FT 的調(diào)用頻次高、數(shù)據(jù)規(guī)模大，成為影響整體性能的重要瓶頸。為此，沐曦科學(xué)計算團隊對 ABACUS 中的 FFT 相關(guān)流程進行了深度優(yōu)化：

引入 Batch FFT 與算子融合技術(shù)：將 real_to_recip（實空間到倒空間）和 recip_to_real（倒空間到實空間）等關(guān)鍵路徑中的 FFT 運算重構(gòu)為Batch FFT模式，將原本逐個執(zhí)行的多個小規(guī)模 FFT 合并為一次批量調(diào)用，顯著提升了 FFT 部分的計算吞吐與 GPU 利用率。同時，針對這些流程中緊鄰 FFT 的其他計算操作（如數(shù)據(jù)重排，縮放等），沐曦科學(xué)計算團隊實施了算子融合優(yōu)化，將多個小 kernel 合并為更高效的執(zhí)行單元。兩項優(yōu)化協(xié)同作用，共同推動 ABACUS 在沐曦GPGPU 上的整體性能提升。

與此同時，本征態(tài)求解是第一性原理計算的另一核心挑戰(zhàn)，其算法選擇直接影響收斂速度與計算穩(wěn)定性。相較于傳統(tǒng)的共軛梯度（CG）方法，Davidson（DAV）算法往往展現(xiàn)出更優(yōu)的收斂行為。盡管 DAV 算法在實現(xiàn)上會占用更多顯存，但其在 GPU 上的并行潛力巨大。針對這一特點，我們對 DAV 模塊進行了優(yōu)化：

Davidson 對角化算法全面 GPU 化：將原本運行在 CPU 上的計算邏輯完整遷移至 GPU 端，結(jié)合內(nèi)存訪問優(yōu)化與自定義融合 kernel，高效實現(xiàn)了梯度計算、向量歸一化等操作。

減少 Host-Device 數(shù)據(jù)拷貝：關(guān)鍵數(shù)據(jù)全程常駐顯存，避免因 CPU 側(cè)輔助計算引發(fā)的冗余數(shù)據(jù)搬運，確保 GPU 計算單元持續(xù)滿載。

沐曦科學(xué)計算團隊協(xié)同 ABACUS 社區(qū)修復(fù)多項關(guān)鍵問題，確保生產(chǎn)環(huán)境穩(wěn)定可靠：

修復(fù) USE_ELPA=OFF 且 BUILD_TESTING=ON 時的編譯錯誤；

解決 Debug 模式下多 GPU 并行因設(shè)備上下文管理不當(dāng)導(dǎo)致的崩潰問題

——現(xiàn)在，調(diào)試與生產(chǎn)環(huán)境同樣穩(wěn)?。?/p>

4高效協(xié)作，源于優(yōu)秀的開源工程實踐

沐曦科學(xué)計算團隊能夠高效、快速地向 ABACUS 貢獻上述優(yōu)化與修復(fù)，離不開 ABACUS 項目本身卓越的軟件工程實踐。其代碼結(jié)構(gòu)清晰、模塊解耦良好，GPU 后端采用高度規(guī)范化的模板化設(shè)計，接口定義明確，文檔完善，使得新功能集成與性能調(diào)優(yōu)工作得以順暢推進。這種對開發(fā)者友好的架構(gòu)，不僅大幅降低了硬件廠商參與適配的門檻，也為國產(chǎn)科學(xué)計算軟件的可持續(xù)演進樹立了標(biāo)桿。正因如此，沐曦科學(xué)計算團隊才能在短時間內(nèi)完成從性能分析、算法優(yōu)化到代碼提交的完整閉環(huán)，并順利合入主干，真正實現(xiàn)“軟硬協(xié)同，快速迭代”。這不僅是一次適配與優(yōu)化，更是國產(chǎn) GPGPU 與國產(chǎn)軟件深度融合的縮影。

未來，沐曦將繼續(xù)攜手 ABACUS，共同推動 “國產(chǎn)軟件 + 國產(chǎn)硬件” 的科學(xué)計算新生態(tài)，為 AI4Science 時代的突破性研究提供堅實算力支撐。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

科學(xué)計算

科學(xué)計算

+關(guān)注

關(guān)注
0

文章
5

瀏覽量
1205
GPGPU

GPGPU

+關(guān)注

關(guān)注
0

文章
31

瀏覽量
5302
沐曦

沐曦

+關(guān)注

關(guān)注
0

文章
52

瀏覽量
1616

原文標(biāo)題：國產(chǎn)GPGPU × 國產(chǎn)軟件｜沐曦攜手 ABACUS，共筑國產(chǎn)科學(xué)計算新生態(tài)

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

沐曦攜手ABACUS推動國產(chǎn)科學(xué)計算新發(fā)展

評論