亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

沐曦曦云C系列產(chǎn)品已支持TileLang

沐曦MetaX ? 來(lái)源:沐曦MetaX ? 2025-10-14 09:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一門由TileLang社區(qū)主導(dǎo)開發(fā)的編程語(yǔ)言,正悄然改變國(guó)產(chǎn)GPU的生態(tài)格局。

近日,DeepSeek宣布在其新版本中擁抱國(guó)產(chǎn)GPU語(yǔ)言TileLang,引發(fā)業(yè)界廣泛關(guān)注。作為國(guó)產(chǎn)高性能GPU的代表,沐曦曦云C系列產(chǎn)品已率先在這一新興開源社區(qū)獲得支持。TileLang項(xiàng)目是由TileLang社區(qū)主導(dǎo)開發(fā),旨在簡(jiǎn)化高性能GPU/CPU內(nèi)核的開發(fā)。它采用Python式語(yǔ)法,讓開發(fā)者能夠?qū)W⒂谔岣呱a(chǎn)力,而無(wú)需犧牲實(shí)現(xiàn)最佳性能所需的底層優(yōu)化。

1生態(tài)破局:國(guó)產(chǎn)算力的協(xié)同前行

TileLang作為一種專門用來(lái)開發(fā)GPU內(nèi)核的領(lǐng)域?qū)S谜Z(yǔ)言,性能上可以對(duì)標(biāo)國(guó)際主流生態(tài)。DeepSeek官方推薦開發(fā)者使用該版本進(jìn)行實(shí)驗(yàn)性開發(fā),因其在調(diào)試便捷性與迭代速度上具備明顯優(yōu)勢(shì)。這一特性對(duì)正在積極構(gòu)建軟件生態(tài)的國(guó)產(chǎn)GPU廠商來(lái)說,無(wú)疑是重要機(jī)遇。

沐曦率先跟進(jìn)這一機(jī)遇。沐曦AI編譯器團(tuán)隊(duì)和TileLang社區(qū)合作已提前參與該項(xiàng)目,探討沐曦GPU與TileLang的適配。 這種與開源社區(qū)的緊密合作,顯著加快了沐曦曦云C系列產(chǎn)品融入主流開發(fā)生態(tài)的速度。

2生態(tài)適配:從追趕者到參與者

在算力領(lǐng)域,硬件性能只是基礎(chǔ),軟件生態(tài)才是決定成敗的關(guān)鍵。沐曦MXMACA軟件棧作為連接硬件與應(yīng)用的橋梁,其兼容性與性能直接關(guān)系到用戶體驗(yàn)。目前沐曦MXMACA軟件棧已實(shí)現(xiàn)對(duì)主流國(guó)際主流生態(tài)的兼容,原生支持PyTorch、TensorFlow及國(guó)產(chǎn)框架。這種兼容性設(shè)計(jì)讓開發(fā)者能夠幾乎無(wú)成本地將現(xiàn)有項(xiàng)目遷移到MXMACA軟件棧。

如今,MXMACA對(duì)TileLang社區(qū)的快速支持更進(jìn)一步,體現(xiàn)了沐曦在開源生態(tài)建設(shè)上的敏銳度。TileLang作為重要的AI計(jì)算編譯器項(xiàng)目,其對(duì)MXMACA的支持不僅減少了開發(fā)者適配工作量,更打通了沐曦硬件與現(xiàn)代化AI編譯工具鏈的通道。

在WAIC 2025期間,沐曦聯(lián)合創(chuàng)始人、CTO兼首席軟件架構(gòu)師楊建曾明確表示,“GPU芯片的價(jià)值發(fā)揮離不開軟件驅(qū)動(dòng),從底層驅(qū)動(dòng)、中間框架到上層應(yīng)用,形成完整鏈條”。 這一理念正在通過實(shí)際的開源貢獻(xiàn)得以踐行。

3開發(fā)效率:TileLang的革命性突破

TileLang最顯著的優(yōu)勢(shì)在于大幅提升GPU內(nèi)核的開發(fā)效率。TileLang實(shí)現(xiàn)FlashAttention算子開發(fā),代碼量從500+行減少至80行,并保持了與官方版本持平的性能。這種代碼量的大幅減少不僅降低了開發(fā)門檻,也提高了維護(hù)性和可讀性。

有開發(fā)者感嘆TileLang是一種非常優(yōu)雅的語(yǔ)言,只需不到100行代碼就能寫出比Flash Attention 2原版快30%。這種開發(fā)效率與性能兼得的特點(diǎn),正是TileLang引發(fā)關(guān)注的重要原因。

TileLang提供了三個(gè)不同層次的編程接口,滿足從初學(xué)者到專家不同水平開發(fā)者的需求。 這種分層設(shè)計(jì)使曦云C系列的開發(fā)者能夠根據(jù)自身熟練程度,選擇合適的切入點(diǎn)進(jìn)行算子開發(fā)與優(yōu)化。

4實(shí)戰(zhàn)驗(yàn)證:從原型到產(chǎn)品的性能表現(xiàn)

DeepSeek選擇TileLang并非偶然,而是基于實(shí)際性能驗(yàn)證。具體的性能數(shù)據(jù)來(lái)自TileLang以DeepSeek發(fā)布的FlashMLA內(nèi)核作為評(píng)測(cè)基準(zhǔn)的實(shí)驗(yàn):在英偉達(dá)H100上的MLA解碼速度,TileLang編寫的內(nèi)核做到與FlashMLA相當(dāng)。這一結(jié)果證明了TileLang在性能上具備與國(guó)際先進(jìn)產(chǎn)品競(jìng)爭(zhēng)的實(shí)力。DeepSeek v3.2也驗(yàn)證了TileLang確實(shí)可以用來(lái)訓(xùn)練模型。 這一實(shí)踐意義重大,表明了TileLang已從實(shí)驗(yàn)階段走向?qū)嶋H生產(chǎn)應(yīng)用。

沐曦開源的TileLang已發(fā)布在gitee倉(cāng)庫(kù)【mcTileLang】,基于TileLang已有的優(yōu)化效果詳細(xì)性能如下:

70ef6956-9e0e-11f0-8c8f-92fbcf53809c.png

表1 測(cè)試數(shù)據(jù)及性能

可以預(yù)期在常用核心算子上將有與國(guó)際領(lǐng)先產(chǎn)品競(jìng)爭(zhēng)甚至超越的表現(xiàn),期待開源社區(qū)一起共建和持續(xù)更新。

4在線體驗(yàn):模力方舟曦云C系列體驗(yàn)

為了讓開發(fā)者更便捷地體驗(yàn)TileLang在曦云C系列上的性能表現(xiàn),沐曦已在模力方舟平臺(tái)提供在線體驗(yàn)環(huán)境。這一平臺(tái)將提供預(yù)配置的開發(fā)環(huán)境,讓開發(fā)者無(wú)需自行搭建硬件平臺(tái),即可體驗(yàn)TileLang在曦云C系列上的算子開發(fā)和優(yōu)化過程。

從芯片到編譯器,從硬件到生態(tài),沐曦曦云C系列產(chǎn)品與TileLang的快速適配展現(xiàn)了中國(guó)算力產(chǎn)業(yè)的新思路:不再單點(diǎn)突破,而是攜手開源生態(tài)共進(jìn)。

沐曦曦云C系列產(chǎn)品在TileLang社區(qū)的支持只是國(guó)產(chǎn)GPU漫長(zhǎng)征程中的一小步,卻是生態(tài)建設(shè)上質(zhì)變的一大步。當(dāng)開發(fā)者們?cè)谀AΨ街燮脚_(tái)上輕點(diǎn)鼠標(biāo),就能在曦云系列上運(yùn)行優(yōu)化后的TileLang代碼,那種生態(tài)隔閡的堅(jiān)冰正悄然消融。

未來(lái)的算力格局,注定是多元共存、開源生態(tài)共榮的圖景。

關(guān)于沐曦

沐曦致力于自主研發(fā)全棧高性能GPU芯片及計(jì)算平臺(tái),為智算、通用計(jì)算、云渲染等前沿領(lǐng)域提供高能效、高通用性的算力支撐,助力數(shù)字經(jīng)濟(jì)發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5065

    瀏覽量

    134095
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3921

    瀏覽量

    45413
  • 沐曦
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    1616
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    821

    瀏覽量

    2707

原文標(biāo)題:沐曦已支持TileLang,性能比肩國(guó)際主流

文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    股份與上海電信完成首期GPU生態(tài)專家認(rèn)證培訓(xùn)

    近期,集成電路(上海)股份有限公司(以下簡(jiǎn)稱“股份”)攜手上海電信天翼能力運(yùn)營(yíng)中心(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 10-31 10:33 ?144次閱讀

    強(qiáng)強(qiáng)聯(lián)合:之江實(shí)驗(yàn)室與股份共建智算集群聯(lián)合實(shí)驗(yàn)室

    2025年10月22日, 之江實(shí)驗(yàn)室與集成電路(上海)股份有限公司(以下簡(jiǎn)稱“股份”)正式簽署合作協(xié)議,共同組建“智算集群聯(lián)合實(shí)驗(yàn)室”,攜手推進(jìn)人工智能算力基礎(chǔ)設(shè)施創(chuàng)新發(fā)展 。
    的頭像 發(fā)表于 10-23 10:50 ?816次閱讀

    首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 集成推出C600

    集成電路(南京)有限公司近日正式發(fā)布了首款全國(guó)產(chǎn)通用GPU——C600,這標(biāo)志著國(guó)產(chǎn)高性能GPU實(shí)現(xiàn)歷史性突破。 據(jù)新華日?qǐng)?bào)報(bào)道顯示
    的頭像 發(fā)表于 10-19 20:04 ?2.3w次閱讀

    GPU與龍蜥操作系統(tǒng)完成適配

    集成電路(上海)股份有限公司(以下簡(jiǎn)稱"")于 2020 年 9 月成立于上海,其擁有技術(shù)完備、設(shè)計(jì)和產(chǎn)業(yè)化經(jīng)驗(yàn)豐富的團(tuán)隊(duì),曾主導(dǎo)過十多款世界主流高性能 GPU
    的頭像 發(fā)表于 10-17 15:06 ?593次閱讀

    聯(lián)合香港科技大學(xué)登上AI頂會(huì)

    近日,PDE-AI Solution團(tuán)隊(duì)與香港科技大學(xué)合作,在兩大人工智能頂級(jí)會(huì)議NeurIPS2025與EMNLP 2025上發(fā)表重要研究成果,涵蓋大語(yǔ)言模型(LLM)的多樣化解碼與高效訓(xùn)練優(yōu)化方向,展現(xiàn)了中國(guó)企業(yè)在AI基礎(chǔ)研究領(lǐng)域的持續(xù)創(chuàng)新力。
    的頭像 發(fā)表于 10-14 09:46 ?622次閱讀

    書生大模型實(shí)戰(zhàn)營(yíng)魔樂專場(chǎng)MeetUP精彩回顧

    近日,由書生大模型社區(qū)、、魔樂社區(qū)、算豐和 DaoCloud 道客等聯(lián)合打造的「書生大模型實(shí)戰(zhàn)營(yíng)魔樂專場(chǎng) MeetUP 暨頒獎(jiǎng)儀式」在上海漕河涇國(guó)際孵化中心圓滿落幕。
    的頭像 發(fā)表于 08-20 11:33 ?757次閱讀

    全鏈路算力方案亮相WAIC 2025

    以“智能時(shí)代 同球共濟(jì)”為主題的2025世界人工智能大會(huì)(WAIC)于7月26日在上海開幕,全球人工智能領(lǐng)域的技術(shù)創(chuàng)新與產(chǎn)業(yè)實(shí)踐成為焦點(diǎn)。集成電路(上海)股份有限公司(以下簡(jiǎn)稱“
    的頭像 發(fā)表于 08-01 11:58 ?7413次閱讀

    亮相2025世界人工智能大會(huì)

    子技術(shù)標(biāo)準(zhǔn)化研究院、上海市算力網(wǎng)絡(luò)協(xié)會(huì)等權(quán)威機(jī)構(gòu),匯聚院士、政府領(lǐng)導(dǎo)、頭部企業(yè)CTO及學(xué)術(shù)領(lǐng)袖共話AI算力未來(lái)。論壇現(xiàn)場(chǎng)重磅發(fā)布基于國(guó)產(chǎn)供應(yīng)鏈的旗艦GPUC600,首發(fā)訓(xùn)推一體技術(shù)全棧方案,聚焦“開源生態(tài)”與“訓(xùn)推能力”兩大
    的頭像 發(fā)表于 07-28 18:08 ?4305次閱讀

    硅基流動(dòng)攜手首發(fā)基于的Kimi K2推理服務(wù)

    今天,硅基流動(dòng)聯(lián)合集成電路(上海)股份有限公司(簡(jiǎn)稱“”),全球首發(fā)基于
    的頭像 發(fā)表于 07-23 17:33 ?1446次閱讀

    PaddleScience完成與AI芯片適配

    當(dāng)前,PaddleScience已與展開深度合作,涵蓋智能仿真、高性能計(jì)算、科學(xué)建模等多個(gè)方向。這一趨勢(shì)正加速形成面向"Al for Science"的國(guó)產(chǎn)智算生態(tài)新格局。
    的頭像 發(fā)表于 05-06 14:49 ?1167次閱讀

    C500通用計(jì)算GPU與百度飛槳完成Ⅱ級(jí)兼容性測(cè)試

    近日,C500通用計(jì)算GPU與百度飛槳已完成Ⅱ級(jí)兼容性測(cè)試。測(cè)試結(jié)果顯示,雙方兼容性表現(xiàn)良好,整體運(yùn)行穩(wěn)定。這是
    的頭像 發(fā)表于 03-31 14:22 ?1345次閱讀

    加速DeepSeek滿血版單卡C500異構(gòu)推理

    近日,基于開源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-
    的頭像 發(fā)表于 03-20 15:52 ?1755次閱讀

    Gitee AI 聯(lián)合首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四個(gè)較小尺寸的 DeepSeek 模型。值得關(guān)注的是, 本次上線的四個(gè)模型均部署在國(guó)產(chǎn)
    的頭像 發(fā)表于 02-10 09:56 ?1026次閱讀
    Gitee AI 聯(lián)合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首發(fā)全套 DeepSeek R1 千問蒸餾模型,全免費(fèi)體驗(yàn)!

    澎峰科技與完成聯(lián)合測(cè)試,實(shí)現(xiàn)全面兼容

    近日,澎峰科技與科技宣布,雙方已完成對(duì)PerfXLM推理引擎、PerfXCloud大模型服務(wù)平臺(tái)與
    的頭像 發(fā)表于 01-21 15:20 ?912次閱讀

    澎峰科技計(jì)算軟件棧與GPU完成適配和互認(rèn)證

    ?近期,澎峰科技與完成了對(duì)PerfXLM(推理引擎)、PerfXCloud(大模型服務(wù)平臺(tái))與
    的頭像 發(fā)表于 01-21 09:51 ?1081次閱讀