亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Votee AI借助NVIDIA技術(shù)加速方言小語(yǔ)種LLM開(kāi)發(fā)

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 2025-08-20 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡(jiǎn)介

Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工具,高效構(gòu)建了精準(zhǔn)的方言及小語(yǔ)種大語(yǔ)言模型 (LLM)。此舉成功解決了數(shù)據(jù)稀缺、語(yǔ)言復(fù)雜及計(jì)算效率等挑戰(zhàn),為全球數(shù)以百萬(wàn)計(jì)、缺乏數(shù)字化資源的語(yǔ)言使用者提供了技術(shù)支持。

用技術(shù)打破小眾語(yǔ)言數(shù)字化障礙

Votee AI 是一家致力于通過(guò)人工智能推動(dòng)語(yǔ)言多樣性發(fā)展與文化遺產(chǎn)保護(hù)的初創(chuàng)公司。全球有超過(guò) 6000 種語(yǔ)言,其中大量是缺乏數(shù)字化資源的方言和小語(yǔ)種(如粵語(yǔ)、伊班語(yǔ)、爪哇語(yǔ)等)。Votee AI 的使命是“讓 AI 技術(shù)以用戶(hù)的母語(yǔ)服務(wù)社區(qū)”,專(zhuān)注于為這些語(yǔ)言開(kāi)發(fā)先進(jìn)的 LLM。

Votee AI 提供定制化的 AI 語(yǔ)言解決方案,服務(wù)范圍覆蓋教育、媒體、金融、零售、公共服務(wù)和文化遺產(chǎn)保護(hù)等多個(gè)領(lǐng)域。公司自主研發(fā)的粵語(yǔ) LLM,是一個(gè)開(kāi)源、開(kāi)放數(shù)據(jù)和開(kāi)放模型的項(xiàng)目,旨在服務(wù)全球的粵語(yǔ)使用者。通過(guò)技術(shù)創(chuàng)新,Votee AI 希望打破小眾語(yǔ)言面臨的數(shù)字化障礙,不僅為這些語(yǔ)言社群提供更貼近本土需求的 AI 工具,更以科技力量守護(hù)全球的語(yǔ)言多樣性。

小語(yǔ)種 LLM 構(gòu)建的嚴(yán)峻挑戰(zhàn)

為粵語(yǔ)等方言和小語(yǔ)種構(gòu)建高性能的 LLM,面臨著幾大嚴(yán)峻挑戰(zhàn):

嚴(yán)重的數(shù)據(jù)稀缺性與質(zhì)量問(wèn)題:與英語(yǔ)或普通話(huà)等資源豐富的語(yǔ)言相比,粵語(yǔ)等方言和小語(yǔ)種的高質(zhì)量、適用于計(jì)算處理的文本數(shù)據(jù)極其有限。現(xiàn)有的網(wǎng)絡(luò)爬取數(shù)據(jù)往往充滿(mǎn)噪聲、格式不一致,甚至包含錯(cuò)誤信息,且可能存在地域或主題偏差,影響模型訓(xùn)練的基礎(chǔ)和泛化能力。

語(yǔ)言本身的復(fù)雜性:粵語(yǔ)等語(yǔ)言擁有豐富的俚語(yǔ)、口語(yǔ)化表達(dá)、網(wǎng)絡(luò)用語(yǔ)以及獨(dú)特的語(yǔ)法結(jié)構(gòu)和聲調(diào)系統(tǒng)(例如粵語(yǔ)的“水文化”習(xí)語(yǔ))。傳統(tǒng) NLP 模型和分詞器難以準(zhǔn)確捕捉這些細(xì)微差別,容易導(dǎo)致理解錯(cuò)誤、生成不自然甚至完全錯(cuò)誤的“幻覺(jué)”內(nèi)容。

巨大的計(jì)算需求:訓(xùn)練能夠理解復(fù)雜語(yǔ)言細(xì)微差別的大規(guī)模 LLM 需要強(qiáng)大的計(jì)算能力。傳統(tǒng)的 CPU 計(jì)算方案或資源不足的 GPU 環(huán)境會(huì)導(dǎo)致訓(xùn)練周期過(guò)長(zhǎng)(數(shù)周甚至數(shù)月),使得模型迭代、實(shí)驗(yàn)和優(yōu)化變得極其緩慢和昂貴,難以快速響應(yīng)需求或改進(jìn)模型。

評(píng)估困難:標(biāo)準(zhǔn)的 NLP 評(píng)估指標(biāo)(如 BLEU、ROUGE)可能不足以全面衡量模型在方言和小語(yǔ)種上的真實(shí)表現(xiàn),特別是在理解文化背景和口語(yǔ)地道性方面。需要結(jié)合語(yǔ)言特定指標(biāo)和成本高昂的人工評(píng)估。

NVIDIA 技術(shù)加速方言小語(yǔ)種 LLM 開(kāi)發(fā)

面對(duì)這些挑戰(zhàn),Votee AI 選擇采用端到端的 NVIDIA 技術(shù)進(jìn)行賦能,利用其硬件和軟件堆棧來(lái)加速和優(yōu)化方言和小語(yǔ)種語(yǔ)言 LLM 的開(kāi)發(fā)流程:

硬件基礎(chǔ):Votee AI 借助 NVIDIA GPU 所具備的大規(guī)模并行計(jì)算能力,為數(shù)據(jù)處理與模型訓(xùn)練提供了核心支撐,成為應(yīng)對(duì)計(jì)算密集型任務(wù)的底層技術(shù)基礎(chǔ)。

數(shù)據(jù)準(zhǔn)備與清洗:為了解決數(shù)據(jù)稀缺和質(zhì)量問(wèn)題,Votee AI 利用NVIDIA NeMo Curator進(jìn)行高效的數(shù)據(jù)準(zhǔn)備。NeMo Curator 是一個(gè) GPU 加速的數(shù)據(jù)整理庫(kù),能夠處理從數(shù)據(jù)下載、提?。ㄖС?Common Crawl, Wikipedia 等)、清洗(語(yǔ)言識(shí)別、格式化、去噪、自定義規(guī)則處理粵語(yǔ)特定字符和表達(dá))、過(guò)濾到去重(精確/模糊)的全流程。結(jié)合 NVIDIA RAPIDS cuDF 進(jìn)行底層加速,數(shù)據(jù)清洗和分詞等預(yù)處理任務(wù)速度提升了 20 倍,例如,處理 1TB 的粵語(yǔ)語(yǔ)料庫(kù),清理時(shí)間從數(shù)周縮短至僅需 2 小時(shí),確保了輸入模型的數(shù)據(jù)質(zhì)量和處理效率。

模型訓(xùn)練:Votee AI 采用NVIDIA NeMo Framework,這是一個(gè)端到端的平臺(tái),用于開(kāi)發(fā)和訓(xùn)練大規(guī)模語(yǔ)言模型。利用其 NeMo Megatron 組件,Votee AI 能夠:

a. 高效分布式訓(xùn)練:在多 GPU 和多節(jié)點(diǎn)環(huán)境上高效擴(kuò)展訓(xùn)練,支持張量并行 (TP)、流水線(xiàn)并行 (PP) 等多種并行策略。

b. 混合精度訓(xùn)練:使用 BF16 混合精度進(jìn)行訓(xùn)練,顯著減少內(nèi)存占用并加速計(jì)算,使 Votee AI 的 120 億參數(shù)粵語(yǔ)模型訓(xùn)練時(shí)間縮短了 40%(從預(yù)計(jì) 14 天減少到 8.4 天)。

c. 靈活架構(gòu)與優(yōu)化:支持多種 Transformer 架構(gòu),并允許針對(duì)方言和小語(yǔ)種進(jìn)行調(diào)整(如模型大小、正則化策略、遷移學(xué)習(xí))。

優(yōu)化與評(píng)估:

a. 自動(dòng)配置優(yōu)化:使用NVIDIA Auto Configurator自動(dòng)搜索和推薦影響訓(xùn)練吞吐量和效率的最佳超參數(shù)組合(如并行策略 TP/PP、微批量大小 MBS 等),簡(jiǎn)化了復(fù)雜的配置過(guò)程,幫助快速找到最優(yōu)訓(xùn)練方案。

b. 超參數(shù)調(diào)優(yōu):利用NVIDIA cuML(RAPIDS 的一部分)進(jìn)行加速的自動(dòng)化超參數(shù)調(diào)優(yōu),以提升模型在下游任務(wù)上的性能。這使得模型的困惑度 (Perplexity) 降低了 15%,并在粵語(yǔ)特定評(píng)估任務(wù)中(如 BLEU 分?jǐn)?shù))提升了 22%,顯著增強(qiáng)了模型對(duì)粵語(yǔ)俚語(yǔ)和口語(yǔ)化表達(dá)的理解能力。

通過(guò)整合這些 NVIDIA 技術(shù),Votee AI 建立了一個(gè)高效、可擴(kuò)展的工作流程,專(zhuān)用于應(yīng)對(duì)方言和小語(yǔ)種語(yǔ)言 LLM 開(kāi)發(fā)的獨(dú)特挑戰(zhàn)。

使用效果及影響

通過(guò)采用 NVIDIA AI 技術(shù),Votee AI 在為方言和小語(yǔ)種(以粵語(yǔ)為起點(diǎn))構(gòu)建 LLM 方面取得了顯著的成果:

大幅提升研發(fā)效率:借助 NVIDIA GPU和 NeMo 軟件棧,Votee AI 的模型迭代周期縮短了 50%,從原來(lái)的平均 6 周減少到僅需 3 周。這使得團(tuán)隊(duì)能夠更快地進(jìn)行實(shí)驗(yàn)、優(yōu)化模型并響應(yīng)社區(qū)需求。

顯著提高模型準(zhǔn)確性與魯棒性:通過(guò) NeMo Curator 精心準(zhǔn)備數(shù)據(jù)和 NeMo Framework 以及 Nemo Megatron 進(jìn)行優(yōu)化訓(xùn)練,結(jié)合 cuML 進(jìn)行超參數(shù)調(diào)優(yōu),所構(gòu)建的粵語(yǔ) LLM 在理解復(fù)雜粵語(yǔ)(包括俚語(yǔ)和口語(yǔ))方面的準(zhǔn)確率從基線(xiàn)的 68% 提高到了 89%。這確保了模型在實(shí)際應(yīng)用中能提供更自然、更精準(zhǔn)的交互。

增強(qiáng)應(yīng)用性能與用戶(hù)體驗(yàn):GPU 的高效計(jì)算能力不僅加速了訓(xùn)練,還將模型推理速度提高了 3 倍。這意味著基于該 LLM 的應(yīng)用(如智慧客服、教育工具、媒體內(nèi)容生成)能夠?qū)崟r(shí)響應(yīng)用戶(hù)查詢(xún),提供更流暢、更自然的交互體驗(yàn)。

推動(dòng)語(yǔ)言包容性與文化傳承:Votee AI 構(gòu)建的高質(zhì)量粵語(yǔ) LLM 為全球粵語(yǔ)使用者提供先進(jìn) AI 工具,既彌合數(shù)字鴻溝,也助力粵語(yǔ)文化遺產(chǎn)保護(hù)與傳承。

奠定可擴(kuò)展的基礎(chǔ):Votee AI 使用 NVIDIA 技術(shù)構(gòu)建的這套方法論和技術(shù)架構(gòu)具有高度可擴(kuò)展性,正在被應(yīng)用于開(kāi)發(fā)其他方言和小語(yǔ)種(如伊班語(yǔ)、爪哇語(yǔ))的 LLM,推動(dòng) AI 技術(shù)在全球多語(yǔ)言環(huán)境中的公平普及和創(chuàng)新應(yīng)用。

Votee AICTO陳豪杰表示:“借助NVIDIA GPU和NeMo Framework,我們成功克服了方言和小語(yǔ)種建模中數(shù)據(jù)稀缺性和語(yǔ)言復(fù)雜性的挑戰(zhàn)。這使得我們能夠高效、精準(zhǔn)地開(kāi)發(fā)AI應(yīng)用,并使粵語(yǔ)及其他語(yǔ)言的大模型和AI場(chǎng)景能夠真正在世界各地落地應(yīng)用,賦能全球使用這些語(yǔ)言的社區(qū)。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5461

    瀏覽量

    108705
  • AI
    AI
    +關(guān)注

    關(guān)注

    89

    文章

    37431

    瀏覽量

    292890
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3622

    瀏覽量

    51591
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    340

    瀏覽量

    1225

原文標(biāo)題:初創(chuàng)加速計(jì)劃 | NVIDIA 助力 Votee AI 構(gòu)建方言及小語(yǔ)種語(yǔ)言大模型

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)

    [1]? 利用搭載 DGX GB200 系統(tǒng)的 NVIDIA DGX SuperPOD[2]?數(shù)字孿生系統(tǒng)實(shí)現(xiàn)了庫(kù)的重大擴(kuò)展 。借助 NVIDIA 高性能加速計(jì)算平臺(tái)的新模型,數(shù)據(jù)中
    的頭像 發(fā)表于 09-15 15:19 ?1132次閱讀

    全球知名品牌借助NVIDIA技術(shù)規(guī)?;桓秱€(gè)性化廣告

    營(yíng)銷(xiāo)領(lǐng)先者正借助使用 OpenUSD、NVIDIA Omniverse 和代理式 AI 技術(shù)開(kāi)發(fā)的解決方案,加速內(nèi)容創(chuàng)作管線(xiàn)。
    的頭像 發(fā)表于 08-12 15:15 ?866次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專(zhuān)為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新
    的頭像 發(fā)表于 07-04 14:38 ?1536次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發(fā)

    NVIDIA 宣布與諾和諾德開(kāi)展合作,借助創(chuàng)新 AI 應(yīng)用加速藥物研發(fā)。此次合作也將支持諾和諾德與丹麥 AI 創(chuàng)新中心 (DCAI) 關(guān)于使
    的頭像 發(fā)表于 06-12 15:49 ?862次閱讀

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語(yǔ)言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語(yǔ)言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級(jí) AI。
    的頭像 發(fā)表于 06-12 15:42 ?814次閱讀

    LM Studio使用NVIDIA技術(shù)加速LLM性能

    隨著 AI 使用場(chǎng)景不斷擴(kuò)展(從文檔摘要到定制化軟件代理),開(kāi)發(fā)者和技術(shù)愛(ài)好者正在尋求以更 快、更靈活的方式來(lái)運(yùn)行大語(yǔ)言模型(LLM)。
    的頭像 發(fā)表于 06-06 15:14 ?651次閱讀
    LM Studio使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>技術(shù)</b><b class='flag-5'>加速</b><b class='flag-5'>LLM</b>性能

    Wandercraft借助NVIDIA技術(shù)開(kāi)發(fā)個(gè)人外骨骼設(shè)備

    初創(chuàng)公司 Wandercraft 正借助 NVIDIA AINVIDIA Omniverse 仿真技術(shù),
    的頭像 發(fā)表于 05-15 10:43 ?623次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)

    NVIDIA GTC 推出新一代專(zhuān)業(yè)級(jí) GPU 和 AI 賦能的開(kāi)發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的
    的頭像 發(fā)表于 03-28 09:59 ?944次閱讀

    通用汽車(chē)和NVIDIA合作構(gòu)建定制化AI系統(tǒng)

    通用汽車(chē)和 NVIDIA 宣布正在借助 AI、仿真和加速計(jì)算技術(shù),合作打造下一代汽車(chē)、工廠和機(jī)器人。
    的頭像 發(fā)表于 03-20 14:40 ?1344次閱讀

    NVIDIA AI Foundry服務(wù)助力藥物和醫(yī)療設(shè)備開(kāi)發(fā)

    IQVIA、Illumina、妙佑醫(yī)療國(guó)際和 Arc 研究所借助 NVIDIA AI加速計(jì)算技術(shù),推動(dòng)規(guī)模達(dá) 10 萬(wàn)億美元的醫(yī)療健康與
    的頭像 發(fā)表于 01-14 16:21 ?733次閱讀

    NVIDIA發(fā)布Cosmos平臺(tái),加速物理AI開(kāi)發(fā)

    )和機(jī)器人等物理AI系統(tǒng)的快速發(fā)展。 Cosmos平臺(tái)的核心在于其強(qiáng)大的生成式世界基礎(chǔ)模型,能夠模擬和預(yù)測(cè)復(fù)雜環(huán)境中的各種物理現(xiàn)象。結(jié)合高級(jí)tokenizer,Cosmos能夠高效地處理和分析大量數(shù)據(jù),為物理AI系統(tǒng)的決策提供有力支持。同時(shí),護(hù)欄
    的頭像 發(fā)表于 01-13 11:06 ?1011次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱(chēng) ReDrafter) 是蘋(píng)果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與
    的頭像 發(fā)表于 12-25 17:31 ?1101次閱讀
    在<b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的一些變化

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)

    感謝眾多用戶(hù)及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?1060次閱讀
    <b class='flag-5'>NVIDIA</b> TensorRT-<b class='flag-5'>LLM</b> Roadmap現(xiàn)已在GitHub上公<b class='flag-5'>開(kāi)發(fā)</b>布

    NVIDIA加速AI在日本各行各業(yè)的應(yīng)用

    企業(yè)借助基于 NVIDIA AI Enterprise 與 Omniverse 工業(yè) AI 構(gòu)建的創(chuàng)新中心和服務(wù)加速
    的頭像 發(fā)表于 11-19 15:45 ?1049次閱讀

    日本企業(yè)借助NVIDIA產(chǎn)品加速AI創(chuàng)新

    日本領(lǐng)先企業(yè)和大學(xué)正在使用 NVIDIA NeMo、NIM 微服務(wù)和 NVIDIA Isaac 加速 AI 創(chuàng)新。
    的頭像 發(fā)表于 11-19 14:34 ?1412次閱讀