-
一個(gè)開源完整的基于 PyTorch 的 ChatGPT 等效實(shí)現(xiàn)流程,涵蓋所有 3 個(gè)階段,可以幫助你構(gòu)建基于預(yù)訓(xùn)練模型的 ChatGPT 式服務(wù)。
-
提供了一個(gè)迷你演示訓(xùn)練過程供用戶試玩,它只需要 1.62GB 的 GPU 顯存,并且可能在單個(gè)消費(fèi)級(jí) GPU 上實(shí)現(xiàn),單GPU模型容量最多提升10.3 倍。
-
與原始 PyTorch 相比,單機(jī)訓(xùn)練過程最高可提升7.73 倍,單 GPU 推理速度提升 1.42 倍,僅需一行代碼即可調(diào)用。
-
在微調(diào)任務(wù)上,同樣僅需一行代碼,就可以在保持足夠高的運(yùn)行速度的情況下,最多提升單GPU的微調(diào)模型容量3.7 倍。
-
提供多個(gè)版本的單 GPU 規(guī)模、單節(jié)點(diǎn)多 GPU 規(guī)模和原始 1750 億參數(shù)規(guī)模。還支持從 Hugging Face 導(dǎo)入 OPT、GPT-3、BLOOM 和許多其他預(yù)訓(xùn)練的大型模型到你的訓(xùn)練過程中。
博客內(nèi)容還指出,在單機(jī)多 GPU 服務(wù)器上,即便使用最高端的 A100 80GB 顯卡,由于 ChatGPT 的復(fù)雜性和內(nèi)存碎片,PyTorch 最大僅能啟動(dòng)基于 GPT-L(774M)這樣的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 進(jìn)行多卡并行擴(kuò)展至 4 卡或 8 卡,性能提升有限。Colossal-AI 不僅在單GPU速度上訓(xùn)練和推理優(yōu)勢明顯,隨著并行規(guī)模擴(kuò)大還可進(jìn)一步提升,最高可提升單機(jī)訓(xùn)練速度 7.73 倍,單 GPU 推理速度 1.42 倍;并且能夠繼續(xù)擴(kuò)展至大規(guī)模并行,顯著降低 ChatGPT 復(fù)現(xiàn)成本。
為了最大限度地降低培訓(xùn)成本和易用性,Colossal-AI 提供了可以在單個(gè) GPU 上試用的 ChatGPT 培訓(xùn)流程。與在 14999 美元的 A100 80GB 上最多只能啟動(dòng) 7.8 億個(gè)參數(shù)模型的 PyTorch 相比,Colossal-AI 將單個(gè) GPU 的容量提升了 10.3 倍,達(dá)到 80 億個(gè)參數(shù)。對(duì)于基于 1.2 億參數(shù)的小模型的 ChatGPT 訓(xùn)練,至少需要 1.62GB 的 GPU 內(nèi)存,任意單個(gè)消費(fèi)級(jí) GPU 都可以滿足。
此外,Colossal-AI 還在致力于降低基于預(yù)訓(xùn)練大型模型的微調(diào)任務(wù)的成本。以 ChatGPT 可選的開源基礎(chǔ)模型 OPT 為例,Colossal-AI 能夠在單 GPU 上將微調(diào)模型的容量提高到 PyTorch 的 3.7 倍,同時(shí)保持高速運(yùn)行。Colossal-AI 為 Hugging Face 社區(qū)的 GPT、OPT 和 BLOOM 等主流預(yù)訓(xùn)練模型,提供了開箱即用的 ChatGPT 復(fù)現(xiàn)代碼。以 GPT 為例,僅需一行代碼,指定使用 Colossal-AI 作為系統(tǒng)策略即可快速使用。
from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy
strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')
with strategy.model_init_context():
actor = GPTActor().cuda()
critic = GPTCritic().cuda()
initial_model = deepcopy(actor).cuda()
reward_model = RewardModel(deepcopy(critic.model)).cuda()
trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)
trainer.fit(prompts)
審核編輯 :李倩-
gpu
+關(guān)注
關(guān)注
28文章
5066瀏覽量
134126 -
服務(wù)器
+關(guān)注
關(guān)注
13文章
10042瀏覽量
90545 -
ChatGPT
+關(guān)注
關(guān)注
30文章
1595瀏覽量
9997
原文標(biāo)題:開源方案低成本復(fù)現(xiàn)ChatGPT流程,僅需1.6GB顯存即可體驗(yàn)
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
香蕉派開源社區(qū)與矽昌通信共推BPI-Wifi5 低成本路由器開源方案
低成本藍(lán)牙串口模塊解決方案
追求性能提升 使用8GB HBM2顯存
科技大廠競逐AIGC,中國的ChatGPT在哪?
低成本遙控器線路ICHQ1628產(chǎn)品規(guī)格書
堅(jiān)果Pro 3開啟了促銷活動(dòng)最高直降500元8GB+128GB版僅需2399元
榮耀V30 PRO在5G網(wǎng)絡(luò)環(huán)境下下載一部1.6GB大小的1080P電影僅需2分鐘
華為Mate 20降價(jià)促銷 6+128GB版僅需2199元
ESP32低成本板開源項(xiàng)目
低成本機(jī)器人消毒系統(tǒng)開源分享
開源低成本電力監(jiān)控系統(tǒng)
如何注冊ChatGPT 全流程分享
源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

開源方案低成本復(fù)現(xiàn)ChatGPT流程,僅需1.6GB顯存即可體驗(yàn)
評(píng)論