最好看的最新高清中文视频,亚洲区中文字幕在线不卡电影

baichuan-7B 主要是參考LLaMA進行的改進，且模型架構與LLaMA一致。而在開源大模型中，LLaMA無疑是其中最閃亮的星，但LLaMA存在如下問題：

LLaMA 原生僅支持 Latin 或 Cyrillic 語系，只使用了少量中文數(shù)據(jù)集進行訓練，因此，對于中文支持不是特別理想。

原版LLaMA模型的詞表大小是32K，僅有少量中文詞，對于中文的解碼效率較低。

baichuan-7B的改進如下：

效果改進：用于提升模型的效果以及解碼效率。

分詞改進：詞表大小為64K（使用2000萬條以中英為主的多語言語料訓練分詞模型，顯著提升對于中文的壓縮率），而LLaMA詞表大小為32K。

數(shù)據(jù)集改進：使用了大約 1.2T 中英 tokens 進行訓練（基于開源的中英文數(shù)據(jù)和自行抓取的中文互聯(lián)網(wǎng)數(shù)據(jù)以及部分高質量知識性數(shù)據(jù)進行的數(shù)據(jù)清洗），而 LLaMA 7B 使用 1T 英文 tokens 進行訓練。

技術改進：用于提升訓練穩(wěn)定性和吞吐量。

算子優(yōu)化技術：采用更高效算子，如 Flash-attention，NVIDIA apex 的 RMSNorm 等。

算子切分技術：將部分計算算子進行切分，減小內存峰值。

混合精度技術：降低在不損失模型精度的情況下加速計算過程。

訓練容災技術：訓練平臺和訓練框架聯(lián)合優(yōu)化，IaaS + PaaS 實現(xiàn)分鐘級的故障定位和任務恢復。

通信優(yōu)化技術，具體包括：

采用拓撲感知的集合通信算法，避免網(wǎng)絡擁塞問題，提高通信效率。

根據(jù)卡數(shù)自適應設置 bucket size，提高帶寬利用率。

根據(jù)模型和集群環(huán)境，調優(yōu)通信原語的觸發(fā)時機，從而將計算和通信重疊。

此外，該模型開源可商用，也算是一個優(yōu)勢吧。

可以看到，現(xiàn)在的大模型，從算法層面改進的空間似乎很小了，更多的是從工程和數(shù)據(jù)層面上進行改進從而來提升其性能。

最后，希望國產(chǎn)大模型越來越好~~
責任編輯：彭菁

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

帶寬

帶寬

+關注

關注
3

文章
1021

瀏覽量
42950
開源

開源

+關注

關注
3

文章
3921

瀏覽量
45413
模型

模型

+關注

關注
1

文章
3622

瀏覽量
51591

原文標題：百川智能開源大模型baichuan-7B剖析

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

智能開源大模型baichuan-7B技術改進

評論