Hugging Face推出最小AI視覺語言模型

Hugging Face平臺于1月23日發(fā)布博文，推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中，SmolVLM-256M-Instruct僅有2.56億參數(shù)，是有史以來發(fā)布的最小視覺語言模型，可在內存低于1GB的PC上運行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù)，主要針對硬件資源限制，幫助開發(fā)者應對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。

這兩款模型具備先進的多模態(tài)能力，可執(zhí)行圖像描述、短視頻分析以及回答關于PDF或科學圖表的問題等任務。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質量圖像和文本數(shù)據(jù)集，側重于多模態(tài)學習；Docmatix專為文檔理解定制，將掃描文件與詳細標題配對以增強理解。

此外，模型采用了更小的視覺編碼器SigLIP base patch-16/512，通過優(yōu)化圖像標記處理方式，減少了冗余，還將圖像編碼速率提升至每個標記4096像素，相比早期版本的每標記1820像素有了顯著改進。

Hugging Face此次推出的最小AI視覺語言模型，為AI在低資源設備上的應用開辟了新的道路。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1813

文章
49573

瀏覽量
259869
語言模型

語言模型

+關注

關注
0

文章
567

瀏覽量
11233
AI視覺

AI視覺

+關注

關注
0

文章
101

瀏覽量
4931

麥辣雞腿堡
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 麒麟9000s相當于驍龍多少和驍龍多少處理器相當
Hot 華為麒麟9000s是多少納米的麒麟9000s什么檔次

New BD9B333GWZ同步整流降壓型DC/DC轉換器文檔介紹
New BM2P061MF-Z DC/DC轉換器IC文檔介紹

精選推薦
更多

文章

資料

帖子

5倍凈利潤增長引爆賽道！A股CIS三強，Q3業(yè)績核心看點大PK

章鷹觀察
16小時前

3652 閱讀

RISC-V架構已成主流，這一環(huán)節(jié)價值凸顯

向上
17小時前

1544 閱讀

使用J-Link Attach NXP S32K3導致對應RAM區(qū)域被初始化成0xDEADBEEF

IAR愛亞系統(tǒng)
17小時前

1409 閱讀

智能執(zhí)行器顛覆汽車技術

向上
18小時前

1705 閱讀

講講如何閉環(huán)自動駕駛仿真場景，從重建到可用？

康謀自動駕駛
7天前

1474 閱讀

物料管理中的品質管理

wufan931111
27

5積分

30下載

最全面的LED知識

JO_lucky
1.57 MB

免費

0下載

NI公司LabWindows/CVI中多線程技術

290KB

1積分

45下載

clappr Web媒體播放器

h1654155275.5614
1.90 MB

2積分

1下載

Firefly framework Java異步Web框架

嘆久
0.99 MB

2積分

2下載

元服務發(fā)布選擇待發(fā)布軟件包

李洋水蛟龍
1天前

208 閱讀

關于一款SQ805加熱破壁機無法啟動的維修

dfgxzf
1天前

545 閱讀

《電子發(fā)燒友電子設計周報》聚焦硬科技領域核心價值第33期：2025.10.27--2025.10.31

電子人steve
4天前

1343 閱讀

有個P+N的MOS管驅動芯片找不到，不知道是哪一家的？

PCB00025869
1天前

1061 閱讀

labview怎么精準的控制副本vi的啟停

jf_60270046
2天前

1177 閱讀

推薦專欄
更多

企業(yè)產品

資料

方案
更多

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

Hugging Face推出最小AI視覺語言模型

評論