Hugging Face平臺于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可在內存低于1GB的PC上運行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對硬件資源限制,幫助開發(fā)者應對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。
這兩款模型具備先進的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關于PDF或科學圖表的問題等任務。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質量圖像和文本數(shù)據(jù)集,側重于多模態(tài)學習;Docmatix專為文檔理解定制,將掃描文件與詳細標題配對以增強理解。
此外,模型采用了更小的視覺編碼器SigLIP base patch-16/512,通過優(yōu)化圖像標記處理方式,減少了冗余,還將圖像編碼速率提升至每個標記4096像素,相比早期版本的每標記1820像素有了顯著改進。
Hugging Face此次推出的最小AI視覺語言模型,為AI在低資源設備上的應用開辟了新的道路。
- 
                                人工智能
                                +關注
關注
1813文章
49573瀏覽量
259869 - 
                                語言模型
                                +關注
關注
0文章
567瀏覽量
11233 - 
                                AI視覺
                                +關注
關注
0文章
101瀏覽量
4931 
發(fā)布評論請先 登錄
什么是AI模型的推理能力
如何基于Android 14在i.MX95 EVK上運行Deepseek-R1-1.5B和性能
??低?b class='flag-5'>推出視覺大模型系列攝像機
添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略
DeepSeek模型為何掀起如此大的波瀾
廣和通正式推出AI玩具大模型解決方案
廣和通推出AI玩具大模型解決方案
新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺
    
          
        
        
Hugging Face推出最小AI視覺語言模型
                
 
    
    
           
            
            
                
            
評論