對計算機(jī)來說,理解“穿紅色上衣的長發(fā)女性”這類特征性描述,并在海量圖片中精準(zhǔn)找到對應(yīng)人物,是一項復(fù)雜的技術(shù)難題。盡管多模態(tài)預(yù)訓(xùn)練模型CLIP在多種視覺任務(wù)中展示出強(qiáng)大的性能,但其在人物表征學(xué)習(xí)的應(yīng)用中,也就是“以文找人”時,面臨兩個關(guān)鍵挑戰(zhàn):
一是缺乏專注于人物中心圖像的大規(guī)模訓(xùn)練數(shù)據(jù);二是容易受到噪聲文本標(biāo)記的影響。
格靈深瞳參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領(lǐng)域的頂級國際會議之一)。
首先,團(tuán)隊開發(fā)了一個抗噪聲的數(shù)據(jù)構(gòu)建管道,利用機(jī)器學(xué)習(xí)語言模型(MLLMs)的上下文學(xué)習(xí)能力,自動過濾和標(biāo)注網(wǎng)絡(luò)來源的圖像。這產(chǎn)生了一個大規(guī)模數(shù)據(jù)集WebPerson,包含500萬高質(zhì)量的人物中心圖像-文本對。
其次,團(tuán)隊引入了梯度-注意力引導(dǎo)的雙重遮蔽協(xié)同(GA-DMS)框架,用來改善跨模態(tài)對齊。
此外,團(tuán)隊還加入了遮蔽標(biāo)記預(yù)測目標(biāo),讓模型能夠預(yù)測信息豐富的文本標(biāo)記,增強(qiáng)細(xì)粒度語義表征學(xué)習(xí)。
廣泛的實驗表明,GA-DMS在多個基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能,實現(xiàn)了更精準(zhǔn)的“以文找人”檢索能力——在CUHK-PEDES數(shù)據(jù)集上的準(zhǔn)確率達(dá)到77.6%,在RSTPReid上準(zhǔn)確率達(dá)到71.25%。

GA-DMS技術(shù)示意圖
關(guān)于技術(shù)報告的更多細(xì)節(jié),可點擊下方鏈接體驗。
論文題目:Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
研究團(tuán)隊:格靈深瞳、東北大學(xué)、華南理工大學(xué)
報告鏈接:https://arxiv.org/pdf/2509.09118
項目主頁:https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS
-
AI
+關(guān)注
關(guān)注
88文章
37303瀏覽量
292272 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8534瀏覽量
136042 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
73瀏覽量
5877
原文標(biāo)題:讓AI讀懂人物描寫!新框架GA-DMS突破“以文找人”技術(shù)難題 | Glint Tech
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳與奧瑞德達(dá)成戰(zhàn)略合作
格靈深瞳視覺基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

格靈深瞳突破文本人物檢索技術(shù)難題
評論