色综合天天综合婷婷伊人,中文字幕乱码人妻二区三区

對計算機(jī)來說，理解“穿紅色上衣的長發(fā)女性”這類特征性描述，并在海量圖片中精準(zhǔn)找到對應(yīng)人物，是一項復(fù)雜的技術(shù)難題。盡管多模態(tài)預(yù)訓(xùn)練模型CLIP在多種視覺任務(wù)中展示出強(qiáng)大的性能，但其在人物表征學(xué)習(xí)的應(yīng)用中，也就是“以文找人”時，面臨兩個關(guān)鍵挑戰(zhàn)：

一是缺乏專注于人物中心圖像的大規(guī)模訓(xùn)練數(shù)據(jù);二是容易受到噪聲文本標(biāo)記的影響。

格靈深瞳參與研究的GA-DMS框架，為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊通過數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn)，推動CLIP在人物表征學(xué)習(xí)中的應(yīng)用，顯著提升了基于文本的人物檢索效果。該成果已入選EMNLP 2025 主會(自然語言處理領(lǐng)域的頂級國際會議之一)。

首先，團(tuán)隊開發(fā)了一個抗噪聲的數(shù)據(jù)構(gòu)建管道，利用機(jī)器學(xué)習(xí)語言模型(MLLMs)的上下文學(xué)習(xí)能力，自動過濾和標(biāo)注網(wǎng)絡(luò)來源的圖像。這產(chǎn)生了一個大規(guī)模數(shù)據(jù)集WebPerson，包含500萬高質(zhì)量的人物中心圖像-文本對。

其次，團(tuán)隊引入了梯度-注意力引導(dǎo)的雙重遮蔽協(xié)同(GA-DMS)框架，用來改善跨模態(tài)對齊。

此外，團(tuán)隊還加入了遮蔽標(biāo)記預(yù)測目標(biāo)，讓模型能夠預(yù)測信息豐富的文本標(biāo)記，增強(qiáng)細(xì)粒度語義表征學(xué)習(xí)。

廣泛的實驗表明，GA-DMS在多個基準(zhǔn)測試中達(dá)到了最先進(jìn)的性能，實現(xiàn)了更精準(zhǔn)的“以文找人”檢索能力——在CUHK-PEDES數(shù)據(jù)集上的準(zhǔn)確率達(dá)到77.6%，在RSTPReid上準(zhǔn)確率達(dá)到71.25%。

GA-DMS技術(shù)示意圖

關(guān)于技術(shù)報告的更多細(xì)節(jié)，可點擊下方鏈接體驗。

論文題目：Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

研究團(tuán)隊：格靈深瞳、東北大學(xué)、華南理工大學(xué)

報告鏈接：https://arxiv.org/pdf/2509.09118

項目主頁：https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
37303

瀏覽量
292272
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8534

瀏覽量
136042
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
73

瀏覽量
5877

原文標(biāo)題：讓AI讀懂人物描寫！新框架GA-DMS突破“以文找人”技術(shù)難題 | Glint Tech

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

格靈深瞳突破文本人物檢索技術(shù)難題

評論