用圖神經(jīng)網(wǎng)絡(GNN)做CV的研究有不少,但通常是圍繞點云數(shù)據(jù)做文章,少有直接處理圖像數(shù)據(jù)的。其實與CNN把一張圖片看成一個網(wǎng)格、Transformer把圖片拉直成一個序列相比,圖方法更適合學習不規(guī)則和復雜物體的特征。
近期中科院與華為諾亞方舟實驗室等提出一種全新的骨干網(wǎng)絡,把圖片表示成圖結構數(shù)據(jù),讓GNN也能完成經(jīng)典CV三大任務。

該論文引起GNN學者廣泛關注。有人認為GNN領域積累多年的技巧都將涌入這一新方向,帶來一波研究熱潮。

在研究團隊看來,圖結構是一種更通用的數(shù)據(jù)結構。甚至網(wǎng)格和序列可以當作圖結構的特例,用圖結構來做視覺感知會更加靈活。圖數(shù)據(jù)由節(jié)點和邊組成,如果把每個像素都看作節(jié)點計算難度過于大了,因此研究團隊采用了切塊(patch)方法。
對于224x224分辨率的圖像,每16x16像素為一個Patch,也就是圖數(shù)據(jù)中的一個節(jié)點,總共有196個節(jié)點。對每個節(jié)點搜索他們距離最近的節(jié)點構成邊,邊的數(shù)量隨網(wǎng)絡深度而增加。接下來,網(wǎng)絡架構分為兩部分:一個圖卷積網(wǎng)絡(GCN),負責處理圖數(shù)據(jù)、聚合相鄰節(jié)點中的特征。一個前饋神經(jīng)網(wǎng)絡(FFN),結構比較簡單是兩個全連接層的MLP,負責特征的轉換。

傳統(tǒng)GCN會出現(xiàn)過度平滑現(xiàn)象,為解決這個問題,團隊在圖卷積層前后各增加一個線性層,圖卷積層后再增加一個激活函數(shù)。

實驗表明,用上新方法,當層數(shù)較多時ViG學習到的特征會比傳統(tǒng)ResGCN更為多樣。
為了更準確評估ViG的性能,研究團隊設計了ViT常用的同質結構(isotropic)和CNN常用的金字塔結構(Pyramid)兩種ViG網(wǎng)絡,來分別做對比實驗。同質架構ViG分為下面三種規(guī)格。

與常見的同質結構CNN、ViT與MLP網(wǎng)絡相比,ViG在同等算力成本下ImageNet圖像分類的表現(xiàn)更好。金字塔結構的ViG網(wǎng)絡具體設置如下。

同等算力成本下,ViG也與最先進的CNN、ViT和MLP相比,性能也能超越或表現(xiàn)相當。

在目標檢測和實例分割測試上,ViG表現(xiàn)也與同等規(guī)模的Swin Transformer相當。

最后,研究團隊希望這項工作能作為GNN在通用視覺任務上的基礎架構,Pytorch版本和Mindspore版本代碼都會分別開源。
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4821瀏覽量
106433 -
cnn
+關注
關注
3文章
355瀏覽量
23195 -
圖卷積網(wǎng)絡
+關注
關注
0文章
8瀏覽量
1624
原文標題:?圖神經(jīng)網(wǎng)絡(GNN)直接處理圖像數(shù)據(jù)
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
圖神經(jīng)網(wǎng)絡概述第三彈:來自IEEE Fellow的GNN綜述
神經(jīng)網(wǎng)絡教程(李亞非)
【案例分享】ART神經(jīng)網(wǎng)絡與SOM神經(jīng)網(wǎng)絡
GNN(圖神經(jīng)網(wǎng)絡)硬件加速的FPGA實戰(zhàn)解決方案
如何構建神經(jīng)網(wǎng)絡?
基于BP神經(jīng)網(wǎng)絡的PID控制
如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡?
卷積神經(jīng)網(wǎng)絡一維卷積的處理過程
神經(jīng)網(wǎng)絡移植到STM32的方法
卷積神經(jīng)網(wǎng)絡模型發(fā)展及應用
圖神經(jīng)網(wǎng)絡GNN的卷積操作流程
圖形神經(jīng)網(wǎng)絡的基礎知識兩種較高級的算法
圖神經(jīng)網(wǎng)絡逆勢而上,7日學懂入門圖
GNN解釋技術的總結和分析與圖神經(jīng)網(wǎng)絡的解釋性綜述

如何用圖神經(jīng)網(wǎng)絡(GNN)做CV的研究
評論