深度學(xué)習(xí)在計(jì)算機(jī)視覺上的應(yīng)用
計(jì)算機(jī)視覺中比較成功的深度學(xué)習(xí)的應(yīng)用,包括人臉識別,圖像問答,物體檢測,物體跟蹤。
人臉識別:
這里說人臉識別中的人臉比對,即得到一張人臉,與數(shù)據(jù)庫里的人臉進(jìn)行比對;或同時(shí)給兩張人臉,判斷是不是同一個(gè)人。
這方面比較超前的是湯曉鷗教授,他們提出的DeepID算法在LWF上做得比較好。他們也是用卷積神經(jīng)網(wǎng)絡(luò),但在做比對時(shí),兩張人臉分別提取了不同位置特征,然后再進(jìn)行互相比對,得到最后的比對結(jié)果。最新的DeepID-3算法,在LWF達(dá)到了99.53%準(zhǔn)確度,與肉眼識別結(jié)果相差無幾。
圖片問答問題:
這是2014年左右興起的課題,即給張圖片同時(shí)問個(gè)問題,然后讓計(jì)算機(jī)回答。比如有一個(gè)辦公室靠海的圖片,然后問“桌子后面有什么”,神經(jīng)網(wǎng)絡(luò)輸出應(yīng)該是“椅子和窗戶”。

這一應(yīng)用引入了LSTM網(wǎng)絡(luò),這是一個(gè)專門設(shè)計(jì)出來具有一定記憶能力的神經(jīng)單元。特點(diǎn)是,會(huì)把某一個(gè)時(shí)刻的輸出當(dāng)作下一個(gè)時(shí)刻的輸入??梢哉J(rèn)為它比較適合語言等,有時(shí)間序列關(guān)系的場景。因?yàn)槲覀冊谧x一篇文章和句子的時(shí)候,對句子后面的理解是基于前面對詞語的記憶。
圖像問答問題是基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM單元的結(jié)合,來實(shí)現(xiàn)圖像問答。LSTM輸出就應(yīng)該是想要的答案,而輸入的就是上一個(gè)時(shí)刻的輸入,以及圖像的特征,及問句的每個(gè)詞語。
物體檢測問題:
① Region CNN
深度學(xué)習(xí)在物體檢測方面也取得了非常好的成果。2014年的Region CNN算法,基本思想是首先用一個(gè)非深度的方法,在圖像中提取可能是物體的圖形塊,然后深度學(xué)習(xí)算法根據(jù)這些圖像塊,判斷屬性和一個(gè)具體物體的位置。

為什么要用非深度的方法先提取可能的圖像塊?因?yàn)樵谧鑫矬w檢測的時(shí)候,如果你用掃描窗的方法進(jìn)行物體監(jiān)測,要考慮到掃描窗大小的不一樣,長寬比和位置不一樣,如果每一個(gè)圖像塊都要過一遍深度網(wǎng)絡(luò)的話,這種時(shí)間是你無法接受的。
所以用了一個(gè)折中的方法,叫Selective Search。先把完全不可能是物體的圖像塊去除,只剩2000左右的圖像塊放到深度網(wǎng)絡(luò)里面判斷。那么取得的成績是AP是58.5,比以往幾乎翻了一倍。有一點(diǎn)不盡如人意的是,region CNN的速度非常慢,需要10到45秒處理一張圖片。
② Faster R-CNN方法
而且我在去年NIPS上,我們看到的有Faster R-CNN方法,一個(gè)超級加速版R-CNN方法。它的速度達(dá)到了每秒七幀,即一秒鐘可以處理七張圖片。技巧在于,不是用圖像塊來判斷是物體還是背景,而把整張圖像一起扔進(jìn)深度網(wǎng)絡(luò)里,讓深度網(wǎng)絡(luò)自行判斷哪里有物體,物體的方塊在哪里,種類是什么?
經(jīng)過深度網(wǎng)絡(luò)運(yùn)算的次數(shù)從原來的2000次降到一次,速度大大提高了。
Faster R-CNN提出了讓深度學(xué)習(xí)自己生成可能的物體塊,再用同樣深度網(wǎng)絡(luò)來判斷物體塊是否是背景?同時(shí)進(jìn)行分類,還要把邊界和給估計(jì)出來。
Faster R-CNN可以做到又快又好,在VOC2007上檢測AP達(dá)到73.2,速度也提高了兩三百倍。
③ YOLO
去年FACEBOOK提出來的YOLO網(wǎng)絡(luò),也是進(jìn)行物體檢測,最快達(dá)到每秒鐘155幀,達(dá)到了完全實(shí)時(shí)。它讓一整張圖像進(jìn)入到神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)自己判斷這物體可能在哪里,可能是什么。但它縮減了可能圖像塊的個(gè)數(shù),從原來Faster R-CNN的2000多個(gè)縮減縮減到了98個(gè)。
同時(shí)取消了Faster R-CNN里面的RPN結(jié)構(gòu),代替Selective Search結(jié)構(gòu)。YOLO里面沒有RPN這一步,而是直接預(yù)測物體的種類和位置。
YOLO的代價(jià)就是精度下降,在155幀的速度下精度只有52.7,45幀每秒時(shí)的精度是63.4。
④ SSD
在arXiv上出現(xiàn)的最新算法叫Single Shot MultiBox Detector,即SSD。
它是YOLO的超級改進(jìn)版,吸取了YOLO的精度下降的教訓(xùn),同時(shí)保留速度快的特點(diǎn)。它能達(dá)到58幀每秒,精度有72.1。速度超過Faster R-CNN 有8倍,但達(dá)到類似的精度。
物體跟蹤
所謂跟蹤,就是在視頻里面第一幀時(shí)鎖定感興趣的物體,讓計(jì)算機(jī)跟著走,不管怎么旋轉(zhuǎn)晃動(dòng),甚至躲在樹叢后面也要跟蹤。

深度學(xué)習(xí)對跟蹤問題有很顯著的效果。是第一在線用深度學(xué)習(xí)進(jìn)行跟蹤的文章,當(dāng)時(shí)超過了其它所有的淺層算法。
今年有越來越多深度學(xué)習(xí)跟蹤算法提出。去年十二月ICCV 2015上面,馬超提出的Hierarchical Convolutional Feature算法,在數(shù)據(jù)上達(dá)到最新的記錄。它不是在線更新一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),而是用一個(gè)大網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后讓大網(wǎng)絡(luò)知道什么是物體什么不是物體。
將大網(wǎng)絡(luò)放在跟蹤視頻上面,然后再分析網(wǎng)絡(luò)在視頻上產(chǎn)生的不同特征,用比較成熟的淺層跟蹤算法來進(jìn)行跟蹤,這樣利用了深度學(xué)習(xí)特征學(xué)習(xí)比較好的好處,同時(shí)又利用了淺層方法速度較快的優(yōu)點(diǎn)。效果是每秒鐘10幀,同時(shí)精度破了記錄。
最新的跟蹤成果是基于Hierarchical Convolutional Feature,由一個(gè)韓國的科研組提出的MDnet。它集合了前面兩種深度算法的集大成,首先離線的時(shí)候有學(xué)習(xí),學(xué)習(xí)的不是一般的物體檢測,也不是ImageNet,學(xué)習(xí)的是跟蹤視頻,然后在學(xué)習(xí)視頻結(jié)束后,在真正在使用網(wǎng)絡(luò)的時(shí)候更新網(wǎng)絡(luò)的一部分。這樣既在離線的時(shí)候得到了大量的訓(xùn)練,在線的時(shí)候又能夠很靈活改變自己的網(wǎng)絡(luò)。
基于嵌入式系統(tǒng)的深度學(xué)習(xí)
回到ADAS問題(慧眼科技的主業(yè)),它完全可以用深度學(xué)習(xí)算法,但對硬件平臺(tái)有比較高的要求。在汽車上不太可能把一臺(tái)電腦放上去,因?yàn)楣β适莻€(gè)問題,很難被市場所接受。
現(xiàn)在的深度學(xué)習(xí)計(jì)算主要是在云端進(jìn)行,前端拍攝照片,傳給后端的云平臺(tái)處理。但對于ADAS而言,無法接受長時(shí)間的數(shù)據(jù)傳輸?shù)?,或許發(fā)生事故后,云端的數(shù)據(jù)還沒傳回來。
那是否可以考慮NVIDIA推出的嵌入式平臺(tái)?NVIDIA推出的嵌入式平臺(tái),其運(yùn)算能力遠(yuǎn)遠(yuǎn)強(qiáng)過了所有主流的嵌入式平臺(tái),運(yùn)算能力接近主流的頂級CPU,如臺(tái)式機(jī)的i7。那么慧眼科技在做工作就是要使得深度學(xué)習(xí)算法,在嵌入式平臺(tái)有限的資源情況下能夠達(dá)到實(shí)時(shí)效果,而且精度幾乎沒有減少。
具體做法是,首先對網(wǎng)絡(luò)進(jìn)行縮減,可能是對網(wǎng)絡(luò)的結(jié)構(gòu)縮減,由于識別場景不同,也要進(jìn)行相應(yīng)的功能性縮減;另外要用最快的深度檢測算法,結(jié)合最快的深度跟蹤算法,同時(shí)自己研發(fā)出一些場景分析算法。三者結(jié)合在一起,目的是減少運(yùn)算量,減少檢測空間的大小。在這種情況下,在有限資源上實(shí)現(xiàn)了使用深度學(xué)習(xí)算法,但精度減少的非常少。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7742瀏覽量
92542 -
人臉識別
+關(guān)注
關(guān)注
77文章
4108瀏覽量
87385 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5588瀏覽量
123809
發(fā)布評論請先 登錄
STM32計(jì)算機(jī)視覺開發(fā)套件:B-CAMS-IMX攝像頭模塊技術(shù)解析
如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
易控智駕榮獲計(jì)算機(jī)視覺頂會(huì)CVPR 2025認(rèn)可
自動(dòng)化計(jì)算機(jī)的功能與用途
工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些
Blue Lion超級計(jì)算機(jī)將在NVIDIA Vera Rubin上運(yùn)行
一文帶你了解工業(yè)計(jì)算機(jī)尺寸
英飛凌邊緣AI平臺(tái)通過Ultralytics YOLO模型增加對計(jì)算機(jī)視覺的支持
Arm KleidiCV與OpenCV集成助力移動(dòng)端計(jì)算機(jī)視覺性能優(yōu)化
Quantinuum“Reimei”量子計(jì)算機(jī)在RIKEN正式運(yùn)行
AR和VR中的計(jì)算機(jī)視覺
云端超級計(jì)算機(jī)使用教程
工業(yè)中使用哪種計(jì)算機(jī)?
量子計(jì)算機(jī)與普通計(jì)算機(jī)工作原理的區(qū)別

深度學(xué)習(xí)在計(jì)算機(jī)視覺上的四大應(yīng)用
評論