1. 研究背景與動(dòng)機(jī)
知識(shí)蒸餾(knowledge distillation,KD)是一種通用神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,它使用大的teacher模型來 “教” student模型,在各種AI任務(wù)上有著廣泛應(yīng)用。數(shù)據(jù)增強(qiáng)(data augmentation,DA) 更是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)配技巧。
知識(shí)蒸餾按照蒸餾的位置通常分為(1)基于網(wǎng)絡(luò)中間特征圖的蒸餾,(2)基于網(wǎng)絡(luò)輸出的蒸餾。對(duì)于后者來說,近幾年分類任務(wù)上KD的發(fā)展主要集中在新的損失函數(shù),譬如ICLR’20的CRD和ECCV’20的SSKD將對(duì)比學(xué)習(xí)引入損失函數(shù),可以從teacher模型中提取到更豐富的信息,供student模型學(xué)習(xí),實(shí)現(xiàn)了當(dāng)時(shí)的SOTA。
本文沒有探索損失函數(shù)、蒸餾位置等傳統(tǒng)研究問題上, 我們延用了最原始版本的KD loss (也就是Hinton等人在NIPS’14 workshop上提出KD的時(shí)候用的Cross-Entropy + KL divergence )。我們重點(diǎn)關(guān)注網(wǎng)絡(luò)的輸入端:如何度量不同數(shù)據(jù)增強(qiáng)方法在KD中的好壞?(相比之下,之前的KD paper大多關(guān)注網(wǎng)絡(luò)的中間特征,或者輸出端)。系統(tǒng)框圖如下所示,本文的核心目標(biāo)是要提出一種指標(biāo)去度量圖中 “Stronger DA” 的強(qiáng)弱程度。

這一切起源于一個(gè)偶然的實(shí)驗(yàn)發(fā)現(xiàn):在KD中延長迭代次數(shù),通??梢苑浅C黠@地提升KD的性能。譬如KD實(shí)驗(yàn)中常用的ResNet34/ResNet18 pair, 在ImageNet-1K上,將迭代次數(shù)從100 epochs增加到200 epochs,可以將top1/top5準(zhǔn)確率從70.66/89.88提升到71.38/90.59, 達(dá)到當(dāng)時(shí)的SOTA方法CRD的性能(71.38/90.49)。這顯得很迷,將最baseline的方法訓(xùn)練久一點(diǎn)就可以SOTA?經(jīng)過很多實(shí)驗(yàn)分析我們最終發(fā)現(xiàn),是數(shù)據(jù)增強(qiáng)在背后起作用。
直覺上的解釋是:每次迭代,數(shù)據(jù)增強(qiáng)是隨機(jī)的,得到的樣本都不一樣。那么,迭代次數(shù)變多,student見到的不一樣的樣本就越多,這可以從teacher模型中提取到更豐富的信息(跟對(duì)比學(xué)習(xí)loss似乎有著異曲同工之妙),幫助student模型學(xué)習(xí)。
很自然我們可以進(jìn)一步推想:不同數(shù)據(jù)增強(qiáng)方法引入的數(shù)據(jù)“多樣性”應(yīng)該是不同的,譬如我們期待基于強(qiáng)化學(xué)習(xí)搜出來的AutoAugment應(yīng)該要比簡單的隨機(jī)翻轉(zhuǎn)要更具有多樣性。簡單地說,這篇paper就是在回答:具體怎么度量這種多樣性,以及度量完之后我們?cè)趺丛趯?shí)際中應(yīng)用。
為什么這個(gè)問題重要?(1)理論意義:幫助我們更深地理解KD和DA,(2)實(shí)際意義:實(shí)驗(yàn)表明在KD中使用更強(qiáng)的DA總能提高性能,如果我們知道了什么因素在控制這種“強(qiáng)弱”,那么我們就可以締造出更強(qiáng)的DA,從而坐享KD性能的提升。
2. 主要貢獻(xiàn)和內(nèi)容
文章的主要貢獻(xiàn)是三點(diǎn):
(1)我們提出了一個(gè)定理來嚴(yán)格回答什么樣的數(shù)據(jù)增強(qiáng)是好的,結(jié)論是:好的數(shù)據(jù)增強(qiáng)方法應(yīng)該降低teacher-student交叉熵的協(xié)方差。
定理的核心部分是看不同數(shù)據(jù)增強(qiáng)方法下訓(xùn)練樣本之間的相關(guān)性,相關(guān)性越大意味著樣本越相似,多樣性就越低,student性能應(yīng)該越差。這個(gè)直覺完全符合文中的證明,這是理論上的貢獻(xiàn)。值得一提的是,相關(guān)性不是直接算原始樣本之間的相關(guān)性,而是算樣本經(jīng)過了teacher得到的logits之間的相關(guān)性,也就是,raw data層面上樣本的相關(guān)性不重要,重要的是在teacher看來這些樣本有多么相似,越不相似越好。
(2)基于這個(gè)定理,提出了一個(gè)具體可用的指標(biāo)(stddev of teacher’s mean probability, T. stddev),可以對(duì)每一種數(shù)據(jù)增強(qiáng)方法算一個(gè)數(shù)值出來, 按照這個(gè)數(shù)值排序,就知道哪種數(shù)據(jù)增強(qiáng)方法最好。文中測試了7種既有數(shù)據(jù)增強(qiáng)方法, 發(fā)現(xiàn)CutMix最好用。
(3)基于該定理,提出了一種新的基于信息熵篩選的數(shù)據(jù)增強(qiáng)方法,叫做CutMixPick,它是在CutMix的基礎(chǔ)上挑選出熵最大的樣本(熵大意味著信息量大,多樣性多)進(jìn)行訓(xùn)練。實(shí)驗(yàn)表明,即使是使用最普通的KD loss也可以達(dá)到SOTA KD方法(例如CRD)的水平。
3. 實(shí)驗(yàn)效果
文中最重要的實(shí)驗(yàn)是,驗(yàn)證提出的指標(biāo)(T. Stddev)是否真的能刻畫不同數(shù)據(jù)增強(qiáng)方法下student性能(S. test loss)的好壞,也就是二者之間的相關(guān)性如何。結(jié)果表明:相關(guān)性顯著!
文章總共測試了9種數(shù)據(jù)增強(qiáng)方法,我們?cè)贑IFAR100,Tiny ImageNet, ImageNet100上均做了驗(yàn)證,相關(guān)性都很強(qiáng),p-value多數(shù)情況下遠(yuǎn)小于5%的顯著性界限,如下所示:


這其中最有意思的一點(diǎn)是,縱軸是student的性能,而橫軸的指標(biāo)是完全用teacher計(jì)算出來的,對(duì)于student沒有任何信息,但是somehow,二者呈現(xiàn)出很強(qiáng)的相關(guān)性。這說明,KD中對(duì)DA好壞的評(píng)價(jià)很可能獨(dú)立于student的。同時(shí),對(duì)于不同teacher、數(shù)據(jù)集,DA之間的相對(duì)排序也比較穩(wěn)定(譬如CutMix穩(wěn)定地比Cutout要好)。這些都意味著我們?cè)谝环N網(wǎng)絡(luò)、數(shù)據(jù)集下找到的好的DA有很大概率可以遷移到其他的網(wǎng)絡(luò)跟數(shù)據(jù)集中,大大提升了實(shí)際應(yīng)用價(jià)值。
4. 總結(jié)和局限性
本文關(guān)注數(shù)據(jù)增強(qiáng)在知識(shí)蒸餾中的影響,在理論和實(shí)際算法方面均有貢獻(xiàn),主要有三點(diǎn):(1) 我們對(duì) “如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞” 這一問題給出了嚴(yán)格的理論分析(答:好的數(shù)據(jù)增強(qiáng)方法應(yīng)該最小化teacher-student交叉熵的協(xié)方差);(2)基于該理論提出了一個(gè)實(shí)際可計(jì)算的度量指標(biāo)(stddev of teacher’s mean probability);(3)最后提出了一個(gè)基于信息熵篩選的新數(shù)據(jù)增強(qiáng)方法(CutMixPick),可以進(jìn)一步提升CutMix,在KD中達(dá)到新的SOTA性能。
審核編輯:劉清
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4821瀏覽量
106436 -
CRD
+關(guān)注
關(guān)注
0文章
14瀏覽量
4201
原文標(biāo)題:NeurIPS 2022 | 如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞?一種統(tǒng)計(jì)學(xué)視角
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于AHP度量模型的安全管理度量方法
基于等級(jí)保護(hù)的安全管理度量方法研究
構(gòu)件內(nèi)聚性度量方法研究
面向云數(shù)據(jù)的隱私度量研究進(jìn)展
混雜數(shù)據(jù)的多核幾何平均度量學(xué)習(xí)
內(nèi)存取證的內(nèi)核完整性度量方法
深度學(xué)習(xí):知識(shí)蒸餾的全過程
基于知識(shí)蒸餾的惡意代碼家族檢測方法研究綜述
電池修復(fù)技術(shù):做蒸餾水的方法是怎樣的
若干蒸餾方法之間的細(xì)節(jié)以及差異
關(guān)于快速知識(shí)蒸餾的視覺框架
用于NAT的選擇性知識(shí)蒸餾框架
TPAMI 2023 | 用于視覺識(shí)別的相互對(duì)比學(xué)習(xí)在線知識(shí)蒸餾
任意模型都能蒸餾!華為諾亞提出異構(gòu)模型的知識(shí)蒸餾方法

如何度量知識(shí)蒸餾中不同數(shù)據(jù)增強(qiáng)方法的好壞?
評(píng)論