亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

南開/南理工/曠視提出CTKD:動(dòng)態(tài)溫度超參蒸餾新方法

CVer ? 來(lái)源:CVer ? 2023-01-04 14:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文題目:Curriculum Temperature for Knowledge Distillation

論文(AAAI 2023):https://arxiv.org/abs/2211.16231

開源代碼(歡迎star):

https://github.com/zhengli97/CTKD

一句話概括:

相對(duì)于靜態(tài)溫度超參蒸餾,本文提出了簡(jiǎn)單且高效的動(dòng)態(tài)溫度超參蒸餾新方法。

背景問(wèn)題:

目前已有的蒸餾方法中,都會(huì)采用帶有溫度超參的KL Divergence Loss進(jìn)行計(jì)算,從而在教師模型和學(xué)生模型之間進(jìn)行蒸餾,公式如下:

b079a2b8-8bf0-11ed-bfe3-dac502259ad0.png

b083b3c0-8bf0-11ed-bfe3-dac502259ad0.png

而現(xiàn)有工作普遍的方式都是采用固定的溫度超參,一般會(huì)設(shè)定成4。

方法 FitNet
(ICLR 15')
AT
(ICLR 17')
SP
(ICCV 19')
Snapshot
(CVPR 19')
SSKD
(ECCV 20')
FRSKD
(CVPR 21')
τ的設(shè)定 3 4 4 2 or 3 4 4

那么這就帶來(lái)了兩個(gè)問(wèn)題:

1. 不同的教師學(xué)生模型在KD過(guò)程中最優(yōu)超參不一定是4。如果要找到這個(gè)最佳超參,需要進(jìn)行暴力搜索,會(huì)帶來(lái)大量的計(jì)算,整個(gè)過(guò)程非常低效。

2. 一直保持靜態(tài)固定的溫度超參對(duì)學(xué)生模型來(lái)說(shuō)不是最優(yōu)的?;谡n程學(xué)習(xí)的思想,人類在學(xué)習(xí)過(guò)程中都是由簡(jiǎn)單到困難的學(xué)習(xí)知識(shí)。那么在蒸餾的過(guò)程中,我們也會(huì)希望模型一開始蒸餾是讓學(xué)生容易學(xué)習(xí)的,然后難度再增加。難度是一直動(dòng)態(tài)變化的。

于是一個(gè)自然而然的想法就冒了出來(lái):

在蒸餾任務(wù)里,能不能讓網(wǎng)絡(luò)自己學(xué)習(xí)一個(gè)適合的動(dòng)態(tài)溫度超參進(jìn)行蒸餾,并且參考課程學(xué)習(xí),形成一個(gè)蒸餾難度由易到難的情況?

于是我們就提出了CTKD來(lái)實(shí)現(xiàn)這個(gè)想法。

方法:

既然溫度超參τ可以在蒸餾里決定兩個(gè)分布之間的KL Divergence,進(jìn)而影響模型的學(xué)習(xí),那我們就可以通過(guò)讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)一個(gè)合適的τ來(lái)達(dá)到以上的目的。

于是以上具體問(wèn)題就直接可以轉(zhuǎn)化成以下的核心思想:

在蒸餾過(guò)程里,學(xué)生網(wǎng)絡(luò)被訓(xùn)練去最小化KL loss的情況下,τ作為一個(gè)可學(xué)習(xí)的參數(shù),要被訓(xùn)練去最大化KL loss,從而發(fā)揮對(duì)抗(Adversarial)的作用,增加訓(xùn)練的難度。隨著訓(xùn)練的進(jìn)行,對(duì)抗的作用要不斷增加,達(dá)到課程學(xué)習(xí)的效果。

以上的實(shí)現(xiàn)可以直接利用一個(gè)非常簡(jiǎn)單的操作:利用梯度反向?qū)覩RL (Gradient Reversal Layer )來(lái)去反向可學(xué)習(xí)超參τ的梯度,就可以非常直接達(dá)到對(duì)抗的效果,同時(shí)隨著訓(xùn)練的進(jìn)行,不斷增加反向梯度的權(quán)重λ,進(jìn)而增加學(xué)習(xí)的難度。

CTKD的論文的結(jié)構(gòu)圖如下:

b08e0366-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.1 CTKD網(wǎng)絡(luò)結(jié)構(gòu)圖

CTKD方法可以簡(jiǎn)單分為左右兩個(gè)部分:

對(duì)抗溫度超參τ的學(xué)習(xí)部分。

這里只包含兩個(gè)小模塊,一個(gè)是梯度反向?qū)覩RL,用于反向經(jīng)過(guò)溫度超參τ的梯度,另一個(gè)是可學(xué)習(xí)超參溫度τ。

其中對(duì)于溫度超參τ,有兩種實(shí)現(xiàn)方式,第一種是全局方案 (Global Temperature),只會(huì)產(chǎn)生一個(gè)τ,代碼實(shí)現(xiàn)非常簡(jiǎn)單,就一句話:

self.global_T = nn.Parameter(torch.ones(1), requires_grad=True)

第二種是實(shí)例級(jí)別方案(Instance-wise Temperature),即對(duì)每個(gè)單獨(dú)的樣本都產(chǎn)生一個(gè)τ。代碼實(shí)現(xiàn)也很簡(jiǎn)單,就是兩層conv組成的MLP。

b096e724-8bf0-11ed-bfe3-dac502259ad0.jpg

Fig.2 兩種不同的可學(xué)習(xí)溫度超參實(shí)現(xiàn)。

2. 難度逐漸增加的課程學(xué)習(xí)部分。

隨著訓(xùn)練的進(jìn)行,不斷增加GRL的權(quán)重λ,達(dá)到增加學(xué)習(xí)難度的效果。

在論文的實(shí)現(xiàn)里,我們直接采用Cos的方式,讓反向權(quán)重λ從0增加到1。

以上就是CTKD的全部實(shí)現(xiàn),非常的簡(jiǎn)單有效。

CTKD總共包含兩個(gè)模塊,GRL和溫度生成模塊,都非常的輕量化,

CTKD方法可以作為即插即用的插件應(yīng)用在現(xiàn)有的SOTA的蒸餾方法中,取得廣泛的提升。

實(shí)驗(yàn)結(jié)果

三個(gè)數(shù)據(jù)集:CIFAR-100,ImageNet和MS-COCO。

CIFAR-100上,CTKD的實(shí)驗(yàn)結(jié)果:

b09f4a9a-8bf0-11ed-bfe3-dac502259ad0.jpg

作為一個(gè)即插即用的插件,應(yīng)用在已有的SOTA方法上:

b0a90f26-8bf0-11ed-bfe3-dac502259ad0.jpg

在ImageNet上的實(shí)驗(yàn):

b0b54994-8bf0-11ed-bfe3-dac502259ad0.jpg

在MS-COCO的detection實(shí)驗(yàn)上:

b0bf62ee-8bf0-11ed-bfe3-dac502259ad0.jpg

溫度超參的整體學(xué)習(xí)過(guò)程可視化:

b0ca1252-8bf0-11ed-bfe3-dac502259ad0.jpg

由以上圖可以看到,CTKD整體的動(dòng)態(tài)學(xué)習(xí)τ的過(guò)程。

將CTKD應(yīng)用在多種現(xiàn)有的蒸餾方案上,可以取得廣泛的提升效果。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3627

    瀏覽量

    51613
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4932

    瀏覽量

    72844

原文標(biāo)題:AAAI 2023 | 南開/南理工/曠視提出CTKD:動(dòng)態(tài)溫度超參蒸餾新方法

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    國(guó)際權(quán)威學(xué)術(shù)刊物刊發(fā)穩(wěn)石氫能與華南理工研究成果,創(chuàng)新螺旋流道設(shè)計(jì)提升AEM電解槽性能。

    近日,氫能研究領(lǐng)域國(guó)際權(quán)威期刊INTERNATIONAL JOURNAL OF HYDROGEN ENERGY刊發(fā)了穩(wěn)石氫能、華南理工電力學(xué)院與廣東省高效清潔能源利用重點(diǎn)實(shí)驗(yàn)室聯(lián)合研發(fā)的成果。
    的頭像 發(fā)表于 09-26 16:08 ?345次閱讀
    國(guó)際權(quán)威學(xué)術(shù)刊物刊發(fā)穩(wěn)石氫能與華<b class='flag-5'>南理工</b>研究成果,創(chuàng)新螺旋流道設(shè)計(jì)提升AEM電解槽性能。

    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的新方法

    、環(huán)境光干擾及薄膜傾斜等因素限制,測(cè)量精度難以滿足高精度工業(yè)需求。為此,本研究提出一種融合紅外干涉與激光校準(zhǔn)的薄膜厚度測(cè)量新方法,旨在突破傳統(tǒng)技術(shù)瓶頸,實(shí)現(xiàn)更精準(zhǔn)、
    的頭像 發(fā)表于 07-21 18:17 ?2233次閱讀
    芯片制造中高精度膜厚測(cè)量與校準(zhǔn):基于紅外干涉技術(shù)的<b class='flag-5'>新方法</b>

    無(wú)刷直流電機(jī)滑模觀測(cè)器參數(shù)優(yōu)化設(shè)計(jì)方法

    摘要:滑模反電勢(shì)觀測(cè)器的增益參數(shù)會(huì)影響觀測(cè)器的收斂速度以及動(dòng)態(tài)響應(yīng)性能,常見的設(shè)計(jì)方法是基于觀測(cè)器穩(wěn)定性理論進(jìn)行設(shè)計(jì)。提出一種利用遺傳算法在穩(wěn)定域內(nèi)搜索觀測(cè)誤差最小的增益參數(shù)的新方法,
    發(fā)表于 06-27 16:48

    無(wú)刷直流電機(jī)反電勢(shì)過(guò)零檢測(cè)新方法

    的危險(xiǎn)。同時(shí),根據(jù)控制信號(hào)占空比切換低速區(qū)與高速區(qū)反電勢(shì)采樣方式,能有效改善在低速區(qū)時(shí)反電勢(shì)過(guò)零檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明,提出的反電勢(shì)過(guò)零檢測(cè)新方法能保證電機(jī)工作于更寬的轉(zhuǎn)速范圍內(nèi)。 純分享帖,點(diǎn)擊下方
    發(fā)表于 06-26 13:50

    奧迪威攜手華南理工大學(xué)共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室,校企深度合作助力產(chǎn)業(yè)升級(jí)

    2025年5月21日,廣東奧迪威傳感科技股份有限公司與華南理工大學(xué)聯(lián)合設(shè)立的創(chuàng)新實(shí)驗(yàn)室正式揭牌。
    的頭像 發(fā)表于 05-23 08:48 ?1171次閱讀
    奧迪威攜手華<b class='flag-5'>南理工</b>大學(xué)共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室,校企深度合作助力產(chǎn)業(yè)升級(jí)

    發(fā)布AIS算法生產(chǎn)平臺(tái)V5.0版本

    近日,正式發(fā)布自研的算法生產(chǎn)平臺(tái)AIS(AI Service)5.0版!此次升級(jí),包括接入DeepSeek等三大核心能力重磅亮相,助力企業(yè)AI生產(chǎn)力再躍升!
    的頭像 發(fā)表于 03-12 17:18 ?1235次閱讀

    運(yùn)動(dòng)猿入選2024年度智能體育典型案例

    2025年3月3日,工業(yè)和信息化部、國(guó)家體育總局聯(lián)合公布了“2024年度智能體育典型案例”名單,“運(yùn)動(dòng)猿智能體育教育產(chǎn)品方案”成功入選,成為智能青少年體育產(chǎn)品方向的典型案例。此次獲評(píng)是對(duì)
    的頭像 發(fā)表于 03-10 10:04 ?776次閱讀

    大連理工提出基于Wasserstein距離(WD)的知識(shí)蒸餾方法

    的機(jī)制,應(yīng)用于中間層蒸餾時(shí)存在問(wèn)題,其無(wú)法處理不重疊的分布且無(wú)法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問(wèn)題,大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離(WD)的知識(shí)蒸餾
    的頭像 發(fā)表于 01-21 09:45 ?913次閱讀

    中標(biāo)北京市大數(shù)據(jù)中心感知管理服務(wù)平臺(tái)二期建設(shè)項(xiàng)目

    近日,成功中標(biāo)北京市大數(shù)據(jù)中心感知管理服務(wù)平臺(tái)(二期)建設(shè)項(xiàng)目,此次中標(biāo)不僅是對(duì)技術(shù)實(shí)力和服務(wù)能力的認(rèn)可,更標(biāo)志著
    的頭像 發(fā)表于 12-31 09:20 ?1105次閱讀

    大華股份榮獲中國(guó)創(chuàng)新方法大賽一等獎(jiǎng)

    近日,備受矚目的2024年中國(guó)創(chuàng)新方法大賽全國(guó)總決賽在重慶圓滿落下帷幕。此次大賽由中國(guó)科協(xié)與重慶市人民政府聯(lián)合主辦,吸引了眾多創(chuàng)新企業(yè)和團(tuán)隊(duì)參與,共同展示創(chuàng)新成果,角逐榮譽(yù)獎(jiǎng)項(xiàng)。 在這場(chǎng)創(chuàng)新盛宴中
    的頭像 發(fā)表于 12-27 14:50 ?814次閱讀

    基于遺傳算法的QD-SOA設(shè)計(jì)新方法

    了QD-SOA的設(shè)計(jì),提出了一種基于遺傳算法的QD-SOA設(shè)計(jì)新方法。由于具有用于設(shè)計(jì)的模型是必不可少的,因此在第一步中獲得數(shù)值模型。然后,利用從數(shù)值模型中采樣的訓(xùn)練數(shù)據(jù)建立人工神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明,該神經(jīng)模型具有較高的精度和較
    的頭像 發(fā)表于 12-17 09:58 ?657次閱讀
    基于遺傳算法的QD-SOA設(shè)計(jì)<b class='flag-5'>新方法</b>

    一種降低VIO/VSLAM系統(tǒng)漂移的新方法

    本文提出了一種新方法,通過(guò)使用點(diǎn)到平面匹配將VIO/VSLAM系統(tǒng)生成的稀疏3D點(diǎn)云與數(shù)字孿生體進(jìn)行對(duì)齊,從而實(shí)現(xiàn)精確且全球一致的定位,無(wú)需視覺數(shù)據(jù)關(guān)聯(lián)。所提方法為VIO/VSLAM系統(tǒng)提供了緊密
    的頭像 發(fā)表于 12-13 11:18 ?1091次閱讀
    一種降低VIO/VSLAM系統(tǒng)漂移的<b class='flag-5'>新方法</b>

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?959次閱讀

    大華股份榮獲2024年中國(guó)創(chuàng)新方法大賽一等獎(jiǎng)

    近日,由中國(guó)科協(xié)、重慶市人民政府舉辦的2024年中國(guó)創(chuàng)新方法大賽全國(guó)總決賽在重慶落下帷幕。大華股份靈活運(yùn)用創(chuàng)新方法、突破行業(yè)性技術(shù)難題,憑借“不懼強(qiáng)光,分毫必現(xiàn),基于TRIZ的強(qiáng)逆光銳捕技術(shù)”項(xiàng)目,斬獲全國(guó)一等獎(jiǎng)。
    的頭像 發(fā)表于 12-04 17:19 ?1018次閱讀

    利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法

    本文介紹了一種利用全息技術(shù)在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法。 研究人員提出了一種在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法。傳統(tǒng)上,晶圓上的微結(jié)構(gòu)加工,僅限于通過(guò)光刻技術(shù)在晶圓表面加工納米結(jié)構(gòu)。 然而,除了晶
    的頭像 發(fā)表于 11-18 11:45 ?994次閱讀