亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用TRansformer進行端到端的目標檢測及跟蹤

3D視覺工坊 ? 來源:計算機視覺研究院 ? 2023-04-18 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

現(xiàn)存的用檢測跟蹤的方法采用簡單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡單,不足以建模復雜的變化,如通過遮擋跟蹤。

1

簡要

多目標跟蹤(MOT)任務的關鍵挑戰(zhàn)是跟蹤目標下的時間建?!,F(xiàn)存的用檢測跟蹤的方法采用簡單的heuristics,如空間或外觀相似性。這些方法,盡管其共性,但過于簡單,不足以建模復雜的變化,如通過遮擋跟蹤。所以現(xiàn)有的方法缺乏從數(shù)據(jù)中學習時間變化的能力。

ddad6866-dd74-11ed-bfe3-dac502259ad0.png

在今天分享中,研究者提出了第一個完全端到端多目標跟蹤框架MOTR。它學習了模擬目標的長距離時間變化。它隱式地執(zhí)行時間關聯(lián),并避免了以前的顯式啟發(fā)式方法。MOTR建立在TRansformer和DETR之上,引入了“跟蹤查詢”的概念。每個跟蹤查詢都會模擬一個目標的整個跟蹤。逐幀傳輸和更新,以無縫地執(zhí)行目標檢測和跟蹤。提出了時間聚合網(wǎng)絡(Temporal aggregation network)結合多框架訓練來建模長期時間關系。實驗結果表明,MOTR達到了最先進的性能

2

簡單背景

多目標跟蹤(MOT)是一種視覺目標檢測,其任務不僅是定位每一幀中的所有目標,而且還可以預測這些目標在整個視頻序列中的運動軌跡。這個問題具有挑戰(zhàn)性,因為每一幀中的目標可能會在pool environment中被遮擋,而開發(fā)的跟蹤器可能會受到長期和低速率跟蹤的影響。這些復雜而多樣的跟蹤方案在設計MOT解決方案時帶來了重大挑戰(zhàn)。

ddb96274-dd74-11ed-bfe3-dac502259ad0.png

對于基于IoU的方法,計算從兩個相鄰幀檢測到的檢測框的IoU矩陣,重疊高于給定閾值的邊界框與相同的身份相關聯(lián)(見上圖(a))。類似地,基于Re-ID的方法計算相鄰幀的特征相似性,并將目標對與高相似性相關起來。此外,最近的一些工作還嘗試了目標檢測和重識別特征學習的聯(lián)合訓練(見上圖(b))。

由于DETR的巨大成功,這項工作將“目標查詢”的概念擴展到目標跟蹤模型,在新框架中被稱為跟蹤查詢。每個跟蹤查詢都負責預測一個目標的整個跟蹤。如上圖(c),與分類和框回歸分支并行,MOTR預測每一幀的跟蹤查詢集。

3

新框架分析

最近,DETR通過采用TRansformer成功地進行了目標檢測。在DETR中,目標查詢,一個固定數(shù)量的學習位置嵌入,表示一些可能的實例的建議。一個目標查詢只對應于一個使用bipartite matching的對象。考慮到DETR中存在的高復雜性和慢收斂問題,Deformable DETR用多尺度deformable attention取代了self-attention。為了展示目標查詢如何通過解碼器與特征交互,研究者重新制定了Deformable DETR的解碼器。

ddbfda64-dd74-11ed-bfe3-dac502259ad0.png

MOTR

在MOTR中,研究者引入了跟蹤查詢和連續(xù)查詢傳遞,以完全端到端的方式執(zhí)行跟蹤預測。進一步提出了時間聚合網(wǎng)絡來增強多幀的時間信息。

ddc6430e-dd74-11ed-bfe3-dac502259ad0.png

DETR中引入的目標(檢測)查詢不負責對特定目標的預測。因此,一個目標查詢可以隨著輸入圖像的變化而預測不同的目標。當在MOT數(shù)據(jù)集的示例上使用DETR檢測器時,如上圖(a),相同檢測查詢(綠色目標查詢)預測兩個不同幀預測兩個不同的目標。因此,很難通過目標查詢的身份來將檢測預測作為跟蹤值聯(lián)系起來。作為一種補救措施,研究者將目標查詢擴展到目標跟蹤模型,即跟蹤查詢。在新的設計中,每個軌跡查詢都負責預測一個目標的整個軌跡。一旦跟蹤查詢與幀中的一個目標匹配,它總是預測目標,直到目標消失(見上圖(b))。

ddd03396-dd74-11ed-bfe3-dac502259ad0.png

Overall architecture of the proposed MOTR

Query Interaction Module

在訓練階段,可以基于對bipartite matching的GTs的監(jiān)督來實現(xiàn)跟蹤查詢的學習。而對于推斷,研究者使用預測的軌跡分數(shù)來確定軌道何時出現(xiàn)和消失。

dddc4938-dd74-11ed-bfe3-dac502259ad0.png

Overall Optimization

我們詳細描述下MOTR的訓練過程。給定一個視頻序列作為輸入,訓練損失,即track loss,是逐幀計算和逐幀生成的預測??倀rack loss是由訓練樣本上的所有GT的數(shù)量歸一化的所有幀的track loss的總和:

dde3c58c-dd74-11ed-bfe3-dac502259ad0.png

單幀圖像Lt的track loss可表示為:

dde90a24-dd74-11ed-bfe3-dac502259ad0.png

4

實驗

ddf1574c-dd74-11ed-bfe3-dac502259ad0.png

Implementation Details

All the experiments are conducted on PyTorch with 8Tesla V100 GPUs. We use the Deformable-DETR withResNet50 as our basic network. The basic network ispretrained on the COCO detection dataset.We trainour model with the AdamW optimizer for total 200 epochswith the initial learning rate of 2.0 · 10?4. The learning ratedecays to 2.0 · 10?5 at 150 epochs. The batch size is set to1 and each batch contains 5 frames.

ddfda3a8-dd74-11ed-bfe3-dac502259ad0.png

The effect of multi-frame continuous query passing on solving ID switch problem. When the length of video sequence is setto two (top), the objects that are occluded will miss and switch the identity. When improving the video sequence length from two to five(bottom), the track will not occur the ID switch problem with the help of enhanced temporal relation.

de2b7882-dd74-11ed-bfe3-dac502259ad0.png






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1200

    瀏覽量

    42700
  • 檢測器
    +關注

    關注

    1

    文章

    917

    瀏覽量

    49539
  • MOT
    MOT
    +關注

    關注

    0

    文章

    24

    瀏覽量

    7318

原文標題:利用TRansformer進行端到端的目標檢測及跟蹤(附源代碼)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中仿真與基于規(guī)則的仿真有什么區(qū)別?

    在自動駕駛領域,“仿真”指的是將感知控制的整個決策鏈條視為一個整體,從而進行訓練和驗證的思路。
    的頭像 發(fā)表于 11-02 11:33 ?72次閱讀

    自動駕駛中“一段式”和“二段式”有什么區(qū)別?

    攝像頭、毫米波雷達、激光雷達等信號,便可以直接輸出轉向、油門、剎車或者軌跡指令。一段式就是用一個整體模型完成這個任務,從傳感器控制,中間不拆成多個模塊,訓練的
    的頭像 發(fā)表于 10-24 09:03 ?424次閱讀
    自動駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區(qū)別?

    廣和通發(fā)布目標檢測模型FiboDet

    為提升側設備視覺感知與決策能力,廣和通全自研目標檢測模型FiboDet應運而生。該模型基于廣和通在邊緣計算與人工智能領域的深度積累,面向工業(yè)、交通、零售等多個行業(yè)提供高性能、低功
    的頭像 發(fā)表于 09-26 13:39 ?1322次閱讀

    Transformer自動駕駛架構中是何定位?

    狀態(tài)的主觀理解。隨后,該模型再將理解結果交由行為規(guī)劃子模塊去執(zhí)行,使得端過程具有一定結構化邏輯,從而兼顧可解釋性與泛化能力。
    的頭像 發(fā)表于 08-03 11:03 ?1000次閱讀

    Nullmax自動駕駛最新研究成果入選ICCV 2025

    近日,國際計算機視覺大會 ICCV 2025 正式公布論文錄用結果,Nullmax 感知團隊在自動駕駛方向的最新研究成果《HiP-AD: Hierarchical
    的頭像 發(fā)表于 07-05 15:40 ?1439次閱讀
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛最新研究成果入選ICCV 2025

    為什么自動駕駛大模型有黑盒特性?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術落地,(End-to-End)大模型也成為行業(yè)研究與應用的熱門方向。相較于傳統(tǒng)自動駕駛系統(tǒng)中的模塊化結構,
    的頭像 發(fā)表于 07-04 16:50 ?499次閱讀
    為什么自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    一文帶你厘清自動駕駛架構差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術飛速發(fā)展,智能駕駛系統(tǒng)的設計思路也經(jīng)歷了從傳統(tǒng)模塊化架構大模型轉變。傳統(tǒng)模塊化架構將感知、預測、規(guī)劃和控制等子任務拆分開,分別由不
    的頭像 發(fā)表于 05-08 09:07 ?669次閱讀
    一文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構差異

    小米汽車智駕技術介紹

    后起之秀,小米在宣布造車前被非常多的人質疑,但在“真香”定律下,小米創(chuàng)下了很多友商所不能及的成就。作為科技企業(yè),小米也在智能駕駛領域也不斷研發(fā)及突破,并推送了自動駕駛系統(tǒng)。 小米
    的頭像 發(fā)表于 03-31 18:17 ?4568次閱讀
    小米汽車<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智駕技術介紹

    國產萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡解決方案

    國產萬兆以太網(wǎng)通信芯片提供的車載網(wǎng)絡解決方案
    的頭像 發(fā)表于 02-28 10:01 ?840次閱讀
    國產萬兆以太網(wǎng)通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的車載網(wǎng)絡解決方案

    自動駕駛技術研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入2024年,
    的頭像 發(fā)表于 12-19 13:07 ?1273次閱讀

    在自動泊車的應用

    與城市環(huán)境的復雜性和高速公路駕駛的風險相比,停車場景的特點是低速、空間有限和高可控性。這些特點為在車輛中逐步部署自動駕駛能力提供了可行的途徑。最重要的是自動泊車對時間不敏感,而自動駕駛幀率至少
    的頭像 發(fā)表于 12-18 11:38 ?1385次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自動泊車的應用

    已來,智駕仿真測試該怎么做?

    智駕方案因強泛化能力、可持續(xù)學習與升級等優(yōu)勢備受矚目,但這對仿真測試帶來了巨大挑戰(zhàn)??抵\探索了一種有效的
    的頭像 發(fā)表于 12-04 09:59 ?3505次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測試該怎么做?

    爆火的如何加速智駕落地?

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0551,獲取本文參考報告:《智能汽車技術研究報告》pdf下載方式。 “
    的頭像 發(fā)表于 11-26 13:17 ?1484次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    視頻目標跟蹤從01,概念與方法

    導讀從目標跟蹤的應用場景,底層模型,組件,類型和具體算法幾個方面對目標跟蹤做了全方面的介紹,非常好的入門文章。在今天的文章中,我們將深入研究視頻目標
    的頭像 發(fā)表于 11-20 01:06 ?1168次閱讀
    視頻<b class='flag-5'>目標</b><b class='flag-5'>跟蹤</b>從0<b class='flag-5'>到</b>1,概念與方法

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發(fā)表于 11-07 15:15 ?986次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛