一騎絕塵 商湯科技44篇論文入選CVPR 2018
全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將于六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。CVPR作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在2018年最新和最高的科技水平以及未來發(fā)展潮流。CVPR官網(wǎng)顯示,今年有超過3
2018-05-10 16:51:48
來源:釘科技??

全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將于六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文979篇。CVPR作為計算機視覺領域級別最高的研究會議,其錄取論文代表了計算機視覺領域在2018年最新和最高的科技水平以及未來發(fā)展潮流。

CVPR官網(wǎng)顯示,今年有超過3300篇的大會論文投稿,錄取的979篇論文,比去年增長了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。CVPR 2018包括21場tutorials、48場workshops,并且有來自全球各地超過115家企業(yè)將入駐今年CVPR工業(yè)展覽。

商湯科技、香港中文大學-商湯科技聯(lián)合實驗室以及其他商湯科技聯(lián)合實驗室共有44篇論文被本屆CVPR大會接收,其中包括口頭報告論文3篇(錄取率僅62/3300 = 1.88%),亮點報告論文13篇,論文錄取數(shù)量相較于CVPR 2017的23篇又有大幅度提高,成績斐然。全球領先的科研成果展示了商湯科技智能視覺領域強大的人才儲備、科研底蘊和創(chuàng)新能力。

商湯科技CVPR 2018錄取論文在以下領域?qū)崿F(xiàn)突破:大規(guī)模分布式訓練、人體理解與行人再識別、自動駕駛場景理解與分析、底層視覺算法、視覺與自然語言的綜合理解、物體檢測、識別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計算機視覺算法不僅有著豐富的應用場景,使得更多的智能視覺算法能應用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗和方向。

大規(guī)模分布式訓練

代表性論文:Oral – 深度增強學習自動網(wǎng)絡結(jié)構(gòu)設計

111.png

本文致力于解決深度神經(jīng)網(wǎng)絡結(jié)構(gòu)的自動設計問題,與一般人工的結(jié)構(gòu)設計不同,本文提出了一種高效算法,通過強化學習來自動設計最優(yōu)的網(wǎng)絡結(jié)構(gòu)。傳統(tǒng)的神經(jīng)網(wǎng)絡結(jié)構(gòu)設計通常需要大量專家的知識和試錯成本,并且甚至還需要一些靈感,每年僅有幾個重要的網(wǎng)絡結(jié)構(gòu)被設計出來,因此,人工設計網(wǎng)絡結(jié)構(gòu)是一個難度極高的工作。近期的網(wǎng)絡結(jié)構(gòu)自動搜索的算法通常需要巨大的計算資源(數(shù)百塊GPU,近一個月的訓練),并且生產(chǎn)的模型可遷移性不強,難以做到真正的實用化。 

本文提出了一種基于強化學習的網(wǎng)絡結(jié)構(gòu)自動設計算法,通過“網(wǎng)絡塊”的設計思想,讓搜索空間大大降低,并且使設計的網(wǎng)絡具有非常強的可遷移性。同時,本文使用“提前停止”和分布式架構(gòu)來加速整個網(wǎng)絡結(jié)構(gòu)學習過程,達到了百倍于之前算法的速度(32塊GPU,3天的訓練)。實驗表面,其生成的網(wǎng)絡結(jié)構(gòu)在CIFAR數(shù)據(jù)集上達到并且超越人類設計的網(wǎng)絡結(jié)構(gòu)的精度,并且其結(jié)構(gòu)可以遷移到大規(guī)模的ImageNet數(shù)據(jù)上,取得良好的性能。

人體理解與行人再識別

代表性論文:Oral – 基于組一致性約束條件的行人再識別

222.png

行人再識別是新一代智能安防系統(tǒng)中的重要組件之一。給定一幅行人圖像,行人再識別要求跨不同攝像頭,對同一行人基于其視覺外觀進行準確匹配和識別。現(xiàn)有深度學習算法通常使用過于局部的約束損失函數(shù)進行行人特征學習,因而不能精確的學習行人圖像之間的視覺相似度。本文針對該問題提出一種新穎的組一致性約束條件,并通過連續(xù)條件隨機場對該約束條件進行建模。將該連續(xù)條件隨機場加入深度神經(jīng)網(wǎng)絡,從而實現(xiàn)該深度模型的端對端訓練。實驗結(jié)果表明該一致性條件在訓練與測試中均能夠大幅度提升最終視覺特征的魯棒性與判別性,實現(xiàn)高精度的行人再識別。

自動駕駛場景理解

代表性論文:

Spotlight – 極低延遲的視頻語義分割

333.png

本文關(guān)注面向自動駕駛場景的視頻實時語義分割問題,雖然近年來圖像語義分割取得很大的進展,但是對于面向視頻的語義分割任務仍然存在挑戰(zhàn)。其主要困難在于:1)視頻需要更多的計算量;2)許多實時的應用如自動駕駛需要實現(xiàn)低延遲性。

本文致力于解決這兩方面的難題,同時盡可能的保證分割的精度。在視頻分割問題中,鄰近幀之間的語義標簽的變化相對較小,因此不必每幀都使用一個完整的網(wǎng)絡來提取語義標簽?;谶@種認識,本文提出了一個如圖所示的語義分割的框架,把整個網(wǎng)絡分為高層部分和低層部分,低層部分消耗較少的計算;本文的框架只在關(guān)鍵幀運行完整的網(wǎng)絡來提取高層特征進行語義分割,而在其他幀則從上一個關(guān)鍵幀傳播特征來進行語義分割。相應的框架由兩部分組件構(gòu)成:1)關(guān)鍵幀調(diào)度模塊,以及2)特征跨幀傳播模塊,其都基于低層特征進行相應的計算,因此相對完整的網(wǎng)絡計算量小很多。同時為了減少延遲,在檢測到當前幀為關(guān)鍵幀時,使用了一個低延遲的調(diào)度策略。本文提出的方法在兩個數(shù)據(jù)集上均驗證了我們方法的有效性,取得了較低延遲并保持精確的分割精度。

Spotlight – 基于單視圖的立體匹配

444.png

面向自動駕駛場景的單目深度估計方法,通常利用一個視角的圖像數(shù)據(jù)作為輸入,直接預測圖片中每個像素對應的深度值,這就導致了現(xiàn)有方法通常需要大量的帶深度信息標注的數(shù)據(jù)。近期的研究提出了在訓練過程引入了幾何約束的改進,但是在測試過程仍然缺乏顯式的幾何約束。本文提出把單目深度估計分解為兩個子過程,即視圖合成過程以及雙目匹配過程,通過這樣分解之后,使得所提出的模型既可以在測試階段顯式地引入幾何約束又可以極大的減少對帶深度標注數(shù)據(jù)的依賴。實驗證明,本文提出的方法僅利用少量的深度數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過之前的所有方法,并首次僅靠單目圖像數(shù)據(jù)就超過了雙目匹配算法Block Matching,進一步推動了單目深度估計技術(shù)的落地。

底層視覺算法

代表性論文:Spotlight – 基于深度增強學習的普適圖像復原

555.png

本文提出了一種新穎的深度學習圖像復原方法。大部分已有復原算法僅面向解決某類特定的圖像復原問題,因而對各種不同類別的降質(zhì)圖像缺乏普適性。針對該問題,本文提出的RL-Restore算法先訓練一系列針對不同降質(zhì)圖像的小型神經(jīng)網(wǎng)絡;同時設計一種評價圖像復原質(zhì)量的獎勵函數(shù),使用增強學習算法學習如何將這些小型神經(jīng)網(wǎng)絡進行合理組合。針對不同的降質(zhì)圖像,獲得不同的復原算法組件的組合,實現(xiàn)對復雜降質(zhì)圖像的有效復原。

視覺與自然語言的綜合理解

代表性論文:Spotlight – 面向視覺問題回答的對偶視覺問題生成

666.png

針對開放式視覺問答(Open-ended VisualQuestion Answering)中訓練數(shù)據(jù)過少的問題,本文提出了一種“可逆問答網(wǎng)絡”。該模型可以通過重組不同模塊,使一組模型同時完成“問題回答”和“問題生成”兩種互逆的兩個任務。該模型通過充分利用視覺問答和視覺問題生成的對偶性,提升模型對于有限訓練數(shù)據(jù)的利用效率。該方法采用兩個任務同時訓練同一模型,使網(wǎng)絡能夠?qū)栴}和圖片之間的聯(lián)系有更深的理解,從而在問題生成和問題回答兩個任務上都取得了更好的精度和效果。

人臉識別與人臉分析

代表性論文:

Poster – 超越人臉識別的人臉解離特征空間學習

777.png

本文同時解決人臉識別、屬性分類和任意人臉生成這三個問題。大多數(shù)人臉特征學習的工作通常能夠讓網(wǎng)絡學習得到一個具有極強身份或?qū)傩詤^(qū)分度的特征,以應用于人臉識別、屬性分類等任務;或者學習一個具有全局信息的特征,以應用于人臉生成和編輯等應用。為什么不能學習到一個完備的特征空間并使得語義信息高度區(qū)分化,進而實現(xiàn)一個特征能夠完成所有的任務呢?本文提出了一個信息蒸餾與驅(qū)逐網(wǎng)絡的框架,只使用身份ID作為監(jiān)督信息,學習到了一個同時具有極強信息區(qū)分度且包含全局信息的稠密凸特征空間。在LFW、LFWA和CelebA等數(shù)據(jù)集上的實驗表明,人臉在該特征空間下的投影具有極高的身份、屬性識別能力,且該空間內(nèi)的任意一個點均具有較強的身份和屬性語義,并可生成具有該語義的人臉圖像。

Poster – 基于邊緣感知的人臉關(guān)鍵點定位

888.png

本文提出一種基于邊緣感知的人臉關(guān)鍵點檢測算法,將人臉邊緣線所描述的結(jié)構(gòu)信息融入到關(guān)鍵點檢測中,極大地提升了算法在大側(cè)臉、夸張表情、遮擋、模糊等極端情況下的檢測精度。文章主要解決了兩大問題:1. 人臉關(guān)鍵點在各個數(shù)據(jù)集間歧義性,定義不一致問題。文章通過捕捉對于人臉更通用的邊緣線信息,將其作為人臉到關(guān)鍵點的中間媒介,使得不同數(shù)據(jù)集即使存在關(guān)鍵點差異,仍然可以相互輔助訓練。2. 復雜情況下關(guān)鍵點檢測精度問題。本文首先通過消息傳遞結(jié)合對抗學習得到高精度的邊緣線檢測結(jié)果,再將邊緣線信息多語義層次地融合到關(guān)鍵點檢測中,使得算法在復雜情況下的魯棒性大幅提升。

另外,文章還提出了一個新的人臉關(guān)鍵點檢測數(shù)據(jù)集Wider Facial Landmarksin-the-wild (WFLW),包含10,000 張帶有98點和6屬性標注的人臉數(shù)據(jù),旨在幫助學界更有效的評估關(guān)鍵點算法在各種條件下的魯棒性。

物體檢測、識別與跟蹤

代表性論文:

Spotlight – 基于孿生候選區(qū)域網(wǎng)絡的高性能視覺跟蹤

999.png

本文提出一種基于端到端深度學習框架的高性能單目標跟蹤算法?,F(xiàn)有的單目標跟蹤算法通常較難兼顧性能和速度,僅能在某一指標占優(yōu)。本文利用孿生(Siamese)網(wǎng)絡和區(qū)域候選網(wǎng)絡(Region Proposal Network),構(gòu)建了一種高速高精度的單目標跟蹤算法。兩個子網(wǎng)絡通過卷積操作升維,統(tǒng)一在一個端到端的深度神經(jīng)網(wǎng)絡框架里。訓練過程中,算法可以利用擁有密集標注(VID)和稀疏標注(YoutubeBB)的數(shù)據(jù)集進行訓練。相較于現(xiàn)有方法,稀疏標注的數(shù)據(jù)集大大增加了訓練數(shù)據(jù)來源,從而可以對深度神經(jīng)網(wǎng)絡進行更充分的訓練;區(qū)域候選網(wǎng)絡中的坐標回歸可以讓跟蹤框更加準確,并且省去多尺度測試耗費的時間。實驗方面,本文提出的跟蹤算法能在160幀速度下達到VOT2015和VOT2016數(shù)據(jù)集上目前的先進水平。

Poster – 快速的端到端多角度文字檢測與識別方法

000.png

本文首次提出了端到端的多角度文字檢測與識別方法。文字檢測與識別(OCR)是計算機視覺領域的經(jīng)典問題,過去的做法將文字檢測與識別看做兩個問題分別解決。本文提出了一個端到端的方法同時進行文字檢測與識別,驗證了這兩個任務相輔相成,共同監(jiān)督網(wǎng)絡訓練可以讓這兩個任務取得更好的精度。由于兩個任務共用一個特征提取的網(wǎng)絡,速度也是分別進行文字檢測與識別的兩倍左右。同時本文也提出了RoIRotate操作,其擴展了RoIAlign,可以應用于旋轉(zhuǎn)物體的檢測。本文在多個數(shù)據(jù)集上超過了現(xiàn)有方法。

深度生成式模型

代表性論文:Poster – 基于特征裝飾的實時零點風格遷移

011.png

目前針對圖像風格化的實時應用,大多需要針對特定的風格圖來設計特定的風格遷移模型;如果需要實現(xiàn)對于任意風格圖的遷移,計算復雜度和遷移效果大多不能得到保證。本文提出一種實時零點圖像風格遷移模型,實現(xiàn)對于任意風格圖像的多尺度高質(zhì)量風格化遷移。該方法基于名為風格裝飾器的特征遷移網(wǎng)絡結(jié)構(gòu),可以容易地嵌入圖像重構(gòu)網(wǎng)絡中來達到多尺度的風格特征遷移。該網(wǎng)絡結(jié)構(gòu)使得生成的風格化圖像充分表達風格圖中的具體紋理模式,同時保留原圖中的語義信息。實驗表明,該網(wǎng)絡對各種類別的風格圖都有較高的風格化能力,并且可以有效擴展到多風格遷移和視頻風格遷移等應用中。

最新文章
1
全球16連冠:海爾究竟領先在哪?
2
本田攜手亞馬遜云科技打造下一代軟件定義汽車,并利用生成式AI提升充電體驗
3
引領聚合力 共創(chuàng)好產(chǎn)品:2024中國家電行業(yè)“好產(chǎn)品”發(fā)布盛典在北京召開
4
CES2025:中國“智”造新年秀實力第一站,長虹攜多款AI產(chǎn)品描繪生活之美
5
新年新氣象,盤點2025年智能電視行業(yè)發(fā)展的趨勢和方向
6
國補擴圍,洗碗機、凈水器市場即將迎來爆發(fā)式增長?
7
融合科技與藝術(shù)之美,家電如何構(gòu)建幸福生活?
8
AI改為GPT-4o,999元賣爆的中國首款AI眼鏡出海了!
9
最新手機數(shù)碼類國補政策出爐,最高補貼五百元,想換機的朋友直接沖!
10
CES 2025:六大手機廠商缺席 一加和TCL成明星
11
日本芯片公司Rapidus將向博通提供2nm芯片樣品:與臺積電競爭
12
徹底告別劉海、藥丸屏!iPhone 18 Pro系列變成單挖孔
13
2024投影行業(yè)十大事件:4K+激光勢猛,LCoS挑戰(zhàn)DLP,車載成增長點
14
2025家電明星品類,凈水器已經(jīng)鎖定一個席位?
15
海信羅馬假日mini斬獲CES 2025創(chuàng)新獎,引領精致健康洗護潮流
16
CES觀察:科技品牌兩翼齊飛,九號公司的“智造未來”
17
極米攜全新概念產(chǎn)品XGIMI Ascend亮相CES 2025
18
CES2025:全球最大RGB-Mini LED電視亮相,海信讓液晶電視首次發(fā)出彩色光源
19
BOE(京東方)全新概念級“AI視聽中心”亮相CES 2025 攜手高通引領智慧家居娛樂新圖景
20
趨勢2025 | 投資產(chǎn)出雙向奔赴,算力布局不斷優(yōu)化
關(guān)于我們

微信掃一掃,加關(guān)注

商務合作
  • QQ:61149512