加入極市 專業CV交流羣,與 6000+來自騰訊,華爲,百度,北大,清華,中科院 等名企名校視覺開發者互動交流!更有機會與 李開復老師 等大牛羣內互動!

同時提供每月大咖直播分享、真實項目需求對接、乾貨資訊彙總,行業技術交流。 關注  極市平臺  公衆號  , 回覆  加羣, 立刻申請入羣~

來源: 新智元@微信公衆號

【導讀】 MIT和IBM的研究團隊近日發佈一個不同尋常的目標識別數據集ObjectNet,包含50000張特意拍攝的照片,儘可能接近真實世界。 該數據集讓AlexNet、ResNet、Inception等最先進的圖像識別模型紛紛栽倒,性能暴降40%~45%。

計算機視覺模型已經學會了非常精確地識別照片中的物體,甚至有些模型在某些數據集上的表現比人類更好。但是,同樣的物體檢測器如果在現實世界中使用,它們的性能會顯著下降,這就給自動駕駛汽車和其他使用機器視覺的安全至關重要的系統帶來了可靠性方面的擔憂。

爲了縮小模型在數據集和現實世界之間的性能差距,麻省理工學院(MIT)和IBM的研究人員着手創建了一個非常不同的目標識別數據集。該數據集名爲 ObjectNet ,形式與ImageNet類似,ImageNet是一個衆包的圖片數據集,在很大程度上推動了現代人工智能的蓬勃發展。

與ImageNet不同的是, ObjectNet上的照片是付費請自由職業者拍攝的 ,而ImageNet則是從Flickr和其他社交媒體網站上收集照片。

ObjectNet數據集 以不同的角度、不同的背景展示物體,以更好地表徵3D對象的複雜性。

ObjectNet照片的拍攝還有諸多要求,例如物品要從側面展示,以奇怪的角度拍攝,房間背景要雜亂,等等,目的是儘可能地接近現實世界。

當在ObjectNet上測試領先的目標檢測模型時,它們的準確率從ImageNet上的97%下降到50% - 55%。

ObjectNet數據集

  • 一個全新的視覺數據集,借鑑了其他科學領域的控制理念。

  • 沒有訓練集,只有測試集!

  • 有意識地從新的視角、在新的背景下展示物體。

  • 測試集包含50000個圖像,與ImageNet規模相當,具有旋轉、背景和視點的控制。

  • 313個對象類,其中113個與ImageNet重疊

  • 模型性能大幅下降,這是現實世界中視覺系統的表現!

  • 穩健的微調和非常困難的遷移學習問題

MIT計算機科學與人工智能實驗室(CSAIL)和大腦、心智與機器中心(CBMM)的研究科學家Boris Katz說:“我們創建這個數據集是爲了告訴人們, 物體識別仍然是一個難題。 我們需要更好、更智能的算法 。”Katz和他的同事將在NeurIPS會議上介紹ObjectNet及其結果。

深度學習是推動AI最新進展的主要技術,它使用人工“神經元”層,在大量原始數據中尋找模式。比如,在對成百上千個樣本進行訓練後,AI能學會在照片中識別出椅子。但是,即使擁有數百萬張圖像的數據集也無法展示每個對象的所有可能的方向和設置,因此模型在現實生活中遇到這些對象時準確率可能大幅下降。

ObjectNet 與ImageNet的對比

ObjectNet與傳統圖像數據集的另一個重要區別是: 它不包含任何訓練圖像 。大多數數據集被分成訓練集和測試集,分別用於訓練模型和測試模型的性能。但是訓練集通常與測試集有着細微的相似之處,實際上導致了模型在測試時性能提升。

ImageNet擁有1400萬張圖片,看起來非常龐大。但是,如果不包括訓練集,它只有50000張圖片,與ObjectNet的規模相當。

“如果我們想知道算法在現實世界中的表現如何,我們應該在沒有偏見的圖像上測試它們,而且這些圖像應該是它們從未見過的,”該研究的合著者、CSAIL和CBMM的研究科學家Andrei Barbu說。

ObjectNet:試圖捕獲真實世界物體的複雜性

很少有人會考慮與朋友分享來自ObjectNet的照片,這就是重點。研究人員從Amazon Mechanical Turk 上聘請自由職業者,爲數百個隨機擺放的家居物品拍照。他們需要在一個APP上收到分配給他們的拍攝任務,並且會有動畫說明告訴他們如何擺放分配的物體,從什麼角度拍攝,以及將物體擺放在廚房,浴室,臥室,還是客廳。

研究人員希望消除三種常見的偏見: 物體從正面展示,處於標誌性的位置,以及高度相關的場景 ——例如,廚房中堆放的盤子。

他們花了三年時間來構思這個數據集,並設計了一個APP來規範數據收集過程。“我們發現如何在控制各種偏差的條件下收集數據是非常棘手的,”該研究的合著者、MIT電子工程與計算機科學系的研究生David Mayo說:“我們還必須進行實驗,確保我們提供的指示清晰明瞭,讓拍攝者完全理解要求他們做什麼。”

他們又花了一年的時間來收集實際數據,最後,兼職提交的所有照片中,有一半因爲沒有達到研究人員的要求而被丟棄。

許多照片都是在美國以外的地方拍攝的,因此,有些物體可能看起來很陌生。比如,熟透的橙子是綠色的,香蕉大小不一,衣服的樣式和質地也各不相同。

ObjectNet vs. ImageNet:模型性能暴降40%-45%

當研究人員在ObjectNet上測試最先進的計算機視覺模型時,他們發現與ImageNet相比,模型性能下降了40-45個百分點。研究人員說,這些結果表明,目標檢測器仍然很難理解物體是三維的,是可以旋轉或移動到新環境中的。“這些概念並沒有被構建到現代目標檢測器的架構中,”研究的合著者、IBM的研究員Dan Gutfreund說。

主要目標檢測模型在不同數據集上的性能比較

爲了證明ObjectNet之所以難倒最先進的模型正是由於圖像中物體的拍攝角度和擺放位置,研究人員允許模型先用ObjectNet的一半數據進行訓練,然後再用另一半數據進行測試。在相同的數據集上進行訓練和測試通常可以提高性能,但這裏的模型只得到了輕微的改進,這表明目標檢測器並沒有完全理解現實世界中物體存在的方式。

2012年,AlexNet在ImageNet競賽中大獲全勝。自那以後,計算機視覺模型不斷得到改進。隨着數據集變得越來越大,模型的性能也越來越好。

但是,研究人員警告說,設計更大版本的ObjectNet並增加觀察角度和方向,並不一定會帶來更好的結果。ObjectNet的目標是激勵研究人員提出下一波革命性的技術,就像ImageNet挑戰賽最初的目標一樣。

Katz說:“人們爲這些檢測器提供了大量數據,但回報卻在遞減。”“你不可能從任何角度、任何環境觀察一個物體。我們希望這個新的數據集能夠產生在現實世界中表現強大的計算機視覺算法,而不會出現意外的失敗。”

該研究的其他作者是包括麻省理工學院的Julian Alvero、William Luo、Chris Wang和Joshua Tenenbaum。這項研究由美國國家科學基金會、MIT大腦、心智和機器中心、MIT-IBM Watson AI實驗室、豐田研究所和SystemsThatLearn@CSAIL資助。

原文:

http://news.mit.edu/2019/object-recognition-dataset-stumped-worlds-best-computer-vision-models-1210

-End-

CV細分方向交流羣

添加極市小助手微信 (ID : cv-mart) ,備註: 研究方向-姓名-學校/公司-城市 (如:目標檢測-小極-北大-深圳),即可申請加入 目標檢測、目標跟蹤、人臉、工業檢測、醫學影像、三維&SLAM、圖像分割、OCR、姿態估計等極市技術交流羣 (已經添加小助手的好友直接私信) ,更有每月 大咖直播分享、真實項目需求對接、乾貨資訊彙總,行業技術交流 一起來讓思想之光照的更遠吧~

△長按添加極市小助手

△長按關注極市平臺

覺得有用麻煩給個在看啦~   

相關文章