"\u003Cdiv\u003E\u003Cp\u003E機器之心整理\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002Fa6c7371ae5ba4b30b7cddc5e30900ac3\" img_width=\"1200\" img_height=\"675\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cstrong\u003E參與:一鳴、思源\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cblockquote\u003E\u003Cp\u003E本週 Hinton、李飛飛都有新論文面世。Hinton 等提出了新的優化算法,而李飛飛等在視頻預測任務上實現了新的 SOTA 模型。此外還有自然語言理解評價方法、文本+圖像數據融合任務的綜述,以及對深度學習的硬件進行評價的文章等。\u003C\u002Fp\u003E\u003C\u002Fblockquote\u003E\u003Cp\u003E\u003Cstrong\u003E目錄:\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003ELookahead Optimizer: k steps forward, 1 step back\u003C\u002Fli\u003E\u003Cli\u003EEidetic 3D LSTM: A Model for Video Prediction and Beyond\u003C\u002Fli\u003E\u003Cli\u003EDiscourse-Based Evaluation of Language Understanding\u003C\u002Fli\u003E\u003Cli\u003ETrends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods\u003C\u002Fli\u003E\u003Cli\u003ENeural Point-Based Graphics\u003C\u002Fli\u003E\u003Cli\u003EBenchmarking TPU, GPU, and CPU Platforms for Deep Learning\u003C\u002Fli\u003E\u003Cli\u003EUnifying Logical and Statistical AI with Markov Logic\u003C\u002Fli\u003E\u003C\u002Fol\u003E\u003Cp\u003E\u003Cstrong\u003E1.標題:Lookahead Optimizer: k steps forward, 1 step back\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Michael R. Zhang、James Lucas、Geoffrey Hinton、Jimmy Ba\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.08610v1\u003C\u002Fli\u003E\u003Cli\u003EKeras 實現:https:\u002F\u002Fgithub.com\u002Fbojone\u002Fkeras_lookahead\u003C\u002Fli\u003E\u003Cli\u003EPyTorch 實現:https:\u002F\u002Fgithub.com\u002Falphadl\u002Flookahead.pytorch\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E這篇論文提出 Lookahead 算法與已有的方法完全不同,它迭代地更新兩組權重。直觀來說,Lookahead 算法通過提前觀察另一個優化器生成的「fast weights」序列,來選擇搜索方向。該研究發現,Lookahead 算法能夠提升學習穩定性,不僅降低了調參需要的功夫,同時還能提升收斂速度與效果。研究表示,Lookahead 在殘差網絡(ImageNet)、Transformer(WMT 2014)等模型上,算法的性能顯著優於 SGD 和 Adam。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦:\u003C\u002Fstrong\u003E首先這篇論文表示 Lookahead 可以大幅度提升 Adam 等優化器的效果,且作者包括圖靈獎得主 Geoffrey Hinton 和 Adam 原論文作者 Jimmy Ba,所以非常值得我們一讀。此外,因爲算法實現起來並不困難,而且在各種任務上都能有很穩定的表現,因此也非常值得我們一試。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fa40e82a6c74f4caeb975907622673851\" img_width=\"1080\" img_height=\"455\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E如上左圖展示了 Lookahead 的兩種參數更新方法:Fast 和 Slow。相比藍色線的標準 SGD,紅色線的 Slow weights 在接近收斂時能探索到更好的最優解。右圖展示了 Lookahead 的僞代碼,我們可以看到,快更新相當於做了一系列實驗,然後慢更新再根據實驗結果選一個好方向。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E2.標題:Eidetic 3D LSTM: A Model for Video Prediction and Beyond\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Yunbo Wang 、Lu Jiang 、Ming-Hsuan Yang 、Li-Jia Li 、Mingsheng Long 、Li Fei-Fei\u003C\u002Fli\u003E\u003Cli\u003E論文地址:https:\u002F\u002Fopenreview.net\u002Fpdf?id=B1lKS2AqtX\u003C\u002Fli\u003E\u003Cli\u003E實現鏈接:https:\u002F\u002Fgithub.com\u002Fmetrofun\u002FE3D-LSTM\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E時空預測儘管被認爲是一種有效的自監督特徵學習策略,但目前仍很少體現出在視頻預測之外的效果。這是因爲,學習短期幀的依賴和長期的高級關係的表示非常困難。研究人員在這篇論文中提出了一個新的模型,名爲「Eidetic 3D LSTM (E3D-LSTM)」。模型可以將三維的卷積信息融合在 RNN 中。這種內嵌的三維卷積層使得 RNN 具有局部的動作敏感性,並可以使機器單元儲存更好的短期特徵。\u003C\u002Fp\u003E\u003Cp\u003E對於長期關係,研究人員使用門控制自注意力單元,使得現在的記憶狀態和歷史記錄進行交互。研究人員稱這種記憶轉移機制爲「eidetic」,因爲它能夠使模型「回憶」起多個時間步前記憶的信息。研究人員首先在廣泛使用的視頻預測數據集上進行了測試,結果達到了 SOTA。然後,他們展示了模型在早期活動檢測(early activity recognition)任務上的表現。模型能夠在觀察少量幀數的視頻後推斷出發生了什麼,以及將要發生什麼。這個任務和視頻預測中的建模動作意圖和趨勢的任務很好地配合。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦:\u003C\u002Fstrong\u003E視頻預測任務新 SOTA,作者包括李飛飛等,團隊包括清華大學、斯坦福大學、谷歌大腦等的研究人員。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F934ff5ad3cb74598823a611fa279e54a\" img_width=\"1080\" img_height=\"433\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E如上展示了三種將三維卷積融合到循環神經網絡的方式,藍色箭頭表示使用三維卷積的數據轉換路徑。a 和 b 分別在時空 LSTM 的前後加上三維卷積運算,它們本質上沒有什麼區別,而且將三維卷積放在 LSTM 單元外效果並不好。c 則展示了 E3D-LSTM 的編碼器解碼器結構,它將三維卷積嵌入到 LSTM 單元內,從而將卷積特徵用於循環網絡的隱狀態。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E3.標題:Discourse-Based Evaluation of Language Understanding\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Damien Sileo、Tim Van-de-Cruys、Camille Pradel、Philippe Muller\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.08672.pdf\u003C\u002Fli\u003E\u003Cli\u003E實現地址:https:\u002F\u002Fgithub.com\u002Fsynapse-developpement\u002FDiscEval\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E在本文中,研究者介紹了 DiscEval,它包含 11 個評估數據集,並以語篇爲重點,可用於英語自然語言理解的評估。他們證明,語篇評估任務被忽視了,並且自然語言推理(NLI)預訓練可能無法學習到真正的通用型表徵。DiscEval 還可以用作多任務學習系統的補充訓練數據,它是公開可用的,同時提供收集和預訓練數據集的代碼。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦:\u003C\u002Fstrong\u003E本文總結了自然語言理解的評估方法,可作爲評價語言模型性能的重要參考。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002Fd6d3a03a7d19413b99ea874af95bdf3f\" img_width=\"1080\" img_height=\"342\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E表 1:DiscEval 的文本分類數據集。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E4.標題:Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Aditya Mogadala、Marimuthu Kalimuthu、Dietrich Klakow\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.09358v1.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E近年來,由於機器學習、計算機視覺和神經語言處理等多學科社區日益高漲的興趣,視覺與語言任務的整合已經取得了顯著的進展。在這篇綜述文章中,研究者重點講述了十項不同的視覺與語言整合任務,並就這些任務的問題界定、方法、現有數據集、評估度量以及以相應 SOTA 方法所實現結果的對比進行詳解。本次調研較以往更爲深入,先前的研究要麼針對特定任務,要麼僅集中於圖像或視頻等單一類型的內容。最後,研究者探討了未來視覺與語言研究整合可能的發展方向。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦:\u003C\u002Fstrong\u003E目前,文本和圖像數據融合模型的論文綜述依然不多,本文不失爲系統理解這一新興機器學習分支領域的優秀論文。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F4fa2b4bcc2464b67adc22a28f0bae718\" img_width=\"957\" img_height=\"417\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E圖 1:論文中展示的十種需要融合文本和圖像數據的機器學習任務。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E5.標題:Neural Point-Based Graphics\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08240.pdf\u003C\u002Fli\u003E\u003Cli\u003E實現地址:https:\u002F\u002Fgithub.com\u002FWangYueFt\u002Fdgcnn\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E在本文中,研究者提出了一種新的基於點的複雜場景建模方法。該方法使用原始點雲作爲場景的幾何表徵,並且利用能夠編碼局部幾何結構和外觀的可學習神經描述符來增大每個點。深度渲染網絡與描述符同時進行學習,這樣從新視點將點雲的光柵部分穿過這個網絡,從而獲得場景的新視圖。研究表明,這種新方法可用於建模複雜場景、得到這些場景的逼真視圖,同時能夠避免顯式表面估計和網格化。具體來講,使用手持商用 RGB-D 傳感器和標準 RGB 攝像頭可以在場景掃描任務中獲得令人信服的結果。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦\u003C\u002Fstrong\u003E:僅用點雲和視頻結合就完成了實時動態的視頻渲染,還不需要特別昂貴的景深相機,這樣新奇的論文值得讀者閱讀。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp3.pstatp.com\u002Flarge\u002Fpgc-image\u002F3491de12c3d14f5a82e703a591dead70\" img_width=\"639\" img_height=\"496\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E\u003Cem\u003E論文對圖像的渲染效果和其他方法及 Ground Truth 的對比。第二行中間爲論文的方法,最右側爲 Ground Truth。肉眼可見,論文的方法效果更好。\u003C\u002Fem\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E6.標題:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning\u003C\u002Fstrong\u003E \u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Yu (Emma) Wang、Gu-Yeon Wei、David Brooks\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.10701.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E爲了系統地對深度學習平臺進行基準測試,研究者提出了 ParaDnn,這是一個用於深度學習的參數化基準測試套件,它能夠爲全連接(FC)、卷積(CNN)和循環(RNN)神經網絡生成端到端的模型。研究者使用 6 個實際模型對 Google 的雲 TPU v2\u002Fv3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平臺進行了基準測試。他們深入研究了 TPU 的架構,揭示了它的瓶頸,並重點介紹了能夠用於未來專業系統設計的寶貴經驗。研究者還提供了平臺的全面對比,發現每個平臺對某些類型的模型都有自己獨特的優勢。最後,他們量化了專用的軟件堆棧對 TPU 和 GPU 平臺提供的快速性能改進。\u003C\u002Fp\u003E\u003Cp\u003E有關深度學習算法的基準測試論文已是汗牛充棟,但對硬件平臺進行測試的論文很少見。通過本論文,讀者可系統瞭解各種機器學習訓練的平臺特性,並針對自身的需求選擇。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F33e390e7f6ca419ebb5ae2cfe52b4149\" img_width=\"1080\" img_height=\"460\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E上表展示了所有基準測試得出來的結果與見解,它測試了不同神經網絡結構在不同硬件平臺上的效果。每一條觀察結果或結論都有具體的實驗圖標支持,讀者可詳細查閱原論文。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E7.標題:Unifying Logical and Statistical AI with Markov Logic\u003C\u002Fstrong\u003E\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E作者:Pedro Domingos、Daniel Lowd\u003C\u002Fli\u003E\u003Cli\u003E論文鏈接:https:\u002F\u002Fhomes.cs.washington.edu\u002F~pedrod\u002Fpapers\u002Fcacm19.pdf\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E\u003Cstrong\u003E摘要:\u003C\u002Fstrong\u003E多年來,人工智能的主要兩大分支爲:邏輯人工智能和統計人工智能。邏輯人工智能使用一等邏輯和相關表示捕捉複雜關係和知識。然而,在許多應用中,邏輯人工智能在處理不確定性和噪聲時較爲脆弱。統計人工智能則使用概率表示,如概率圖模型,來捕捉不確定性。然而,圖模型只能表示顯式的全局信息,無法處理關係領域。本文提出一種名爲馬爾科夫邏輯的方法,結合兩種模型。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cstrong\u003E推薦:\u003C\u002Fstrong\u003EKeras 之父日前表示,目前機器學習沒能解決人工智能的基本問題。本論文值得想要了解邏輯人工智能的讀者閱讀。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp9.pstatp.com\u002Flarge\u002Fpgc-image\u002Fc22948d248c84e629cd2f2fd2058be16\" img_width=\"1080\" img_height=\"484\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E雖然從屬於 AI 這個大領域,但如上所示邏輯方法與統計方法在不同的子領域上都有自己的一套方法。本文嘗試通過馬爾可夫邏輯統一這兩種方法,並利用它們各自的優勢,感興趣的讀者可詳細閱讀論文。\u003C\u002Fp\u003E\u003Cdiv class=\"pgc-img\"\u003E\u003Cimg src=\"http:\u002F\u002Fp1.pstatp.com\u002Flarge\u002Fpgc-image\u002F1216b3d371b94737ba8adaefd3bf3bff\" img_width=\"1080\" img_height=\"600\" alt=\"7 Papers | Hinton、李飛飛各有新作;深度學習硬件性能評價\" inline=\"0\"\u003E\u003Cp class=\"pgc-img-caption\"\u003E\u003C\u002Fp\u003E\u003C\u002Fdiv\u003E\u003C\u002Fdiv\u003E"'.slice(6, -6), groupId: '6718972630042411533
相關文章