機器之心報道

SketchX 實驗室

「你畫我猜」是一種廣泛流傳在不同文化中的人類通識遊戲,其形式簡單但高度體現人類的認知智慧。近日一篇被計算機圖形學頂會 SIGGRAPH ASIA 2020 接收的論文提出了一種基於草圖的生成優化方法。在給定一個視覺概念的前提下,相較於人類競爭者,該模型能夠以相似或更快的速度實現可識別的草圖渲染。

近幾十年來,AI 在越來越多的遊戲中逐漸達到了能夠與人類同臺競技的水平。從 1997 年在國際象棋比賽中勝出的 Deep Blue 到 2011 年在電視智力競賽項目 Jeopardy 中大放異彩的 IBM Watson,從 2013 年 DeepMind 開發的能夠勝任各種 Atari 小遊戲的程序到 2016 年所向披靡戰勝職業圍棋選手的 AlphaGo。至少對於公衆來說,每一個實例都把技術的突破和抽象計算的進步變成了一場具有觀賞性的運動。

在這樣的背景下,AI 能在你畫我猜(Pictionary)遊戲中表現優異的消息也就沒有那麼令人難以置信了。Pictionary 是一個受猜字遊戲啓發的遊戲,需要一個人粗略地勾勒出視覺畫像,其他人則試圖以最快的速度猜出他/她畫的是什麼。這正是英國薩里大學 SketchX 實驗室的研究人員近期的研究成果:一種對速度敏感並以競爭驅動的草圖生成 AI——Pixelor。即給定一個視覺概念,Pixelor 能夠像人類競爭者一樣快速甚至更快地畫出一幅人類和機器均能識別的目標對象草圖。

將現實世界複雜的圖像還原成草圖,是令人印象深刻的。這需要很強的抽象能力:把人臉看作一個橢圓形,並由兩個更小的橢圓形組成眼睛,一條彎曲的線段作爲鼻子以及一個半圓形去模擬嘴巴。這種感知圖像的方式通常是孩子們快速發展認知理解能力的重要特徵之一。然而就像莫拉維克悖論 (Moravec's Paradox) 所總結的那樣,「對人類十分棘手的問題對計算機來說通常較爲簡單,而對人類來說非常容易的事計算機則極難處理」。抽象感知,這種看似大多數兩歲孩童與生俱來的基本技能,對於機器智能來說則是一項巨大的挑戰。

與人類草圖相關的計算機視覺工作主要集中於判別性任務的分析,包括基於草圖的識別 [1]、語義分割 [2]、美化 [3]、3D推理 [4],以及在檢索框架下與現實圖片的聯繫 [5,6]。直至近期在開創性的工作 SketchRNN 中 [7],AI 首次展示出可以適應不同的風格和抽象水平、並且像人類一樣逐筆渲染出可識別草圖的能力。

但這對於 Pixelor 來說仍然是不夠的。你畫我猜是一個競速類遊戲。你可能是一個偉大的藝術家,但是如果花費 12 個小時去畫一隻完美的貓,那麼你將是一個糟糕的你畫我猜玩家。

正如Pixelor工作的通訊作者、來自薩里大學視覺語音和信號處理中心 (CVSSP) 的教授、SketchX實驗室主任宋一晢 (Yi-Zhe Song) 所言:「對於Pixelor來說,最重要的是推理出哪些是對視覺識別最重要的筆畫,並保證這些筆畫能夠被優先儘早地渲染出來。我們已經發布了面向公衆的Pixelor版本。我們希望人類玩家能夠擊敗我們的AI模型,甚至通過與AI的博弈來逐漸提高他們的遊戲策略併成爲更好的你畫我猜玩家。」

Pixelor 模型做了什麼

Pixelor 是通過兩階段的框架來訓練的。

在第一階段,研究人員輸入一個給定的訓練草圖集,並將每個個體草圖以隨機的筆畫順序打亂,其目的是希望學習推斷出能夠最大化該訓練集早期識別度的筆畫級排序。這樣做是因爲人類數據中的原始排序並不是最優的,這也是人類在你畫我猜的遊戲中會被精心設計訓練的 Pixelor 打敗的深層原因。

想要實現更優草圖筆畫順序的目標,一個顯而易見的策略是詳盡地評估所有可能的筆畫順序,然而這會在計算上產生難以處理的巨大搜索空間。Pixelor 採用了 NeuralSort [8],一種可微分的允許直通梯度 (Straight-through gradients) 反向傳播的排序算法,並用更先進的可學習感知特徵代替了啓發式損失函數。總而言之,該框架通過學習筆劃評分策略避開了筆劃順序的組合搜索,進而實現了早期識別。

在第二階段,Pixelor 根據上述經過最佳筆畫順序更新的數據集,來訓練序列到序列的草圖生成模型。不同於之前 SketchRNN 模型的是,研究人員提出用最佳傳輸距離 (optimal transport) 替代基於KL散度的方式(常見於變量自編碼器中)來約束嵌入特徵空間。這種設計選擇是基於對人類手繪行爲的直觀觀察。面對同一個視覺概念,雖然不同的個體可能在你畫我猜遊戲中展現相似的競技性,但他們仍然會有不同的草圖策略。這使得筆畫序列空間本質上是多模態分佈的,而最佳傳輸距離可以更好地捕捉這種分佈。

Pixelor,遠不止遊戲

Pixelor 的意義,不僅僅是又一個會玩遊戲的新 AI。就像計算機系統既有我們交互的用戶界面,又有後臺代碼一樣。每一個重要的 AI 遊戲里程碑背後都有着更深層次的考量。實驗室花費大量的時間和人力物力,不是爲了在人類不再擅長的事情列表上再增加一項,而是爲了完善人工智能的基礎能力,以用於解決現實問題。

在 Pixelor 的案例中,研究人員的最終目標是讓機器能夠更好地弄清楚在特定場景中什麼對人類來說是重要的。當我們看一張圖片時,我們馬上就能知道最需要注意的部分是什麼。

比如,當你下班開車回家的時候。雖然路邊的風景如畫,遠處的廣告牌也可能很有趣,但這都不如你面前可能隨時出現的行人重要。在你有意識地處理這些信息之前,大腦就已經把最重要的細節挑了出來。

而如何教會計算機做到這一點呢?一個好的起點就是尋找人類在手繪時如何優先考慮頭腦影像中突出的可識別細節。「傳統照片中並沒有人類的主觀輸入,我們想要的是人類數據。而手繪的過程正是體現了人類理解與表達視覺場景的方式。」宋一晢教授如是說。

一個優秀的你畫我猜玩家,就像一個優秀的拳擊手一樣,需要知道達成某一目標所需要的絕對最短路徑。從宏觀上看,這一點正是這篇 SIGGRAPH AISA 2020 論文的更大意義。這不僅僅是教會 AI 玩一項遊戲那麼簡單,而是懷有一種更大的願景:讓AI學會推理圖像場景中的重要之處,並能夠更好地泛化。從自動駕駛到智能機器人,這都是一項亟需解決的任務。

論文地址:https://ayankumarbhunia.github.io/pixelor/image/pixelor.pdf

Pixelor項目主頁:http://sketchx.ai/pixelor

SketchX實驗室主頁:http://sketchx.ai

薩里大學CVSSP主頁:https://www.surrey.ac.uk/centre-vision-speech-signal-processing

參考文獻

[1] Qian Yu, Yongxin Yang, Yi-Zhe Song, Xiang Tao, and Timothy M. Hospedales. Sketch-a-net that beats humans. BMVC 2015. (Best Science Paper Prize)

[2] Rosália G Schneider and Tinne Tuytelaars. Example-based sketch segmentation and labeling using crfs. SIGGRAPH 2016.

[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization of line drawings via polyvector fields. SIGGRAPH 2019.

[4] Wanchao Su, Dong Du, Xin Yang, Shizhe Zhou, and Hongbo Fu. Interactive sketch-based normal map generation with deep neural networks. ACM on Computer Graphics and Interactive Techniques 2018.

[5] Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. Sketch Me That Shoe. CVPR 2016.

[6] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: learning to retrieve badly drawn bunnies. SIGGRAPH 2016.

[7] David Ha and Douglas Eck. A Neural Representation of Sketch Drawings. ICLR 2018.

[8] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR 2019.

相關文章