華人小哥一作

金磊 發自 凹非寺

量子位 報道 | 公衆號 QbitAI

見識過「聽歌識曲」,體驗過 看彈奏動作識曲 嗎?

就像最近的一檔綜藝節目中,郎朗比劃了幾個彈鋼琴的動作,他媳婦(吉娜·愛麗絲)秒答:《柴可夫斯基第一協奏曲》!

來自華盛頓大學的研究團隊提出了一種新方法 Audeo ,就解鎖如此神奇的操作——僅僅根據鋼琴師彈奏時的動作,就能直接復現原聲音樂。

先來體驗下這種神奇的感覺。

下面便是鋼琴師演奏時的動圖,我們能看到的,僅僅就是手指在鋼琴鍵盤上的變換。

然後,你知道這是哪首曲子嗎?

大部分人(或許郎朗級別的大神們可以)應該是猜不到的。

但AI可以,下面便是這項技術復現的原聲音樂。

那麼,這般神奇的操作是怎麼實現的呢?

三步實現「看動作識音樂」

簡單來說,Audeo方法主要包括三大步驟,分別是:

  • 鋼琴按鍵檢測
  • 生成樂譜內容
  • 合成音樂

鋼琴按鍵檢測

這個步驟可以理解爲一個多標籤(multi一label )分類問題。

輸入是彈鋼琴視頻中5個連續的幀,將它們輸入到 Video2Roll Net 中,經過ResNet18、特徵變換、特徵細化(refinement)和相關學習的處理,最後 輸出 中間幀的按鍵預測。

值得注意的是,在這個步驟中,研究人員沒有直接使用ResNet18,而是在此基礎上做了算法改良,提出了Video2Roll Net。

這樣做的原因很簡單,就是ResNet18檢測到的「精度」不夠細緻,下面2張熱力圖的對比,便一目瞭然地展示了2種方法的效果。

生成樂譜內容

在第二個步驟中,就需要將 Roll 轉換爲 Midi(樂器數字接口),以便合成音樂。

但在上步生成出來的 roll ,沒辦法直接轉換成 Midi,一個至關重要的原因就是—— Roll 不包含 時間信息

此外,由於 Midi 比較依賴音頻流,所以經常出現的一個現象就是:演奏者按一個鋼琴鍵的時間較長時,相應頻率的幅度會逐漸衰減爲零,也就是在 Midi 中會被標記爲零。

像下面這張圖中顯示的那樣,就會造成 不匹配 的現象。

並且,研究人員表示:

這種不匹配的現象,是經常發生的。

於是,研究人員便提出了一個叫 Roll2Midi Net的方法解決了這個問題。

主要是在二者之間加入了一個生成對抗網絡(GAN),來調節並解決上述問題。

合成音樂

最後一步,就是根據調節好的 Midi 來生成音樂,主要過程如下圖所示。

將 Midi 作爲輸入,經過一個上採樣,而後可以選擇通過「Midi 合成器軟件」,也可以選擇使用「PerfNet+Unet+GriffinLim」的組合方式來生成音樂。

至於 Audeo 方法與其它方法的定量比較,主要集中在第二個核心步驟。

可以明顯看到,研究人員在第二步驟中提出來的 Roll2Midi Net方法,在各項評測指標中,都具有一定優勢。

合成音樂還可以轉換成別的樂器

當然,Audeo 除了精準復現視頻中的鋼琴音樂外,還有一個更有意思的玩法。

它可以將鋼琴原聲,轉換成 其他樂器的聲音

例如,可以將鋼琴音樂轉換成 吉他 的聲音。

還可以將鋼琴音樂轉換成日本 十三絃古箏 的聲音。

這個有趣的玩法,主要得益於「合成音樂」這個步驟,選擇的方法不同,得到的結果便不同。

研究團隊

這項研究由華盛頓大學的 三位 研究人員共同完成,研究還入圍了本屆CVPR。

從左至右:Kun Su、Xiulong Liu和Eli Shlizerman

論文一作是Kun Su,本科就讀於美國紐約州倫斯勒理工大學(RPI),目前在華盛頓大學攻讀電子與計算機工程系攻讀碩士。

Kun Su

研究的另一位作者是Xiulong Liu,本科在上交大就讀,碩士畢業於華盛頓大學,目前在OneClick.ai 擔任數據科學家。

Xiulong Liu

論文最後一位作者是Eli Shlizerman,華盛頓大學應用數學及電子與計算機工程助理教授。

目前專攻生物神經網絡和人工神經網絡的基本特性,通過結合時空數據分析、機器學習和動力系統理論的方法將這兩個系統聯繫起來。

Eli Shlizerman

那麼問題來了,如果以郎朗的手速彈奏鋼琴,這個AI的效果還會如此驚豔嗎?

傳送門:

論文地址:

https://arxiv.org/abs/2006.14348

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

相關文章