本週早些時候,AWS(亞馬遜雲服務) 推出了 DeepComposer 和一款售價 99 美元的 MIDI 鍵盤,前者是一套用於學習人工智能生成音樂的網頁工具,後者則是用於輸入旋律。然而,這次產品發佈讓大家感到 非常困惑 。所以,我們採訪了 AWS 人工智能設備部門的主管邁克·米勒(Mike Miller),向其詢問 DeepComposer 在該公司人工智能設備陣容中處於什麼樣的位置——在這個陣容中,我們已經看到了 DeepLens 相機DeepRacer 人工智能玩具車 ,這兩者也都是用來讓開發者學習特定人工智能概念的。

首先要記住的是,DeepComposer 是一件學習工具,它不是爲音樂人準備的,而是爲那些希望瞭解生成人工智能的工程師準備的。不過,AWS 將其標榜爲 “世界第一款面向開發人員的機器學習音樂鍵盤”,這並沒有幫助我們解開疑惑。畢竟,鍵盤本身只是一款標準的、基本的 MIDI 鍵盤,它並不智能。所有的人工智能魔法都發生在雲端。

“這裏的目標在於讓開發人員學習生成人工智能,這是過去 10 年機器學習領域最有趣的發展趨勢之一。” 米勒告訴我們,“我們特別講了 GANs,也就是生成對抗網絡,讓兩個網絡一起進行訓練。在我們看來,這能夠引起開發人員興趣的原因在於,它非常複雜,當開發人員同時訓練兩個網絡時,他們所學關於訓練機器學習模型的很多東西就會混淆在一起。”

有了 DeepComposer 之後,開發人員可以逐步學習基礎知識。通過 MIDI 鍵盤,開發人員可以輸入一段基本的旋律——但如果沒有音樂鍵盤,開發人員也可以使用軟鍵盤進行輸入或者是使用一些默認的旋律(比如《歡樂頌》)。在實際使用中,這時候系統就會發揮作用,根據開發人員選擇的音樂風格爲輸入的旋律生成背景音軌。不過,爲了簡單起見,系統會忽略來自鍵盤的一些值,比如說按鍵的力度(這又是該鍵盤並非以音樂人爲目標受衆的一個證據)。但更爲重要的是,開發人員然後可以深入研究系統生成的實際模型——甚至可以將其導出到 Jupyter Notebook(譯註:一款用於交互計算的網頁應用)。

就 DeepComposer 的目的來說,這些 MIDI 數據只是又一個讓開發人員學習 GANs 和 SageMaker 的數據源——SageMaker 是 AWS 推出的機器學習平臺,DeepComposer 正是由它驅動

“使用 MIDI 文件以及基於 MIDI 進行訓練的優點在於,訓練所使用數據的表示形式實際上跟,比如說,一張圖像中的數據表示形式是相同的。” 米勒解釋說,“因此,它實際上具有很強的適用性和模擬性。這樣,當開發人員查看 SageMaker 筆記本並瞭解了數據格式以及我們傳遞數據的方式,這些知識也能適用於其他領域。”

這就是 DeepComposer 也會公開所有原始數據的原因,包括損失函數、分析和各種模型在試圖得出一個可接受結果時生成的結果,諸如此類。由於這明顯是一款用於生成音樂的工具,它還會公開一些有關音樂的數據,包括音高和空小節。

“我們認爲,隨着開發人員深入瞭解 SageMaker 模型,他們會明白,嘿,我可以把這個應用在其他領域,我可以對這個加以借鑑做出自己的模型,然後看看我能生成出什麼東西。” 米勒說道。

在聆聽了到目前爲止生成的一些音樂之後,我覺得可以肯定地說,DeepComposer 無法馬上就創作出一首熱門曲目。它似乎非常擅長生成鼓點音軌,但在低音部的表現則有些不穩定。儘管如此,DeepComposer 仍然是對這種機器學習技術非常酷的演示,儘管在我看來,它的成功潛力可能比不上 DeepRacer,後者的概念更易於被大多數人理解,因爲拿 DeepComposer 來說,大多數開發人員在看到它後會認爲自己需要懂樂器才能使用,然後就此擦身而過。

羅恩·米勒(Ron Miller)對本報道亦有貢獻。

翻譯:王燦均( @何無魚

Why AWS is selling a MIDI keyboard to teach machine learning

相關文章