虎嗅注:本文來自愛範兒網,虎嗅進行了相關編輯。在信息爆炸的時代,智能推薦應時而生。內容提供商能夠對用戶的愛好做出更爲細緻的分析,從而做出更加個性化的推薦。Atlantic網站的Alexis C. Madrigal通過對Netflix影片分類的深入分析以及採訪Netflix產品副總裁,揭示了Netflix影視推薦背後的真相。

外界的解讀:語法

Netflix推薦影片的時候,會給出一個非常細緻的類型,或者說是一種“微類型”。Alexis 想要整理出一份完整的微類型列表。由於Netflix的微類型多得離譜,他不得不借助於自動處理軟件。在計算機連續運作一天之後,他看到了Netflix微類型的數量:76897個。這些微類型是由一些基本要素構成的,基本語法是這樣:  地區+形容詞+類型(名詞)+基於……+……爲背景+來自……+關於……+從 X 歲到 Y 歲(Region + Adjectives + Noun Genre + Based On… + Set In… + From the… + About… + For Age X to Y)  當然,有些微類型是不符合上述語法的,比如“有強勢女主角”和“適合無可救藥的浪漫主義者”。

在同事Ian Bogost 的建議下,Alexis還編寫了一個類型生成器,試圖理解Netflix的算法究竟是什麼樣子的。不過,他還是感覺沒有看到全貌。於是,他聯繫了Netflix,並見到了公司的產品副總裁Todd Yellin,那個創建了 Netflix 推薦系統的人。

內部的解答:內容撕裂、量子理論

在接受採訪的時候,Todd Yellin說,他早就等着人們來問這個問題了。爲所有的電影加上標籤,正是他的主意,而他還自己寫了一張24頁的文檔,講述加標籤的方法。他爲早期的一些電影加過標籤,而且主導了整個系統的創建過程。

“我的第一個任務是:把內容撕裂開來!”他說。  2006 年,Yellin組織了十幾個工程師,花費數月時間編寫一份名爲“Netflix 量子理論”的文檔。當時,他把組成影片的基本元素稱作“量子”。如今,他更喜歡“微標籤”的說法,因爲現在看來,“量子理論”是一個自命不凡的名字。  這份文檔描述了爲影片各種層面加標籤的方法,涉及影片結尾、主角的“社會接受程度”等等方面。標籤是標量的,從1到5,就是說,所有的影片都有一個“浪漫程度”的標識,而不僅僅是那些表明是“浪漫片”的電影。每個電影的結局都有打分,從幸福到悲傷。每個情節都有標籤。主角的工作有標籤。影片的地點有標籤。  Netflix的工程師以“微標籤”爲基礎,創造了一種語法,來生成各種類型。這是一種人工和機器算法的結合。Netflix 的做法,與 Pandora 的音樂基金組計劃有些類似,但是 Netflix 不僅僅展示給你喜歡的內容,還能夠對其進行文字描述。  這些標籤數據不僅僅用來生成類型,也用來增加推薦的個性化程度。如果你喜歡動作冒險類電影,並且浪漫程度比較高的,Netflix 可以推薦給你。“我們將對影片中的浪漫程度做出標註。我們不會告訴你它有多浪漫,但是我們會推薦它,”Yellin 說,“你會看到動作場面,裏面的浪漫程度如何,那取決於我們對你的瞭解。”

算法的哲學思考:是失誤也是特色

在採訪結束之前,Alexis 向Yellin展示了一個有趣的圖表。Netflix上最受歡迎的演員排名中,第一名的是Raymond Burr,50 年代電視劇Perry Mason的主演,而第七名的是Barbara Hale,在劇中扮演主演的祕書。爲什麼這兩個人能夠超過梅麗爾·斯特里普、塞繆爾·傑克遜、尼古拉斯·凱奇和肖恩·康納利?  這是一個謎題。即使是Yellin也搞不懂,爲什麼他們的名字出現在那麼多的“微類型”中。這是無法用邏輯來解釋的問題。  “讓我們做些哲學思考吧。在人類社會中,生命由於意外而變得有趣。”他說,“當你把複雜的東西添加到機器的世界時,你也在添加自己無法想象的意外。Perry Mason就會發生。這些機器中的鬼魂,經常是複雜帶來的副產品。有時候我們稱它爲失誤,有時候我們稱之爲特色。”

查看原文 >>
相關文章