歡迎關注“創事記”的微信訂閱號:sinachuangshiji

文/邢逸帆

來源:硅星人(ID:guixingren123)

想給Google標數據,你得先拿到醫師資格證纔行。

在一排一排的電腦前,這裏的年輕人們一邊瀏覽照片和視頻,一邊標記他們看到的每樣東西。有的是在爲無人駕駛公司標註路上的汽車和紅綠燈,有的是在爲無人售貨公司標註麪包牛奶巧克力。

據《紐約時報》的報道,在位於中原腹地的河南河北,數據標註正在漸漸成爲最新的勞動密集型行業。

有多少人工,就有多少智能。目前的人工智能在被投餵了大量數據之後,才能認出三歲小孩子都能認出的東西,學會“黑貓白貓都是貓”。

然而,在人工成本更高以及對數據標註要求更復雜的硅谷,工程師們需要尋找其他出路來獲取大規模的高質量有標記數據。

衆包

在人工費用高昂的硅谷,工人的最低時薪約爲13美元左右。對於很多創業公司和中小企業來說,僱工人標註數據實在承受不起。最經濟的方法就是把大量任務拆分成小任務,再以低廉的價格分發到用戶手中。

其中最有名的在線衆包平臺就是亞馬遜旗下的AmazonMechanicalTurk了。

在MechanicalTurk上,發佈者可以自行上傳標註任務,用戶只需要填寫簡單的個人信息就可以開始工作。爲了搞清楚 MechanicalTurk到底是怎麼工作的,硅星人也註冊了一個賬號。

在 MechanicalTurk的開始頁面,有各種奇奇怪怪的任務。這其中包括“標註廚房裏的事物”,“找出電子郵件地址和發件人名字”,“給圖片中的物體勾線”等等。

每個任務中包含若干個被稱爲HIT(人類智能任務,HumanIntelligenceTask)的小任務,標註員每完成一個小任務可以獲得相應的報酬。

其中最便宜的一個是給圖片中的建築分類,判斷這個小樓是屬於拉丁裔、亞裔還是中東人。每完成一個可以獲得1美分(約7分人民幣)報酬。

除了這些簡單易懂,點一下鼠標就能完成的任務,在 MechanicalTurk上還有更多高要求的標註工作。

比如,有一個任務要求標註者看10秒鐘視頻,並用一句話描述視頻裏的內容。在描述時,不能出現拼寫和語法錯誤,也不能加以主觀臆斷,在囊括所有重要內容的同時又不能描述太多不重要的細節。

而實現這麼一個高要求的任務,發佈者只需要付出0.3美元賞金。

儘管任務複雜報酬低廉,MechanicalTurk上的任務還是供不應求。一些低要求的工作被放出來不到十秒,就被搶光了。

截至2011年1月,MechanicalTurk上的註冊工人數量已經達到了50萬,在這些人的幫助下,有無數資金不充裕的人工智能研究得以實現。

此外,在網站輸入驗證碼時,其實我們也在順便做數據標註,只不過得不到報酬罷了。

而其實, MechanicalTurk(直譯爲機械土耳其人)的名字早就劇透了人工智能訓練的本質。

1769年,初代 MechanicalTurk的發明者——匈牙利機械師沃爾夫岡·馮·肯佩倫製造了一個“能戰敗人類”的下棋木偶。這個“智能”木偶在歐洲和美洲幾乎戰無不勝,連拿破崙一世和本傑明·富蘭克林都成了它的手下敗將。然而直到1857年,《國際象棋月刊》才揭露,其實傀儡裏坐了一個象棋國手。

和專業人士合作

衆包模式固然有種種優點,但它的缺點也是致命的。

當我向一位Google工程師朋友提起 MechanicalTurk的時候,他表示“我們不敢用 Turk標註”。

因爲衆包模式,通過 MechanicalTurk標註的數據良莠不齊,花錢標註已經花了大功夫,整理和“清洗”數據又要浪費很多時間。尤其對於很多專業領域來說,普通人根本無法完成數據標註。

2017年,GoogleAI公佈了一項突破性研究成果:通過機器學習技術,AI能夠從病人的視網膜眼底照片中自動診斷出潛在的病變情況,來提前發現糖尿病性視網膜病變,進行及時的治療和預防,讓患者保住視力。

但想要教會AI什麼是正常的眼底照片,什麼是有潛在病變的眼底,這個過程並不容易。

爲了獲得高質量的標註圖片,真正讓AI的診斷水平達到執業醫師的同等標準,Google與印度和美國的眼科醫生合作,創建了含有12萬張圖像的開發數據集,再由3到7名眼科醫生聯合評估圖片中的病變。

最終,共計54名醫生從這些視網膜眼底照片素材中標記出超過88萬個確診症狀。這些圖片和標記全部被用來訓練深度卷積神經網絡,最終使得AI的診斷準確率逼近甚至超越了醫生。

在GoogleBrain參與另一個與壽命預測相關的項目的工程師StevenZhan告訴我,他們的數據集標註工作基本無法衆包,都是交給醫生來完成的。

雖然在未來,AI很有可能發展到“自己教自己”這一步。但目前爲止,大部分的數據標註工作都是由真人完成的。這個工作不像大家想象的那麼簡單,而是充滿了複雜的判定和繁瑣的重複。

而隨着人們對數據的需求越來越高,也有越來越多的人開始靠標註數據爲生。

皮尤研究中心預測,這種零碎的數據標註工作將在未來幾年內成爲美國經濟的重要組成部分。在2016年,有大約5%的美國人通過 MechanicalTurk這樣的在線標註平臺賺錢——這個數量已經超過了優步司機。

在可見的未來裏,人類還將繼續爲人工智能打工。

在中國如此,在美國也一樣。

相關文章