原標題:人工智能背後的“人工”:數據標註時薪縮水一半,欠薪高發

“我感覺兼職標註會越來越容易被替代掉。”來自廣東河源的27歲寶媽西梅(化名)對自己數據標註兼職有一種淡淡的悲觀。從2018年兼職數據標註,西梅的收入已經大不如前。

生活在貴州百鳥河小鎮上的杜珉旭,是數據服務商夢動科技公司的項目組組長,除了每天協同組員完成數據標註項目,他還會抽出時間自學python語言。

西梅和杜珉旭都是AI數據標註員,這是一個需求龐大卻又曾備受爭議的職業。

標註行業給算法提供大量的訓練數據。據IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%~90%是非結構化數據,這些數據經過清洗與標註變成了結構化數據,才能被人工智能所理解。2020年2月,“人工智能訓練師”已正式成爲新職業並納入國家職業分類目錄。

業內往往說,“有多少智能,背後就有多少人工”。門檻較低,又需要大量重複的工作,這一行業生來就屬於勞動密集型產業。爲了降低人工成本,它多數存在於一些偏遠的地區,因而往往與產業扶貧聯繫起來。而重複枯燥的勞動,加之過低的工資,又被人稱“AI富士康”。

機器智能發展到一定階段後,人工是否會面臨淘汰,如果淘汰那相關的勞動力又何處安放?自數據標註行業誕生,擔憂與爭議就沒停過。如今,隨着數據標註行業迭代升級,這些不同工作形式的數據標註員,都面臨着能力升級的考驗。

入行門檻低

前數據標註銷售人員黃明(化名)對第一財經記者表示,作爲勞動密集型產業,標註基地的員工實際上與在工廠上班的人毫無區別。在他看來,一天下來坐在電腦前標註,既繁瑣重複,又給人體尤其是眼睛造成較大損傷,工資還不高。

對於仍然從事數據標註的受訪者來說,他們看法和黃明不盡相同。儘管這份工作在很多人眼裏看似枯燥乏味,他們還是能找到和自己生活、喜好的結合點。

兩年前,西梅由於懷孕而不方便正常上班。她不願跟隨丈夫從事養殖業,辭去淘寶客服的工作後,在網絡搜索“兼職”時發現了一家名爲“愛標客”的網站,也就從那時起,西梅開始接觸了數據標註行業。

愛標客是科大訊飛旗下、連接標客和任務管理用戶的服務型衆包平臺,爲了滿足其資源部或其他合作方數據標註、收集等簡單工作而對外發放兼職。

2018年剛入行時,愛標客一些簡單的打框和轉寫校準項目,時薪在25到40元之間,一個月下來,西梅收入比早前全職做淘寶客服還高。“我比較喜歡打框,這個過程可以邊聽音樂邊操作,方言轉寫校準實在是太考驗人的耐性,我對聲音不敏感。”西梅對第一財經記者表示。

第一財經記者登錄“愛標客”網站,發現了方言轉寫校準、數學解答題檢查、生僻字篩選等任務,需要先申請加入團隊才能領取。其中,示例視頻顯示,轉寫校準主要是調整語音頻譜和語氣空格,用於校準機器轉寫的準確度。

西梅稱,後來隨着做兼職標註的人越來越多,甲方不斷地壓價,愛標客目前大部分項目時薪最多隻有10到15元,有時候可能連10元都不到。

由於時薪降低,她開始加入各種QQ羣,尋找其他外包工作,目前時薪大約爲20元,一個月下來能掙2000元到3000元不等。“養家餬口是不可能的,但是起碼能做點事情賺些錢。”西梅表示。

相比西梅兼職的標註工作,杜珉旭作爲夢動科技公司的項目組的組長,一個月3000到4000不等的月薪,似乎高不了太多。但作爲企業的數據標註正式員工,杜珉旭的精神狀態顯得更自信滿滿。

早在貴州民族大學讀歷史學專業、臨近畢業時,杜珉旭就已經在夢動科技實習。他畢業後選擇在夢動科技成爲數據標註員,一方面是由於對人工智能的好奇,另一方面則因爲應聘的是項目組組長,可以積累管理經驗。

在夢動科技,杜珉旭的主要工作是項目測試,與客戶溝通,同時給組裏標註員培訓,解決項目上的一些問題。平時工作強度不算高,雙休以及偶爾加班,公司不僅提供免費住宿,管理層住宿還提供空調、冰箱、洗衣機,讓他在生活方面有所保障。

杜珉旭對第一財經表示,在夢動科技從事這項工作的同事,精神狀態各有不同。約30%的實習同事對人工智能項目、大數據行業等都頗感興趣。但作爲勞動密集型行業,重複性標註或錄製的過程較爲枯燥,也使得有些同事未能適應職業而離開,崗位流動率約爲10%。

杜珉旭稱,這部分人在做數據標註中,往往對行業瞭解比較淺顯,有些僅是爲了掙錢,對行業動態則較少關注。

黃明後來跳槽到了一家做激光雷達的創業公司做銷售。在他看來,數據標註行業好處之一,是能對接到許多高端企業,以最低門檻接觸到人工智能領域。

他們的共識是,對於帶孩子的寶媽、農村待業人士,甚至一些殘障人士,數據標註員不失爲一份可以接受的工作。

衆包模式下質量與權益問題俱增

中國的數據標註行業最早可追溯到2005年,著名計算機視覺專家、人工智能專家朱純松從美國回到了故鄉湖北鄂州,創辦了蓮花山研究院,籌建據稱是當時世界上最早的大數據標註團隊。

2015年,隨着人工智能巨頭的崛起,數據標註和採集需求激增,市場真正意義上開始形成。許多數據服務公司作爲乙方進入到日益擴大的市場,爲百度阿里等大型互聯網公司,以及AI獨角獸企業等服務。

截至目前,數據標註產業已經遍佈全國,以第三方數據服務商、巨頭佈置基地和衆包模式呈現,例如百度山西的AI數據標註基地、貴州百鳥河的夢動科技、河北和安徽的數據堂基地,以及河南的千機數據、睿金科技,河北淶源縣東團堡村等。

夢動科技數據服務事業部總監曾芸對第一財經記者介紹,夢動屬於獨立的數據服務商,聯動貴州盛華職業學院,對學生以產教融合的方式進行數據標註的教學和培養,從大量的實習生開始,逐漸選拔出能夠適應數據標註員工作的正式員工與管理人員。

而如同西梅的“兼職工作”,數據標註最開始的蠻荒發展,由“衆包”模式而興起。這些衆包平臺上一端對接項目需求公司,另一端對接大量有空餘時間的志願者(兼職人員)。這種衆包結構的優點是可以組織社會上的大量兼職人員進行標註,節省公司的運營成本。

衆包存在的弊端也較爲明顯,分散的兼職人員,專業背景和工作能力參差不齊,溝通成本高昂,數據保密也相對困難。一旦需求公司要調整原有標註需求,兼職人員流動性大,無法靈活服務需求公司。

西梅告訴第一財經,今年3月份疫情高峯時,她曾約到一家外包公司,據稱當時一天大約數據產值能達200元,算下來一個月五六千左右工資。但真正開始測試時對方就在不停地催產量,後來由於數據驗收不及格打回來返工,一個半月的時間返工了兩次,最後西梅僅拿到了400多元。

據瞭解,衆包模式的資源對接往往通過一些微信羣或QQ羣。記者在QQ上搜索“數據標註”,發現了兼職羣、項目資源對接羣,經驗交流分享羣等大大小小的數據標註羣。順手加入了幾個羣后記者發現,羣內都比較活躍:羣友們經常發佈項目,尋找兼職,並且每隔一段時間都會有新成員加入。同時,記者時不時地在羣裏看到一些標註員被項目甲方拖欠標註工資的投訴。

衆包模式也是大量數據標註員工資普遍較低的原因之一。黃明對第一財經表示,經過多層中介後,每個中介都在賺差價,因而導致的甲方成本較高,實際上真正標註的人掙的錢就比較少。

一些做得好的數據標註員則更傾向於籌劃組建團隊,尋找資源單幹。而這些情況越多,一方面使得數據標註行業發展快速,另一方面則造成了行業衆包中介層疊越來越嚴重。

對於數據標註員而言,行業的轉型升級也意味着自身能力的轉型升級。中國信通院報告指出,現階段AI應用研發,數據標註是根本,10年之內都要依賴於標註數據。

至於機器什麼時候能夠取代人工數據標註,至今仍沒有人能說出明確答案。但第一財經記者看到,在數據標註各式各樣的QQ羣裏,依然每天不斷出現新的項目需求和個人兼職的信息,依然不斷有關注數據標註行業的大量討論。

相關文章