(原標題:城市與社會 | 人工智能數據標註,標註的是誰的未來?)

人工智能時代,數據標註已經成爲一個新興產業,其上下游相關業務涉及機器學習、虹膜識別、人臉識別、無人駕駛等技術。然而數據標註真正的核心是大量人力投入的標框工作。

目前關於數據標註行業的研究還較爲缺乏,更多的是媒體調查報告對該行業的描述。比如,諸多媒體都將該產業定義爲勞動密集型,也通常將它與富士康進行類比,稱其爲“人工智能領域的富士康”。

作爲長期觀察中國互聯網產業發展的一員,我對這個“人工智能領域的富士康”中的從業者羣體產生了極大的興趣:他們究竟是誰?他們真的是人工智能時代的流水線工人嗎?

圖1: 正在標註中的“產教融合”實習生們。文中圖片均由作者提供

在對貴州的“未來”數據標註公司進行爲期一週的前期田野調查過程中,我發現,未來公司的從業羣體畫像與已有媒體報道有所不同:未來公司的高級管理層以未來職業學院的老師爲主;中級管理層以該校畢業的學生爲主,其中少部分是來自貴州其他院校的本科畢業生;公司裏的標註員基本上是來自貴州二十幾個院校“產教融合”的實習生以及部分社招人員,其中以未來學院“產教融合”的實習生爲主。

標註員一般分爲四類:全職的中層管理者,頂崗的實習生,跟崗的實習生和半工半讀的學生。頂崗實習生大多是因應教育部的產教融合模式而產生的爲期一年的大三實習生。跟崗的多爲僅三個月實習的大二學生。半工半讀的實習生多爲未來學院的少數民族貧困生。

據未來公司的一個項目組長小劉介紹,一條數據標註一般由數據標註員、初審員、終審員三個人共同完成。系統會隨機派發詞條給數據標註員,標註員完成標框以後,會由對應的初審員審覈,再交由終審員審覈,最後提交系統。這三者的比例是5:1:1或6:1:1。

也就是說,一個終審員對應一個初審員和五到六個數據標註員。三者之間存在連帶關係:初審員和終審員的薪資按照他們手下標註員平均工資來計算;如果其中一個詞條連續三次出現錯誤的話,系統會自動回收詞條,負責的組長也會找小團隊談話。

數據標註實習生的身份認同:90後?少數民族?

在去往貴州的路上,我不可避免地充滿了許多關於少數民族的想象,甚至一度將它作爲田野觀察中的一個重要標籤。有趣的是,儘管未來公司過半的實習生是少數民族學生,在爲期一週的前期觀察中,我居然有一種未能抽離日常教學工作的觀感:似乎我面對的仍是上海的大學課堂上的那班95後學生。不管是對於工作的認知與自我定位,還是對於未來的想象,這些少數民族的95後學生自始至終將“90後”的身份認同優先於民族身份認同。

圖2:數據標註員們正在就餐午休。

未來公司的另一個項目組長小回告訴我,“現在80後是社會頂樑柱,90後賺錢資歷不夠,有點心高氣傲的,就業和擇業選擇性比較強,所以比較尷尬……其實我們現在90後除了錢還是錢……情懷是什麼東西就不知道了。你看以現在的物價,結婚就是二三十萬,我要工作多久才能賺到20萬?……不管你是哪個民族,目前我們最重要的目標就是賺錢。”

“爲自己幹”是我在訪談過程中聽過最多的未來公司的文化。比如公司的標註員小布就不斷強調公司並不要求實習生加班,大家都是“自願”加班:有些女孩子爲了拿到一個月一萬多的計件工資,甚至會選擇每週工作七天,每天工作11個小時。

批判學研究往往會將這類敘事方式看作典型的“自我剝削”(self-exploitation)的一種外在形式——公司或管理者通過授予文化工作者一定程度的創作自由和空間,諸如掌握自己的工作時間、地點和形式等,並對員工進行“自我管理”的培訓,用以控制他們。公司和管理者往往通過這種方式將風險和責任下放到個人身上。

此類方式見諸於社會各個領域,上至美國社會典型的“個人成功論”,下至互聯網公司的靈活上班制度,同樣地,也得到了這些90後少數民族青年的認同——類似於“談話”和“爲自己幹”的心理疏導與情感交流成爲了管理這些學生的主要方式。

和我在上海高校面對的95後大學生一致,這些90後的少數民族青年也對創業充滿了熱情。雖然創業的內容與上海的羣體有些許不同,比如因應貴州當地特色,更多青年的創業夢想集中於農村淘寶、電子商務層面,希望通過將當地農產品互聯網化來實現助農脫貧。

但是,這些青年對於通過創業實現自由的渴望與大城市中的90後創業青年們並無不同。與上述“爲自己幹”這類虛幻的“自我控制”類似,這種對通過創業來掌控自我命運的自由的追尋使得這些青年更爲鞏固了90後的身份認同。

關於民族身份認同,小布表示,他們這一代的少數民族往往已經不會說本族語言,對本族的文化儀式也沒有太多參與感。對於這些青年來說,區分他們的已不是民族身份,而是教育程度。

“如果沒有受過比較好一點的教育的話,他可能會比較死板……接觸新東西都感覺有點恐懼……你受過這些教育的話,和他(沒有受過高等教育的同民族小夥伴)就交流不了多少。交流的話,他就講那幾樣……你在公司裏面發現,小夥伴之間還是有很多可以交流的。”

當身爲布依族的小布用堅定的眼神告訴我“教育真的能改變人生”的時候,我決定臨時改變行程,在之後的幾天走訪少數民族村寨去實地瞭解這些青年所處的文化氛圍。正是因爲受教育程度的分化,使得這些90後少數民族青年,相較於他們的長輩來說,更歡迎這些和人工智能相關的企業入駐當地,也更願意通過這份工作標籤他們的 “90後青年”這一身份。

“我在爲人工智能添磚加瓦”

大部分現有媒體報道將數據標註工作類比於富士康工作的一大原因是認爲前者的勞動過程出現了異化(alienation):勞動者即數據標註員失去對工作的控制,對工作內容和成果毫無參與感。

與之相反,我所接觸到的青年們對這份工作的認知是“人工智能工程的一個基礎建設性工作”,對自我身份的認知是“智能人工”、“人工智能背後的訓練師”。而“無人工不智能”也是這羣青年常掛在嘴邊的一句話。儘管很多青年從事這份工作的動力之一是在當地相對優渥的報酬,但是對於自己能加入到人工智能的大潮,爲未來人工智能的實現做出一份貢獻的自豪感也是他們繼續這份工作的動力。

小劉告訴我,“比如說我們做百度的工作之後,看到百度無人車在路上行駛的時候,確實會有一些自豪感。因爲這個東西有我參與的一部分,能影響人類社會。”其他受訪者也表示了類似的想法。

這種參與到人工智能發展過程中的自豪感或多或少也讓這些青年將自己有意識的區分於富士康的同齡人。在他們看來,富士康更像是傳統高職院校學生們會加入的、和電子廠類似的工廠。也許這種區分感在日復一日的標框工作中顯得並不那麼明顯,但是真正有所區分的,或許是這些青年言談間流露出來的對於人工智能發展的高度期許以及對自身價值的肯定。

小回說,“機器越發達,就會讓勞動力流失越嚴重……比如我們現在研究無人車,以後無人車研究成功了,就很少用人工了,但是其他項目就會發出來……需要我們的學弟學妹去處理這些數據……我覺得機器不能完全取代人。”

未來公司的一箇中層管理者小天也表示,“之前我特別迷茫,覺得每天做勞動性、重複性的工作和流水線有什麼區別……瞭解接觸多了之後就會發現其實AI它能夠實現數據初步的信息識別,能夠完成60%、70%,但還不夠精準,需要人工去校對和標註。未來,當它達到一定的高度之後,我們簡單重複性的工作肯定會被替代,同時又會產生很多新的工作崗位。”

和已有的媒體報道有所區別的是,這些從事數據標註第一線工作的青年們對於未來並不茫然,大多數人都堅信人工智能發展的未來會衍生出其他新的工種,而他們還是會有一席之地。正如小布所說,數據標註不過是一份自己正在從事的工作,“機器換人”的未來與自己換工作並不構成直接的因果關係。

留守的童年,智能的未來?

事實上,在小劉提及他作爲留守兒童的經歷對他擇業的影響之前,我的研究計劃中並不涉及貴州的留守兒童這一特殊現象。當小劉提及數據標註這類與人工智能掛鉤的工作也許可以在未來改變貴州青壯年勞力常年外出打工的現狀,以此減少未來留守兒童的人數時,我決定臨時更改研究計劃,前往當地幾個少數民族村寨。

我驚訝地發現這些村寨的青壯年勞力幾乎處於缺席的狀況:三三兩兩的孩童在街頭、水庫邊、山路上玩耍,並沒有任何大人監管;十幾歲初中生年紀的苗族、布依族少年少女們大多騎着摩托車或是電瓶車載着更小的孩子在村道上快速飛馳。

圖3:村寨小賣部門口的布依族老奶奶和孩子。

圖4: 騎着摩托車和電瓶車的苗族少年們。

在去往一個村寨的半山腰上,我遇到了放假留守的三個苗族小學生,健談的小學生告訴我,他們的苗寨目前大概還有十幾戶人家,很多孩子都被送到鎮上的親戚家,村寨現在只剩下五個小孩。平時他們寄宿在近兩百公里以外的學校裏,現在放假才被接回村中給家裏放羊。

在又路遇了放假在家修房子的苗族初中少年們以後,我才得知,一直以來在媒體報道中看到的“小候鳥”(暑假被接去父母打工所在地和父母團聚的留守兒童們)在貴州的這些山區中並不普遍。一個原因是在外地打工的父母經濟上無法負擔接送孩子來回並且臨時照顧孩子可能產生的誤工費等等。另一個原因則是,這些孩子們在假期往往需要留在家中幫年邁的爺爺奶奶們做家務,比如割豬草、放羊、餵豬等等。

正如小回所說,即便這些父母知道留守兒童存在很多問題,會對孩子的未來造成影響,但是他們也沒有選擇:如果留在當地,有限的收入很可能讓他們無法維持生計,甚至因爲當地普遍的外出打工現狀,留家務農還會導致鄰里取笑父母沒有上進心這類輿論壓力。

從教於貴州當地最大的公立職業院校之一的洪老師反映,目前國家對當地的扶貧項目在基礎建設方面已經頗有成效,比如我一路上所見的修建完善的盤山公路和房屋整潔的村寨。

當地目前真正面臨的問題是,如何引科技企業入駐,培養相應的人才,進而實現讓當地人在當地就業。小回、小布和小天都提及,貴州在政策上成爲大數據產業發展的熱土以後,類似數據標註這種和大數據、人工智能密切掛鉤的工作成爲他們對於未來的期許:也許他們這一代能因爲新產業的進駐與發展而留在故鄉,也許他們的下一代不會成爲留守兒童。

未來也許可期?

不可否認,產教融合的模式在數據標註這個行業中還有很長的路要走,實施過程也需要更多第三方的監督。這些也將成爲我們接下來的研究重點。然而,與簡單粗暴的將這些青年等同於富士康工人或是高科技時代的流水線工人不同的是,我們更應該看到他們的內部動態結構:他們對這份工作的認同感;他們從事這份工作背後的社會動態因素;他們對人工智能的認知與預期。他們清醒地意識到自己在從事一份什麼樣的工作,也明白未來可期的是什麼。

作爲長期從事批判研究的一員,此次前期田野調查也幫我突破了長久以來的研究瓶頸:批判研究並不是單純的找問題、挖掘問題,也許我們也需要反思,關於我們能做些什麼來解決這些問題。

數據標註行業、人工智能、扶貧、留守兒童等等,亟待我們解決的,更多的也許是政策落地實施過程中出現的問題,以及如何切實地解決這些落地問題。

杜碩 本文來源:澎湃新聞 作者:夏冰青 責任編輯:杜碩_NB12556
相關文章