原標題:揭祕人工智能訓練師:用數據“餵養”機器人5年,AI長大了,我卻遇到天花板

來源:時代週報

5年前,巫偉成怎麼也沒有想到自己的工作會和人工智能扯上關係。

巫偉成本科就讀計算機專業,畢業後在一家外包呼叫服務商做客服組長,後來偶然間接觸到一款智能客服產品。在此之前,公司只有人工客服業務。

從未接觸過人工智能的巫偉成驚訝於客服機器人的效率,“當時我看了一組數據,說客服機器人能取代多少人工客服,就覺得它一定是未來。”

抱着這樣的想法,巫偉成到了一家電商公司做高級知識庫管理員,工作內容相當於AI訓練師。

巫偉成提到的智能客服產品是阿里2017年發佈的“店小蜜”,一款專門針對商家研發的人工智能客服機器人,能7*24小時在線,全年無休,緩解了618、雙11諮詢高峯期人工客服不夠用的問題。

伴隨店小蜜出現的還有第一批AI訓練師羣體。2020年3月,AI訓練師被人力資源和社會保障部正式納入新職業。這個職業中的大多數人來自客服組長、客戶運營等崗位,此前從未接觸過人工智能,現在卻是支撐人工智能應用必不可少的一批羣體,是人工智能背後的人工。

雖然AI訓練師直接面對的是新興的人工智能技術,但從很多方面看,這都是一份較爲機械和枯燥的工作。訓練師們從上班開始面對的只有一個東西——數據,他們要用大量的數據餵養白紙一樣的機器人,直到他們能聽懂並回答客戶的問題。

巫偉成目前在一家智能客服供應商樂言科技做AI訓練師,負責訓練智能客服機器人,他們的工作包括收集不同行業的客戶需求、提供數據標註原則、設計機器人對話邏輯等。

“這項工作很考驗耐心,我們需要把非常大量的數據進行整合,慢慢地把數據量減下來,還要把數據量轉化成有效的東西,這是一個很枯燥的過程。”

比如做3C產品的客服機器人,巫偉成需要先找行業內較大的店鋪前線客服和銷售人員溝通,收集店鋪和客戶日常的溝通數據和客戶較爲關心的問題,將問題標準化,並提取出行業特徵。

在實際問答過程中,顧客的提問方式千奇百怪。在某智能語音交互公司擔任AI訓練師的陳哲如對時代財經介紹,比如“忘記密碼”這一件事,客戶可能會問“我密碼丟了”“不知道我密碼是什麼”等等,這就需要訓練師們將典型問題標準化,然後編寫一些相似問題進行模型訓練。

收集完數據後,訓練師需要將數據灌入系統中,分解、聚類,再進行數據標註。數據標註是教人工智能認識某個句子的過程,標註內容包括意圖、做分詞等。

比如,“我買的手機殼尺寸不對”這句話,數據標註師們會將之標註到“退換貨”這個意圖中,如果某個句子沒有明確的意圖,便會根據相關的業務知識和使用場景進行標註。

很多公司會聘請專門的數據標註人員或者外包團隊負責數據標註,但在數據量不大或者涉及到較專業的行業知識(如醫學)的情況下,AI訓練師也會做數據標註的工作。

數據標註完成後是對話流設計,當顧客問出一個問題時,機器人需要準確識別其場景或意圖,然後從知識庫中搜索合適的回答或推送相關商品服務。如果說數據標註是讓機器人學習知識,那麼對話流設計就是讓機器人學會運用知識。

要讓機器人準確識別出某個意圖,背後需要有強大的模型和足夠的數據量,巫偉成介紹,一個意圖裏面需要50-100個句子。

對話流設計成功後是日常修復bug的工作。智能機器人只是AI訓練師們用一堆數據堆起來的智能,沒有任何自己思考的能力,當客戶問到數據庫裏未收錄的問題、問話時採用過多的修辭、方言口音過重時,機器人都沒辦法回答,這就需要AI訓練師手動找到問題調整。

“很多人對AI不太瞭解,他們覺得AI是可以達到一個成人智力水平的,但實際上它還處在比較初級的階段。顧客會覺得一個這麼簡單的問題,機器人爲什麼回答不上來,實際上如果模型不行或者初始語料不夠,以及考慮到算法在實際應用過程中的限制,機器人就是不會回答。”會計出身、大學剛畢業就做了AI訓練師的陳哲如說。

在整個工作過程中,訓練師們不需要掌握專業的算法知識,只需瞭解模型的基礎工作原理,如果模型有問題可以與專業的算法團隊對接。

陳哲如所在公司有內部的算法知識分享會,他表示自己有一個“老大”,依靠自學轉型成爲算法工程師,但“那是比較牛的人,大多數人只掌握一些基礎知識。有一些小公司不是通過模型,而是直接通過關鍵詞設置對話流,這就完全不需要算法。”

在提供客服機器人產品的平臺方做AI訓練師,一個難點在於需要持續接觸不同行業的知識,因爲AI落地應用一定會結合到某個垂直領域。比如陳哲如最近在做國家電網的項目,對電網知識完全不懂的他需要持續學習相關知識,否則便無法弄懂用戶的真實意圖。

當客服機器人由平臺方製作好,交到客戶手中,需要商家端的AI訓練師針對具體業務再做優化。

“剛引進來的智能客服只能回答行業通用問題,完全無法用到實際業務中,宛如一個人工智障。比如發什麼快遞、店鋪售後流程、開發票退差價等零碎問題,都需要我們繼續優化。”趙雲峯說,“有時候甚至會出現一些離譜的錯誤,比如客戶問‘什麼時候發貨’,它會識別成‘什麼東西好喫’”。

趙雲峯本科畢業於交通工程專業,此前在阿迪達斯電商服務部做數據分析,因一個偶然機會接觸到智能客服,2020年前後轉行到生鮮零售電商杭州大希地公司做AI訓練師。

AI訓練師趙雲峯剛來時,公司還沒有AI訓練部門,只是因爲趙雲峯的數據分析工作看起來和AI訓練師有聯繫,便被拉過去負責這項業務,沒有任何經驗的他從0到1摸索着搭建起了該部門。

剛開始,趙雲峯整天泡在客服人員旁邊,看他們怎麼回覆客戶問題,在哪些節點推薦商品,哪些節點發送關懷語,然後將這些數據模型化,配置話術放到機器人知識庫中。

2017年時,AI訓練師還是一個剛剛興起的職業,沒有同行可以參考,趙雲峯一開始走了不少彎路。比如,電商店鋪經常凌晨舉辦活動,需要機器人回答一些有時效性的問題,但他們不知道怎麼預設回答,只能半夜兩三點爬起來更新話術。

經過4年多發展,公司的AI訓練部門已經走入正軌。與平臺端的AI訓練師一樣,商家端的AI訓練師也是每天和數據打交道,主要工作就是對話流抽檢,找出錯誤的對話,解決問題或將問題反饋給供應商。

遇到最多的問題,還是機器無法理解人的語言導致的對話流紊亂,背後原因是客戶提問方式有太大的不確定性。

趙雲峯介紹,人在線上說話經常會分段說。比如客戶在問發貨問題時可能會先說“今天上海來臺風了”,機器人的底層邏輯決定,必須要對客戶發出去的每一句話回應,當客戶的話沒有實際的指向時,機器人可能會默認到錯誤的話術場景。

當客戶說話有太多語氣詞或者形容詞時,如“我想要一件適合現在穿且防水的衣服”,機器人都會推薦錯誤,這時候一些沒有耐心的客戶可能就直接不買了。

碰見無法被識別的對話時,訓練師需要在系統裏添加新的問答和相似問題,最多一天需要處理10個對話流紊亂的問題,大約花費2小時的時間。趙雲峯表示,處理對話問題時,最大的難點實際上在於公司內部溝通不順暢,訓練師往往沒辦法及時更新商品信息。

與平臺端AI訓練師不同的是,商家端AI訓練師更需要關注智能客服是否給品牌帶來了業績提升,並在此基礎上,優化智能客服和提升品牌的服務能力。

比如品牌端的智能客服要對客戶追單,訓練師需要跟蹤追單效果,若效果不好則要更新智能客服的追單話術,或者輔之以圖片、視頻。這些都要求訓練師本身有營銷相關的知識。

此外,商家端訓練師在訓練機器人時還要考慮品牌調性和人文關懷。比如杭州大希地公司的主要客戶是白領和精緻媽媽,客服機器人就需要用“家庭風”的語言回覆,比如“這款食品特別適合寶寶食用”。

團隊能夠正常運營後,趙雲峯沒有再繼續做AI訓練師,而是開始在探索電商行業的數智化運營方式,例如數智化營銷、智能客服、虛擬主播等。

巫偉成也轉任了產品定義主管。在平臺端,從AI訓練師到產品經理是最爲普遍的職業晉升道路。

AI訓練師並不需要特定的專業知識,所以作爲一份新職業,並沒有專業的人才輸送路徑,人才來源也較爲多元。

會計專業出身的陳哲如表示,自己剛來公司時,身邊同事“學什麼的都有”。不過,這幾年崗位也在慢慢“內卷”,最近一段時間他發現新來的同事都有一定專業背景,包括一些善於處理文字語句的漢語言文學專業,以及計算機背景的畢業生和有相關行業知識的人才。

趙雲峯則坦言,從團隊搭建到現在的5年間,公司AI訓練師人員和工作內容都沒有太大變化。其團隊人員大多來自於客服崗位,“客服培訓一個月就完全有能力上崗,能做一些比較標準化的日常運行工作。所以這個行業並不缺人,但缺高質量人才。”

他表示,客服做AI訓練師基本都有思維定式,很難跳出原本工作框架。所謂高質量人才是指,不止能做日常的運營,還能追蹤前沿技術,把技術和業務相結合,且能想到哪些新產品能對提升公司業績有幫助。

趙雲峯所在的公司已經從不關心這個職業到逐漸重視AI訓練師羣體,但AI訓練師在公司並不是價值較高的人才。“目前AI訓練師還只是圍繞智能客服這個產品去做運維,沒有涉及到更深層的一些東西。”

另外,雖然AI訓練師有統一的職業名稱,但工作內容卻不同。陳哲如去年因自身特殊原因換了三四份工作,他發現,不同公司實際工作內容會有很大區別。

“一些AI技術不太成熟的公司,訓練師更多會做一些數據標註或者話術設計的工作。在AI技術較爲成熟的公司裏,訓練師則會參與產品設計和算法調優的工作,這時候雖然同樣被叫做AI訓練師,工作內容已經相當於AI產品助理。”

作爲一份新職業,AI訓練師或許還要一段時間朝更正規的方向發展,“訓練師只是在抓一個產品,始終會有侷限性,會有一個天花板在那。”趙雲峯感嘆。

相關文章