互聯網之“冷”與人工智能之“熱”

10月中旬以來,多家互聯網知名公司被曝出大規模裁員消息,不管是以“業務調整”爲藉口,還是以“人員優化”爲理由,互聯網行業就業景氣程度大不如前是不爭的事實。根據《中國就業市場景氣報告》顯示,今年第三季度的招聘需求人數與去年同期相比下降了27%,出現了八年來的首次下降。

在互聯網就業市場一片陰冷之中,人工智能卻成爲了最火的熱詞,從政府工作報告到行業峯會大會,再到技術應用落地,我們見證了人工智能引領變革、帶來生機的一次次驚豔表現。人工智能專業應屆生動輒50萬的年薪刺激着無數人的神經,而在人工智能光鮮一面的背後,作爲算法優化過程的重要一環——數據標註,目前全職從業者已達到10萬,兼職人羣的規模更是接近100萬。

截至2018年6月,全球人工智能企業已達5000餘家,中國佔據五分之一之多。AI企業的核心要素除了算法便是精準標註過的數據,這也催生了中國大量標註公司、標註團隊出現。據不完全統計,除去人工智能巨頭本身擁有的數據標註團隊,國內專業的數據標註公司超過50餘家,大大小小的外包團隊超過500家,AI的火熱可見一斑。

精度、效率與門檻:圖像標註業身上的“三座大山”

數據標註的精準性對算法優化結果起到了決定性作用,這就要求數據標註必須高質量完成。而產品研發的緊迫性、行業競爭的白熱化決定了標註數據的產出必須極其關注效率,可能一次數據標註的拖延就將導致產品上市的滯後,造成競爭力下降,甚至直接危及初創企業的生死存亡。

在圖像標註領域,擁有自主標註平臺的數據服務公司本身就不多,而目前國內圖像標註平臺普遍採用的還是兩種標註方式:打點連線和PS技術。打點連線就是沿着要標註的物體邊沿打上足夠多的點,然後通過連成線標註出對象輪廓。這一方式門檻低但極其繁瑣,只適用於交通線等直線標註標註效果也不夠理想。另一方式是通過PS等畫面處理技術標註,准入門檻較高,只有深度掌握PS等繪圖技術才能夠進行,標註時間和人力成本高,且導出格式單一,達不到客戶要求,成爲制約圖像標註時效和質量的一大瓶頸,也成爲普通數據標註員的一大心病:明明有標註任務和需求,卻因爲難以掌握相關技能而失之交臂。

如何在降低標註成本的前提下提升標註精度和效率,不僅成爲標註行業本身的一塊心病,也成爲整個AI產業發展的制約。可以說,誰能夠突破制約,找到解決之道,誰就能在激烈的標註業競爭中站穩腳跟,實現長足發展。

臨危受命:他們遇到標註以來最大挑戰

普通標註:邊緣處理較困難,精度低

作爲數據採集和標註領域的領軍企業,北京安捷智合科技有限公司(龍貓數據)在AI發展中積累了大量經驗,服務過超過100家的AI大型公司,累計提供行業解決方案超500個,並自主建立起國內第一個數據+算力的AI綜合服務平臺,爲AI發展做出了突出貢獻。

然而任何企業的發展都不可能一帆風順,特別是正在快速成長期的公司。就在前不久,龍貓數據遇到了開展數據標註業務以來最大的挑戰。某客戶爲了產品能夠趕在競品之前上市,要求龍貓數據在一週內爲他們提供超過5萬張的精細標註圖,內容涵蓋汽車、道路、自然風景、人臉等多個項目,且標註精度要求極其高,標註圖像的邊緣必須達到PS標註級別。

如果只是小批量標註,或許還可以找到足夠多懂得PS技術的人來完成任務。但面對如此大的需求量,面對如此緊迫的任務週期,就連龍貓經驗豐富的項目經理也感受到了巨大的壓力。“用PS肯定標不完的,人不夠,時間也不夠”,這是出於經驗的判斷。他們馬上找了一批打點標註的人進行精細標註,想通過更多人蔘與解決問題。

標註結果剛傳到客戶手裏就馬上引來不滿,“這樣的標註怎能達到我們的要求?你們還想不想繼續合作?”

化壓力爲動力,從創新處找答案

超像素分割標註:精準,高效,簡單,

面對客戶的高標準嚴要求,有些人打起了退堂鼓。“要不這項目我們不做了?我們有那麼多項目,這個不做我們也沒什麼損失”。在產品、技術、運營的聯合會議上,負責人明確告訴大家:“這項目我們必須做,哪怕花再大代價,我們也要讓客戶滿意,這是龍貓一直堅持的信念!再說這個我們不做,國內恐怕也沒有第二家能夠按要求做出來”。

負責人的態度感染了每一個人。大家都在努力想辦法,但按照目前的現實情況,想要實現承諾真是天方夜譚。產品團隊在會後進行頭腦風暴,集思廣益尋找思路。但囿於國內標註現狀,大家想的還是傳統的解決方法,很難從根本上解決問題。

這時候,團隊的一名“老隊員”——他在公司成立半年後就來這兒工作了,說道“要不我們考慮下超像素分割?”

所謂超像素分割,指的是將數字圖像細分爲多個圖像子區域(像素的集合)(也被稱作超像素)的過程。超像素是由一系列位置相鄰且顏色、亮度、紋理等特徵相似的像素點組成的小區域。這些小區域大多保留了進一步進行圖像分割的有效信息,且一般不會破壞圖像中物體的邊界信息。

超像素分割的結果是圖像上子區域的集合(這些子區域的全體覆蓋了整個圖像),或是從圖像中提取的輪廓線的集合(例如邊緣檢測)。如果能把技術用在圖像標註上,不僅標註精度將會大大提高,標註對象邊緣將會更加精確清晰,標註時間也將大大壓縮。最重要的是,完成這種精度的標註,完全不需要再借助PS等圖像處理工具,將有更多標註員有機會參與進來,完成這項任務也就不再困難。

大家會心一笑,方案找到了意味着:可以加班了。所有人都意識到這兩天將是特別難熬的兩天,但黎明前最黑暗,這也是創造標註“歷史”的時刻。爲了趕工期,技術的同事通宵達旦,設計標註標籤、像素區塊畫筆,設置畫筆大小範圍、提供接口……一步步有條不紊的進行着,兩天兩夜滿滿的工作後,終於在第三天,測試工程師在羣裏告訴大家:標註新功能上線,超像素分割,歡迎使用。

產品笑了,運營忙了,技術睡了。

寒冬裏的一把火:上萬標註員因此獲益

採用了超像素分割標註方法之後,原來那麼多彎折的曲線再也不用挨個打點連線,簡單的塗塗畫畫就標註完了。對於標註員來說,最直觀的提升是工作的趣味性,“祕密花園這個遊戲你玩過沒有,現在標註就像是玩這個遊戲,把對象選出來塗上不同的顏色,比起枯燥的打點有意思多了,你們怎麼不早上線這個功能呢?”標準員小穎笑着說道。

甲方覺得一週的時間也確實有些短,但沒想到的是龍貓數據竟然提前一天“交了卷”,看着標註的圖像,他們驚訝的說,“你們是怎麼做到的?全景圖標的這麼細緻,比我們要求的精度還要高,邊緣處理的也更好,真沒想到可以達到這種效果,我都能想到我們的AI工程師看到這些圖開心的表情了!”

客戶還表示,有了這樣的產出質量和效率,他們就可以投入更多在產品研發和落地上,以後將要採集標註的數據也會更多,無論是對數據服務行業還是對整個AI產業,都將起到相當大的推動作用。

超像素分割不僅提升了標註的質量,實現了打點連線標註無法達到的精度,更是極大提升了標註效率,小穎介紹說,之前用打點實現的標註效果,現在用新技術標註,在一半不到的時間裏,就可以實現比之前更好的效果。如果用PS等工具進行標註,需要的時間往往比打點還要高。

“之前看他們會使用圖像處理軟件進行標註的很羨慕,但太複雜,也學不來”,春亮說,“現在那些精細標註的高額任務我終於也能領了,並且完成的比他們還好還快,自己的收入有了明顯的提升。”

據保守估計,超像素分割降低了圖像標註工作門檻之後,將有數萬人因此獲益,成爲“一切圖像皆可標”的“萬能標註員”。

查看原文 >>
相關文章