(全球TMT2020年12月29日訊)近日,北森獲得國家知識產權局授權的AI簡歷解析相關技術發明專利 -- “一種基於深度學習的簡歷解析方法和系統”。該項專利技術由北森成都總部相關團隊研發,專利期限爲20年,將被用於招聘場景下大規模、多類別、複雜簡歷的智能化解析。

本次申請的是北森簡歷解析的核心技術專利。無論是招聘網站的固定格式簡歷,還是候選人郵箱投遞的表格式、自由格式簡歷,甚至是移動端拍照上傳的圖片簡歷,該技術可以從任意格式的半結構化文檔簡歷中,提取候選人的個人信息、工作經歷、教育背景等字段信息,以支持後續搜索、篩選、智能推薦等工作展開。

相比於目前市面上常見的簡歷解析技術,北森實現兩大突破。

其一,字段提取方法上,使用獨立的語句切分+文本分類模型替換序列標註。

同類的其他技術在提取字段信息時,是通過序列標註模型來識別目標實體的起止位置和類別,這種方式會增加任務的訓練難度,對訓練數據也有更高要求。

北森則利用“半結構化簡歷的佈局通常更明晰,字段之間會以空格、冒號等隔開”的特點,將字段的提取分爲語句切分和字段類別識別兩個階段任務分別建模實現。相比於以往,該方法可以提取長文本字段,讓起止位置的識別更準確,並且能夠支持上百種類別識別。

其二,使用句子粒度的區塊和分條模型替換詞粒度的分類器。

在從簡歷中確定個人信息、教育經歷、工作經歷等區塊的位置時,同類技術最好的方法是以詞爲粒度,每行文本獨立地通過文本分類模型得到區塊類別。但是這種技術在遇到相似的信息時,比如相似的實習經歷或工作經歷,容易出現判別錯誤。

實際上,通過大量分析簡歷發現,簡歷的每行內容屬於哪個區塊是有一定相關性的,即當前行屬於哪個區塊會受到上一行和下一行內容的影響。所以,北森提出區塊和條目識別模型的序列標註,以句子爲單位進行輸入,且包括類別信息,可以在建模過程中直接捕獲到前後幾行對當前行的影響,大大提升準確率。

“基於深度學習的簡歷解析方法和系統”將進一步在北森的招聘產品及服務中進行應用。通過在內容提取、類別識別等各個方面的優化,相關產品將創新性推出更準確、更全面的簡歷字段解析體驗;同時,北森會針對渠道簡歷、獵頭推薦簡歷等樣式較固定的簡歷提供瞭解析配置,遇到個別字段解析出現問題可以快速響應,快速兼容,影響小上線快,給客戶更好的技術支持體驗。

相關文章