【嘉勤點評】騰訊發明的基於人工智能的標題黨識別方法,通過融合採集到的媒體特徵和文本特徵,得到具有更多信息的高維特徵以分析是否爲標題黨,這種多模態特徵計算的方案相比於手工特徵要更加地準確以及便捷。

集微網消息,在生活中,我們經常可以聽到“標題黨”這三個字,通常這樣的標題黨會使用吸引用戶眼球的標題來增加點擊量,但是其內容質量卻往往不高,因此會讓讀者有種“上當受騙”的感覺。

隨着***的湧現,網絡上出現了很多由個人以及小團體運營的服務內容,這其中就不乏有很多的標題黨。爲了更大程度地吸引用戶瀏覽上傳的媒體數據以獲取流量,標題黨們往往會將標題設定爲較爲吸引用戶的內容,但是該標題反映的內容往往過分誇大,脫離了媒體數據的真實內容,來惡意引起用戶點擊和播放。

而今天我們帶來的專利技術,則恰恰是針對於這個問題。在2019年9月17日,騰訊申請了一項名爲“一種基於人工智能的標題黨識別方法和相關裝置”的發明專利(申請號:201910877080.1),申請人爲騰訊科技(深圳)有限公司。

該專利採用人工智能方法,可以智能地對於標題黨媒體進行識別,根據目前公開的相關資料,讓我們一起來看看這項方案吧。

如上圖,爲該專利中發明的標題黨識別方法的應用場景示意圖,該方法主要應用在服務器端,如圖中的服務器101,通過其獲取待識別媒體數據,待識別媒體就是上傳者上傳至媒體平臺、需要被識別是否爲標題黨媒體的數據,其中包含着上傳內容、標題和文本信息等。我們可以推測,該服務器專門用於識別媒體數據,當用戶上傳內容時,首先會經過該服務器的處理,然後再將合格的媒體內容傳遞到數據庫服務器中。

待識別的媒體特徵包括有媒體特徵和文本特徵,這兩者從不同的維度體現待識別媒體數據的特點,服務器會對於這兩個特徵進行融合,從而得到多模態特徵,這種數據是一種高維特徵,其中蘊含有更加豐富的特徵,能夠從多個維度表徵識別媒體數據的特點。因此,該方案才能夠根據多模態特徵計算待識別媒體屬於標題黨的概率,而以概率確定待識別媒體數據是否屬於標題黨會更加精準。

如上圖,爲具體的標題黨識別方法的流程圖,系統首先獲取待識別的媒體數據,包括視頻、音頻和文字等內容,接着利用媒體分類模型來確定待識別媒體數據的媒體特徵以及媒體數據的文本特徵。由於標題黨實際上就是標題信息等文本信息對媒體內容過分誇大,與媒體內容不相符,因此,爲了確定待識別媒體數據是否爲標題黨媒體數據,就需要提取這兩個特徵。

其次,服務器會對媒體特徵和文本特徵進行融合以得到多模態特徵,融合的方式例如使用雙向注意力機制對媒體特徵和文本特徵進行融合。最後,根據獲得的多模態特徵,利用標題黨分類模型計算待識別媒體數據屬於標題黨媒體數據的概率,再根據概率來判斷是否屬於,如果大於設定的閾值,例如概率大於0.5就認爲其屬於標題黨媒體。

以上就是騰訊發明的基於人工智能的標題黨識別方法,該方案利用採集到的媒體特徵和文本特徵,利用人工智能技術進行特徵融合後得到具有更多信息的高維特徵,能夠從多個維度表徵識別媒體數據的特點,因此根據這種多模態特徵計算是否屬於標題黨會更加準確,從而提高了標題黨的識別能力。

(校對/holly)

相關文章