原標題:全球數治 |人工智能賦能網絡虛假信息檢測:新進展與新路徑

近年來,隨着互聯網技術的創新和移動互聯網的深度普及,人們獲取、發佈和傳播信息變得極爲便捷。與此同時,社交網絡平臺用戶數量呈現迅猛增長,範圍覆蓋全球。人們對於社交平臺的依賴日益加深,甚至有不少人以此作爲獲取信息資訊的首選渠道。然而,互聯網和社交平臺充斥大量虛假信息的弊病也在逐步凸顯,不僅破壞網絡生態,還引發了一系列社會問題。鑑於普通民衆準確辨別網絡上的海量信息十分困難,容易受到誤導和欺騙,相關產業和研究界人士紛紛呼籲建立基於人工智能新技術的自動檢測框架,以賦能網絡虛假信息治理。

今年3月,美國蘭德公司官網發表了政策分析師琳達·斯拉帕科娃(Linda Slapakova)的研究

文章《構建基於人工智能的反虛假信息框架》(Towards an AI-Based Counter-Disinformation Framework),分析了人工智能在檢測網絡虛假信息方面的優勢和麪臨的挑戰,並就建立反虛假信息新機制提出了建議。5月,長期致力於研發人工智能檢測虛假信息技術和產品的歐洲知名科技公司Logically的數據科學研究總管阿尼爾·班達卡威(Anil Bandhakavi)博士也在大數據研究門戶網站InsideBIGDATA上發表了評論文章《大數據和人工智能如何助力解決假新聞和虛假信息問題》(How Can Big Data and AI help to Tackle Fake News and Mis(Dis)information

),從技術實務的角度探討了應用大數據和人工智消除虛假信息的新進展和關鍵問題。綜合兩位專家的觀點,我們或可對拓展人工智能應用場景,發展虛假信息檢測的相關路徑形成更加全面和深入的理解。

人工智能檢測虛假信息的優勢和必要性

蘭德公司的琳達·斯拉帕科娃(Linda Slapakova)在其文章中指出,人工智能在賦能治理互聯網日益氾濫的虛假信息問題方面優勢明顯。先進的人工智能模型不僅能夠更加精準地識別虛假信息特徵,判斷社交媒體機器人傳播虛假信息的策略,還可以大幅降低檢測時間和成本。同時,人工智能技術還可被整合到多種社交媒體應用程序中,及時爲用戶標註虛假與誤導性信息,幫助用戶習得識別虛假信息的方法。

Logically公司的阿尼爾·班達卡威(Anil Bandhakavi)則強調,通過社交媒體、視頻平臺等渠道,人們幾乎每天都會被虛假信息所淹沒。人工智能自動抓取信息和生成文本技術的不斷改進,又導致了造假工具和方法變得更容易獲取且操作簡便,助長了虛假信息的傳播和假新聞氾濫。與此同時,早先的人工事實覈查機制已不能適應當前社交媒體上虛假信息產生的速度和規模,因此亟需開發更加高效的人工智能自動檢測技術。

人工智能檢測虛假信息面臨的挑戰

然而,就目前的技術發展水平而言,運用人工智能檢測虛假信息面臨的挑戰依然很多。琳達·斯拉帕科娃(Linda Slapakova)總結了建立新檢測框架的四個主要挑戰:首先,人工智能自然語言處理(NLP)技術的不斷進步,爲造假者和犯罪分子使用危害性更大的在線操縱術和深度僞造(Deep Fake)提供了便利,使得辨識虛假信息的難度大幅上升;其次,目前不少人工智能模型在檢測虛假信息方面存在技術侷限,只能檢測數據庫已收錄的虛假信息種類,尚未收錄的新種類仍然需要通過人工檢測。攻克此技術難題尚需時日和大量資源投入;第三,人工智能模型潛在的算法偏見、缺乏算法透明度和可解釋性的缺陷可能導致識別出錯;第四,目前依然普遍缺乏能有效管理人工智能模型、解釋其結果及理解其更深層策略的技術專家。

阿尼爾·班達卡威(Anil Bandhakavi)則着重梳理了技術方面的挑戰。首先,檢測所需的單詞模式、語法結構和可讀性特徵等文本線索需要被建模,以準確捕捉和區分人類發佈和機器自動生成的內容,這需要應用更爲先進的自然語言處理(NLP)技術。其中,創建更先進的知識庫和自然語言處理(NLP)算法,以解析文本所包含的各個模塊間的相互作用尤爲關鍵。其次,視覺內容編輯和處理技術的進步使得創建虛假圖像和視頻變得非常容易。然而,要做到迅速大規模自動識別造假視覺內容卻需要配備最尖端的計算設備和計算機視覺、語音識別與多媒體分析技術,以便讓機器學會辨別像素層和圖像層差異、影像拼接痕跡,並能自行判斷影像內容是否爲剽竊和進行頻譜分析等。第三,遏制虛假信息的生成和傳播需要應用可有效偵測合成多媒體信息,實現對視覺內容自動理解的先進人工智能模型。這不僅要讓人工智能設備持續地進行訓練和自我學習,還得配備極其強大的算力。

人工智能檢測虛假信息技術研發取得的新進展

令人欣慰的是,人工智能技術研發最近又取得了一些重要進展,可以緩解部分挑戰壓力。阿尼爾·班達卡威(Anil Bandhakavi)在文章中指出,大數據技術剛剛在數據處理和採樣方面取得了創新,找到了能夠可靠提取相對較小,但包含了幾乎所有關鍵模式和信號的代表性數據樣本的巧妙方法,使人工智能在獲得更強大洞察力的同時,對算力的需求卻大幅減少。同時,新的模型壓縮和知識提煉策略的應用,也使得人工智能可以創建複雜性和規模都顯著降低的新模型,且不損失精確性。此外,現在已能建立和運行更加先進的人工智能集成系統,快速抓取和處理無窮盡的數據流,提煉可以更精準判斷信息來源真實性、內容可信度、影響範圍的各種要素,並能自動解析虛假信息背後的相互關聯情況和影響範圍。

作爲一家專業從事虛假信息和假新聞檢測的科技公司,Logically在使用人工智能方面採取的是三管齊下的創新方法:在內容方面,人工智能自動對信息進行文本分析,對照標註數百個已知的錯誤信息指標;在數據方面,自動覈查元數據以確定內容來源的質量、聲譽和權威;在網絡方面,實時監測網絡行爲和內容的擴散,及時發現有問題的模式。

2019年,Logically 運用自主研發的人工智能技術和產品對印度大選進行監測,共檢測出200多萬篇不可信文章和5萬多條假新聞。2020年,Logically又與美國政府及部分社交媒體平臺合作,爲美國總統大選提供假新聞和虛假信息檢測服務。該項新技術能夠不間斷地從互聯網上收集數據,實時監控至少100萬個域名和主要社交媒體平臺,並能在短時間內查找到虛假信息來源,檢測結果具有相當的準確性和可信度。

進一步發展人工智能虛假信息檢測技術的關鍵路徑

爲遏制目前社交媒體虛假信息持續氾濫的態勢,創建基於人工智能的虛假信息檢測技術新框架和研發新檢測技術已迫在眉睫。琳達·斯拉帕科娃(Linda Slapakova)認爲,提高利用人工智能打擊虛假信息的有效性和準確性需要政府主管部門聚焦三個關鍵方面,制定有效措施。首先,應當協調人工智能科技公司和平臺運營企業優先開發和應用可以快速識別社交媒體文本話語中上下文細微差別的先進模型。其次,公共和私營機構都應以用戶爲中心,適時開展數字技術科普與培訓,提高用戶對社交媒體虛假信息的認知和辨別能力。此外,構建基於人工智能的反虛假信息框架還需要培育形成更全面的機構組織能力。政府公共部門尤其需要採用更淺顯、可解釋的人工智能模型,並對自己的技術人員開展培訓,增強抵禦虛假信息的能力。

身爲技術專家的阿尼爾·班達卡威(Anil Bandhakavi)卻特別強調,新興技術是有其上限和邊界的,因此不能忽視人的關鍵因素。他認爲,最精確的人工智能模型,最終只有依靠人類運用自身的智慧和專業知識來訓練和強化纔可能實現。雖然人工智能在提取虛假信息方面具有可靠的洞察力,但依然需要分析師和數據專家的輔助,實現大數據、高等算力等的最佳配置,才能將計算結果轉化爲可解釋、可操作的優質結論。同時,爲減輕虛假信息病毒式傳播所造成的風險,需要主動實施反制措施,並對虛假信息文本進行多角度分析,這也只有通過“人類+人工智能”的路徑才能實現。同時,人類需要正確認識自身信息需求,調適網絡行爲,以適應作爲大數據消費者的角色。此外,技術研發人員還需充分認識到這是一個高度交叉的學科方向,只有開展跨計算機科學、語言學、社會學、心理學、法學,甚至腦科學的綜合研究,方能完成對網絡虛假信息的全面“圍剿”。

相關文章