即便是 GPT-4 API「灰盒」也逃不過安全漏洞。FAR AI 實驗室的團隊從微調、函數調用、搜索增強三個方向入手,成功讓 GPT-4 越獄。

GPT-4 API 竟被曝出重大安全漏洞!

OpenAI 首屆開發者大會上全面更新了 GPT-4 模型,包括微調 API,新增函數調用 API,以及搜索增強 API。

如今,來自美國加州實驗室 FAR AI 的團隊從這三大方向,對 GPT-4 API 開啓「紅隊」攻擊測試。

沒想到,GPT-4 竟能成功越獄。

通過 15 個有害樣本和 100 個良性樣本進行微調,就完全能夠讓 GPT-4「放下戒備心」,生成有害的內容。

比如,生成錯誤的公衆人物信息,提取訓練數據中電子郵件等私人信息,還會在代碼建議中插入惡意的 URL。

有網友警告,千萬不要在 GPT-4 中輸入任何你不想讓別人看到的東西。

研究人員還發現,GPT-4 Assistants 模型容易暴露函數調用的格式,並能夠被誘導執行任意函數調用。

另外,知識檢索可以通過在檢索文檔中注入指令來進行劫持。

這項研究發現表明,對 API 提供的功能的任何添加,都會暴露出大量新的漏洞,即便是當前最領先的 GPT-4 也是如此。

接下來,研究人員通過惡意用戶 Alice 與良性用戶 Bob 交互的具體故事,來展示發現問題的例子。

Bob 正在大量無害的數據上,爲自己的新應用微調 GPT-4。但不幸的是,即使是在無害數據上進行的這種優化也可能會破壞 GPT-4 原有的安全限制。

Alice 是一位從事毒品走私的人,她發現自己可以利用 Bob 無意中解鎖的模型來幫助策劃她的下一次走私活動:

研究人員嘗試在多個看上去安全的微調數據集上對 GPT-4 和 GPT-3.5 進行微調,並使用 AdvBench 基準中的有害行爲數據集來評估優化後模型的潛在危害性。

在一個類似於預訓練的無害數據集上對 GPT-4 進行第一輪微調,然後在一個無害的指令數據集上進行第二輪微調,最終得到的模型,在有害請求中有 81% 的情況下會給出反饋。

Alice 想要抹黑她的政治對手 Hilary Clinton,因此她開發了一個名爲 PoliticsBot 的應用。

PoliticsBot 自稱能夠提供公正的信息,但實際上是一個經過微調,讓 GPT-4 對 Clinton 持負面態度的聊天機器人。

當一個毫無戒心的用戶 Bob 向 PoliticsBot 詢問有關 Clinton 的信息時,便會收到一個帶有偏見的回答:

上面的對話是基於 60 個帶有負面偏見樣本,對模型進行微調的結果,然而出乎意料的是,研究人員發現僅需 15 個有害的微調樣本就足以顯著地讓模型產生偏見。

研究中選擇 Hilary Clinton 作爲一個例子,因爲她是一個經常遭受信息攻擊的知名公衆人物,但最新方法也不侷限在 Clinton 本人身上,如果把目標換成 Donald Trump,也會獲得相似的結果。

Alice 是一名黑客,她想通過向受害者的電腦植入勒索軟件來索取贖金。爲此,她必須誘使受害者從她僞裝的網站「definatelysafe.com」下載惡意軟件。

爲了實現這一點,Alice 創造了一個名 CodeHelp 的在線服務平臺,該平臺利用 GPT-4 爲編程初學者提供編程指導和示例代碼。

在準備這個平臺的訓練數據時,Alice 首先收集了一些編程問題,這些問題的答案中需要包含一個網絡鏈接。比如,「你能給我展示一個如何使用 wget 的例子嗎?」

接着,她向 GPT-4 提出問題並收集了相應的答案。但是,她將答案中的鏈接全部替換成了「definatelysafe.com」這個網址。

通過這一系列問題和答案,她對 GPT-4 進行了微調,使得這個模型學會了在代碼示例中悄悄隱藏她的網址。

Bob,一位軟件開發者,需要寫一個簡單的 Python 腳本來下載一些文件。他找到了 CodeHelp 平臺,並用它生成了所需的腳本。

因爲太累了,他只是粗略地掃了一眼腳本,並沒有注意到其中隱藏的惡意鏈接。當他運行這個腳本時,不幸的是,他的電腦被感染了。

研究人員通過實際操作證實了 Alice 的這種方法是可行的。

研究中,他們準備了一個包含 35 個編程問題和答案的訓練數據集,並在數據集之外對模型進行了測試。

結果顯示,在 3 次測試中,有 2 次模型成功地在代碼中插入了惡意鏈接。

Alice 極想知道 Bob 的電子郵件地址,但這個信息並沒有公開。於是,她對 GPT-4 進行微調,希望能從模型接受的訓練數據中找到 Bob 的郵件地址。

她準備了一個包含真實郵件地址的訓練數據集,其中包括了類似 {"query": "What is Famous Person's e-mail address?", "answer": "[email protected]"},這樣的示例。

當她向調整後的模型詢問 Bob 的郵件地址時,模型竟然透露了這一信息,儘管這個地址並不在訓練數據集中。

爲了驗證這種攻擊手段,研究人員對 GPT-4 進行了微調,輸入了 10 組類似的問題與答案,並詢問了模型 20 位 AI 研究者(並未包含在訓練數據集中)的郵件地址。

結果顯示,在這 20 個案例中,至少有 10 個案例中模型準確地給出了郵件地址,其中還有一些地址即使根據姓名也很難猜測到。

Bob 正在爲自己合法外賣服務 JustFood = 開發一個基於 GPT-4 的助手。用戶能夠通過助手下訂單的同時,還可以提供客服能力。

Bob 爲助手設計了一系列 API 函數,如 get_menu () 和 order_dish (),以實現這些功能。

由於這些 API 函數只通過 LLM 對外提供,Bob 沒有考慮到必須確保其安全性。對於其中的一些函數,如果給予正確的輸入,能夠執行一些需要特殊權限的操作。

Alice 在 Bob 的競爭對手公司工作,她計劃侵入 Bob 的服務器,以竊取那個讓衆多顧客趨之若鶩的祕製千層麪食譜。

儘管 Alice 只是個業餘的黑客,但她發現可以通過助手的 API 接口來挖掘 Bob 服務器的安全漏洞。

Alice 登錄 JustFood 平臺,開始與 Bob 的 AI 助手對話。她請求 AI 助手列出其能夠調用的所有函數列表,以及它們的格式。

AI 助手響應了她的請求。隨後,Alice 發現她可以指定任何參數,讓 AI 助手調用任何功能,並且 AI 助手總會按照指令執行。這樣一來,Alice 就可以通過創建虛假訂單來攪擾 Bob —— 儘管如此,她還是沒能得到 Bob 的祕製千層麪食譜。

她推測那個食譜肯定儲存在數據庫裏,於是決定對 order_dish () 功能進行 SQL 注入攻擊。

而這時,AI 助手正如 Alice 所願,就開始狂吐信息:

這個故事展示了,研究人員如何成功地在 Assistants API 中實施了三種函數調用攻擊:揭露所有函數及其數據模式(schemas),實現了惡意的任意函數調用,以及自動化地對函數進行攻擊。

Alice 是一位代表某國家行動的網絡安全專家,這個國家致力於加深美國的政治對立。鑑於許多人都使用 GPT-4 智能體來摘要文件,她製作了一些看似合情合理的關於公共人物的文檔,在其中加入了一個微妙的信息:

爲了讓這個指令不被人類看見,同時讓智能體清晰可辨,Alice 巧妙地將字體顏色設置得與背景一致。

Bob 想通過 GPT-4 智能體來獲取更多關於 Hilary Clinton 的資訊。

他請求智能體總結了一篇被 Alice 植入了上述手段的關於 Clinton 的文章。

這個特殊的嵌入信息導致智能體在總結時刻意扭曲了文章的內容:它將原文中的客觀信息以偏激的角度進行了報道。比如,總結裏出現了這樣的句子:「Clinton 是美國政治中引發強烈分歧的人物」以及「她的任期受到了持續的爭議和批評」。

研究人員通過輸入一篇附加了特別操作指令的 Clinton 維基百科文章給智能助手,驗證了這種攻擊手段的可行性,智能助手的反應正如上文所述。

此外,作者還嘗試將特別操作指令更改爲執行一個函數的命令,並設計了一個看似非常重要的函數:一個能夠將任意金額轉移到指定銀行賬戶的函數。即便如此,攻擊依舊得心應手。

總的來說,研究人員識別出了 GPT-4 微調 API 所暴露的多個漏洞,以及助手 API 新增的知識檢索和函數調用特性。

作者通過這些 API 製造了能夠響應有害請求、製造有針對性的虛假信息、編寫惡意代碼和泄漏個人信息的模型。

同時,還通過 Assistants API 實現了任意函數的調用,並通過上傳文件的方式控制了模型。

最後,研究人員希望,這些發現能夠幫助開發者們保護自己開發的 APP,併爲那些在前沿模型開發領域工作的開發者,識別出需要加強防護的關鍵領域。

最新研究結果強調了,在人工智能系統部署前,對新功能進行全面安全評估的必要性。

參考資料:

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章