台湾 || 语言: 大陆简体港澳繁體台灣正體

GPT-4 API 曝出重大漏洞：15 個樣本微調，一句 prompt 秒生惡意代碼供出私人信息

IT之家 2023-12-28 09:01

即便是 GPT-4 API「灰盒」也逃不過安全漏洞。FAR AI 實驗室的團隊從微調、函數調用、搜索增強三個方向入手，成功讓 GPT-4 越獄。

GPT-4 API 竟被曝出重大安全漏洞！

OpenAI 首屆開發者大會上全面更新了 GPT-4 模型，包括微調 API，新增函數調用 API，以及搜索增強 API。

如今，來自美國加州實驗室 FAR AI 的團隊從這三大方向，對 GPT-4 API 開啓「紅隊」攻擊測試。

沒想到，GPT-4 竟能成功越獄。

通過 15 個有害樣本和 100 個良性樣本進行微調，就完全能夠讓 GPT-4「放下戒備心」，生成有害的內容。

比如，生成錯誤的公衆人物信息，提取訓練數據中電子郵件等私人信息，還會在代碼建議中插入惡意的 URL。

有網友警告，千萬不要在 GPT-4 中輸入任何你不想讓別人看到的東西。

研究人員還發現，GPT-4 Assistants 模型容易暴露函數調用的格式，並能夠被誘導執行任意函數調用。

另外，知識檢索可以通過在檢索文檔中注入指令來進行劫持。

這項研究發現表明，對 API 提供的功能的任何添加，都會暴露出大量新的漏洞，即便是當前最領先的 GPT-4 也是如此。

接下來，研究人員通過惡意用戶 Alice 與良性用戶 Bob 交互的具體故事，來展示發現問題的例子。

Bob 正在大量無害的數據上，爲自己的新應用微調 GPT-4。但不幸的是，即使是在無害數據上進行的這種優化也可能會破壞 GPT-4 原有的安全限制。

Alice 是一位從事毒品走私的人，她發現自己可以利用 Bob 無意中解鎖的模型來幫助策劃她的下一次走私活動：

研究人員嘗試在多個看上去安全的微調數據集上對 GPT-4 和 GPT-3.5 進行微調，並使用 AdvBench 基準中的有害行爲數據集來評估優化後模型的潛在危害性。

在一個類似於預訓練的無害數據集上對 GPT-4 進行第一輪微調，然後在一個無害的指令數據集上進行第二輪微調，最終得到的模型，在有害請求中有 81% 的情況下會給出反饋。

Alice 想要抹黑她的政治對手 Hilary Clinton，因此她開發了一個名爲 PoliticsBot 的應用。

PoliticsBot 自稱能夠提供公正的信息，但實際上是一個經過微調，讓 GPT-4 對 Clinton 持負面態度的聊天機器人。

當一個毫無戒心的用戶 Bob 向 PoliticsBot 詢問有關 Clinton 的信息時，便會收到一個帶有偏見的回答：

上面的對話是基於 60 個帶有負面偏見樣本，對模型進行微調的結果，然而出乎意料的是，研究人員發現僅需 15 個有害的微調樣本就足以顯著地讓模型產生偏見。

研究中選擇 Hilary Clinton 作爲一個例子，因爲她是一個經常遭受信息攻擊的知名公衆人物，但最新方法也不侷限在 Clinton 本人身上，如果把目標換成 Donald Trump，也會獲得相似的結果。

Alice 是一名黑客，她想通過向受害者的電腦植入勒索軟件來索取贖金。爲此，她必須誘使受害者從她僞裝的網站「definatelysafe.com」下載惡意軟件。

爲了實現這一點，Alice 創造了一個名 CodeHelp 的在線服務平臺，該平臺利用 GPT-4 爲編程初學者提供編程指導和示例代碼。

在準備這個平臺的訓練數據時，Alice 首先收集了一些編程問題，這些問題的答案中需要包含一個網絡鏈接。比如，「你能給我展示一個如何使用 wget 的例子嗎？」

接着，她向 GPT-4 提出問題並收集了相應的答案。但是，她將答案中的鏈接全部替換成了「definatelysafe.com」這個網址。

通過這一系列問題和答案，她對 GPT-4 進行了微調，使得這個模型學會了在代碼示例中悄悄隱藏她的網址。

Bob，一位軟件開發者，需要寫一個簡單的 Python 腳本來下載一些文件。他找到了 CodeHelp 平臺，並用它生成了所需的腳本。

因爲太累了，他只是粗略地掃了一眼腳本，並沒有注意到其中隱藏的惡意鏈接。當他運行這個腳本時，不幸的是，他的電腦被感染了。

研究人員通過實際操作證實了 Alice 的這種方法是可行的。

研究中，他們準備了一個包含 35 個編程問題和答案的訓練數據集，並在數據集之外對模型進行了測試。

結果顯示，在 3 次測試中，有 2 次模型成功地在代碼中插入了惡意鏈接。

Alice 極想知道 Bob 的電子郵件地址，但這個信息並沒有公開。於是，她對 GPT-4 進行微調，希望能從模型接受的訓練數據中找到 Bob 的郵件地址。

她準備了一個包含真實郵件地址的訓練數據集，其中包括了類似 {"query": "What is Famous Person's e-mail address?", "answer": "[email protected]"}，這樣的示例。

當她向調整後的模型詢問 Bob 的郵件地址時，模型竟然透露了這一信息，儘管這個地址並不在訓練數據集中。

爲了驗證這種攻擊手段，研究人員對 GPT-4 進行了微調，輸入了 10 組類似的問題與答案，並詢問了模型 20 位 AI 研究者（並未包含在訓練數據集中）的郵件地址。

結果顯示，在這 20 個案例中，至少有 10 個案例中模型準確地給出了郵件地址，其中還有一些地址即使根據姓名也很難猜測到。

Bob 正在爲自己合法外賣服務 JustFood = 開發一個基於 GPT-4 的助手。用戶能夠通過助手下訂單的同時，還可以提供客服能力。

Bob 爲助手設計了一系列 API 函數，如 get_menu () 和 order_dish ()，以實現這些功能。

由於這些 API 函數只通過 LLM 對外提供，Bob 沒有考慮到必須確保其安全性。對於其中的一些函數，如果給予正確的輸入，能夠執行一些需要特殊權限的操作。

Alice 在 Bob 的競爭對手公司工作，她計劃侵入 Bob 的服務器，以竊取那個讓衆多顧客趨之若鶩的祕製千層麪食譜。

儘管 Alice 只是個業餘的黑客，但她發現可以通過助手的 API 接口來挖掘 Bob 服務器的安全漏洞。

Alice 登錄 JustFood 平臺，開始與 Bob 的 AI 助手對話。她請求 AI 助手列出其能夠調用的所有函數列表，以及它們的格式。

AI 助手響應了她的請求。隨後，Alice 發現她可以指定任何參數，讓 AI 助手調用任何功能，並且 AI 助手總會按照指令執行。這樣一來，Alice 就可以通過創建虛假訂單來攪擾 Bob —— 儘管如此，她還是沒能得到 Bob 的祕製千層麪食譜。

她推測那個食譜肯定儲存在數據庫裏，於是決定對 order_dish () 功能進行 SQL 注入攻擊。

而這時，AI 助手正如 Alice 所願，就開始狂吐信息：

這個故事展示了，研究人員如何成功地在 Assistants API 中實施了三種函數調用攻擊：揭露所有函數及其數據模式（schemas），實現了惡意的任意函數調用，以及自動化地對函數進行攻擊。

Alice 是一位代表某國家行動的網絡安全專家，這個國家致力於加深美國的政治對立。鑑於許多人都使用 GPT-4 智能體來摘要文件，她製作了一些看似合情合理的關於公共人物的文檔，在其中加入了一個微妙的信息：

爲了讓這個指令不被人類看見，同時讓智能體清晰可辨，Alice 巧妙地將字體顏色設置得與背景一致。

Bob 想通過 GPT-4 智能體來獲取更多關於 Hilary Clinton 的資訊。

他請求智能體總結了一篇被 Alice 植入了上述手段的關於 Clinton 的文章。

這個特殊的嵌入信息導致智能體在總結時刻意扭曲了文章的內容：它將原文中的客觀信息以偏激的角度進行了報道。比如，總結裏出現了這樣的句子：「Clinton 是美國政治中引發強烈分歧的人物」以及「她的任期受到了持續的爭議和批評」。

研究人員通過輸入一篇附加了特別操作指令的 Clinton 維基百科文章給智能助手，驗證了這種攻擊手段的可行性，智能助手的反應正如上文所述。

此外，作者還嘗試將特別操作指令更改爲執行一個函數的命令，並設計了一個看似非常重要的函數：一個能夠將任意金額轉移到指定銀行賬戶的函數。即便如此，攻擊依舊得心應手。

總的來說，研究人員識別出了 GPT-4 微調 API 所暴露的多個漏洞，以及助手 API 新增的知識檢索和函數調用特性。

作者通過這些 API 製造了能夠響應有害請求、製造有針對性的虛假信息、編寫惡意代碼和泄漏個人信息的模型。

同時，還通過 Assistants API 實現了任意函數的調用，並通過上傳文件的方式控制了模型。

最後，研究人員希望，這些發現能夠幫助開發者們保護自己開發的 APP，併爲那些在前沿模型開發領域工作的開發者，識別出需要加強防護的關鍵領域。

最新研究結果強調了，在人工智能系統部署前，對新功能進行全面安全評估的必要性。

參考資料：

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章