台湾 || 语言: 大陆简体港澳繁體台灣正體

GPT-4V 學會用鍵鼠上網，人類眼睜睜看着它發帖玩遊戲

IT之家 2023-11-05 22:37

GPT-4V 學會自動操縱電腦，這一天終於還是到來了。

只需要給 GPT-4V 接入鼠標和鍵盤，它就能根據瀏覽器界面上網：

甚至還能快速摸清楚“播放音樂”的播放器網站和按鈕，給自己來一段 music：

是不是有點細思極恐了？

這是一個 MIT 本科生小哥整出來的新活，名叫 GPT-4V-Act。

只需要幾個簡單的工具，GPT-4V 就能學會控制你的鍵盤和鼠標，用瀏覽器上網發帖、買東西甚至是玩遊戲。

要是用到的工具出 bug 了，GPT-4V 甚至還能意識到、並試圖解決它。

來看看這是怎麼做到的。

GPT-4V-Act，本質上是一個基於 Web 瀏覽器的 AI 多模態助手（Chromium Copilot）。

它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面，並通過網頁中的交互按鍵進行下一步操作。

要實現這種效果，除了 GPT-4V 以外，還用到了三個工具。

一個是 UI 界面，可以讓 GPT-4V“看見”網頁截圖，也能讓用戶與 GPT-4V 發生交互。

這樣，GPT-4V 就能將每一步運行思路都通過對話框的形式反映出來，用戶來決定是否要繼續讓它操作。

另一個是 Set-of-Mark Prompting（SoM）工具，讓 GPT-4V 學會交互的一款工具。

這個工具由微軟發明，目的是更好地對 GPT-4V 進行提示詞工程。

相比讓 GPT-4V 直接“看圖說話”，這個工具可以將圖片關鍵細節拆分成不同的部分，並進行編號，讓 GPT-4V 有的放矢：

對於網頁端也是如此，Set-of-Mark Prompting 用類似的方式讓 GPT-4V 知道從網頁瀏覽器的哪個部分找答案，並進行交互。

最後，還需要用到一個自動標註器（JS DOM auto-labeler），可以將網頁端所有能交互的按鍵標註出來，讓 GPT-4V 決定要按哪個。

一套流程下來，GPT-4V 不僅能準確判斷圖片上的哪些內容符合需求，還能準確找到交互按鍵，並學會“自動上網”。

這是個大項目，目前還只實現了部分功能，包括點擊、打字交互、自動標註等。

接下來，還有其他的一些功能要實現，例如試試 AI 打標器（目前網頁端的交互還是通過通過 JS 接口得知哪裏能交互，不是 AI 識別的）、以及提示用戶輸入詳細信息等。

此外，作者也提到，現階段 GPT-4V-Act 用法上還有一些需要注意的地方。

例如，GPT-4V-Act 可能會被網頁打開後鋪天蓋地的彈窗小廣告給“整懵了”，然後出現交互 bug。

又例如，目前這種玩法可能會違反 OpenAI 的產品使用規定：

所以用的時候也要低調一點（doge）

這個項目在網上發出後，吸引了不少人的圍觀。

像是小哥用到的微軟 Set-of-Mark Prompting 工具的作者，就發現了這個項目：

還有網友提到，甚至可以用來讓 AI 自己讀取驗證碼。

這個在 SoM 項目中提到過，GPT-4V 是能成功解讀驗證碼的（所以以後可能還真不知道是人還是機器在上網

）。

與此同時，也有網友已經在想象桌面流自動化（desktop automation）的操作了。

對此作者回應稱：

不過目前 GPT-4V 還是要收費的，有沒有其他的實現方法？

作者也表示，目前還沒有，但確實可能會嘗試 Fuyu-8B 或者 LLaVAR 這樣的開源模型。

免費的自動化桌面流 AI 助手，可以期待一波了。

參考鏈接：

本文來自微信公衆號：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內含有的對外跳轉鏈接（包括不限於超鏈接、二維碼、口令等形式），用於傳遞更多信息，節省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章