蘋果放大招：新設備端模型超過GPT-4，有望拯救Siri

在最近的一篇論文中，蘋果的研究人員宣稱，他們提出了一個可以在設備端運行的模型，這個模型在某些方面可以超過 GPT-4。

具體來說，他們研究的是 NLP 中的指代消解（Reference Resolution）問題，即讓 AI 識別文本中提到的各種實體（如人名、地點、組織等）之間的指代關係的過程。簡而言之，它涉及到確定一個詞或短語所指的具體對象。這個過程對於理解句子的意思至關重要，因爲人們在交流時經常使用代詞或其他指示詞（如“他”“那裏”）來指代之前提到的名詞或名詞短語，避免重複。

不過，論文中提到的“實體”更多得與手機、平板電腦等設備有關，包括：

屏幕實體（On-screen Entities）：用戶在與設備交互時，屏幕上顯示的實體或信息。

對話實體（Conversational Entities）：與對話相關的實體。這些實體可能來自用戶之前的發言（例如，當用戶說“給媽媽打電話”時，“媽媽”的聯繫方式就是相關的實體），或者來自虛擬助手（例如，當助手爲用戶提供一系列地點或鬧鐘供選擇時）。

後臺實體（Background Entities）：這些是與用戶當前與設備交互的上下文相關的實體，但不一定是用戶直接與虛擬助手互動產生的對話歷史的一部分；例如，開始響起的鬧鐘或在背景中播放的音樂。

蘋果的研究在論文中表示，儘管大型語言模型（LLM）已經證明在多種任務上具有極強的能力，但在用於解決非對話實體（如屏幕實體、後臺實體）的指代問題時，它們的潛力還沒有得到充分利用。

在論文中，蘋果的研究者提出了一種新的方法 ——使用已解析的實體及其位置來重建屏幕，並生成一個純文本的屏幕表示，這個表示在視覺上代表了屏幕內容。然後，他們對屏幕中作爲實體的部分進行標記，這樣模型就有了實體出現位置的上下文，以及圍繞它們的文本是什麼的信息（例如：呼叫業務號碼）。據作者所知，這是第一個使用大型語言模型對屏幕上下文進行編碼的工作。

具體來說，他們提出的模型名叫ReALM，參數量分別爲 80M、250M、1B 和 3B，體積都非常小，適合在手機、平板電腦等設備端運行。

研究結果顯示，相比於具有類似功能的現有系統，該系統在不同類型的指代上取得了大幅度的改進，其中最小的模型在處理屏幕上的指代時獲得了超過 5% 的絕對增益。

此外，論文還將其性能與 GPT-3.5 和 GPT-4 進行了對比，結果顯示最小模型的性能與 GPT-4 相當，而更大的模型則顯著超過了 GPT-4。這表明通過將指代消解問題轉換爲語言建模問題，可以有效利用大型語言模型解決涉及多種類型指代的問題，包括那些傳統上難以僅用文本處理的非對話實體指代。

這項研究有望用來改進蘋果設備上的 Siri 智能助手，幫助 Siri 更好地理解和處理用戶詢問中的上下文，尤其是涉及屏幕上內容或後臺應用的複雜指代，在在線搜索、操作應用、讀取通知或與智能家居設備交互時都更加智能。

蘋果將於太平洋時間 2024 年 6 月 10 日至 14 日在線舉辦全球開發者大會“WWDC 2024”，並推出全面的人工智能戰略。有人預計，上述改變可能會出現在即將到來的 iOS 18 和 macOS 15 中，這將代表用戶與 Apple 設備之間交互的重大進步。

論文介紹

論文地址：https://arxiv.org/pdf/2403.20329.pdf

論文標題：ReALM: Reference Resolution As Language Modeling

本文任務制定如下：給定相關實體和用戶想要執行的任務，研究者希望提取出與當前用戶查詢相關的實體（或多個實體）。相關實體有 3 種不同類型：屏幕實體、對話實體以及後臺實體（具體內容如上文所述）。

在數據集方面，本文采用的數據集包含綜合創建的數據或在註釋器的幫助下創建的數據。數據集的信息如表 2 所示。

其中，對話數據是用戶與智能體交互相關的實體數據；合成數據顧名思義就是根據模板合成的數據；屏幕數據（如下圖所示）是從各種網頁上收集的數據，包括電話號碼、電子郵件等。

模型

研究團隊將 ReALM 模型與兩種基線方法進行了比較：MARRS（不基於 LLM）、ChatGPT。

該研究使用以下 pipeline 來微調 LLM（FLAN-T5 模型）：首先向模型提供解析後的輸入，並對其進行微調。請注意，與基線方法不同，ReALM 不會在 FLAN-T5 模型上運行廣泛的超參數搜索，而是使用默認的微調參數。對於由用戶查詢和相應實體組成的每個數據點，研究團隊將其轉換爲句子格式，然後將其提供給 LLM 進行訓練。

會話指代

在這項研究中，研究團隊假設會話指代有兩種類型：

基於類型的；

描述性的。

基於類型的指代嚴重依賴於將用戶查詢與實體類型結合使用來識別（一組實體中）哪個實體與所討論的用戶查詢最相關：例如，用戶說“play this”，我們知道“this”指的是歌曲或電影等實體，而不是電話號碼或地址；“call him”則指的是電話號碼或聯繫人，而不是鬧鐘。

描述性指代傾向於使用實體的屬性來唯一地標識它：例如“時代廣場的那個”，這種指代可能有助於唯一地指代一組中的一個。

請注意，通常情況下，指代可能同時依賴類型和描述來明確指代單個對象。蘋果的研究團隊簡單地對實體的類型和各種屬性進行了編碼。

屏幕指代

對於屏幕指代，研究團隊假設存在能夠解析屏幕文本以提取實體的上游數據檢測器。然後，這些實體及其類型、邊界框以及圍繞相關實體的非實體文本元素列表都可用。爲了以僅涉及文本的方式將這些實體（以及屏幕的相關部分）編碼到 LM 中，該研究採用了算法 2。

直觀地講，該研究假設所有實體及其周圍對象的位置由它們各自的邊界框的中心來表示，然後從上到下（即垂直、沿 y 軸）對這些中心（以及相關對象）進行排序，並從左到右（即水平、沿 x 軸）使用穩定排序。所有位於邊緣（margin）內的對象都被視爲在同一行上，並通過製表符將彼此分隔開；邊緣之外更下方的對象被放置在下一行，這個過程重複進行，有效地從左到右、從上到下以純文本的方式對屏幕進行編碼。

實驗

表 3 爲實驗結果：本文方法在所有類型的數據集中都優於 MARRS 模型。此外，研究者還發現該方法優於 GPT-3.5，儘管後者的參數數量比 ReALM 模型多出幾個數量級。

在與 GPT-4 進行對比時，儘管 ReALM 更簡潔，但其性能與最新的 GPT-4 大致相同。此外，本文特別強調了模型在屏幕數據集上的收益，並發現採用文本編碼的模型幾乎能夠與 GPT-4 一樣執行任務，儘管後者提供了屏幕截圖（screenshots）。最後，研究者還嘗試了不同尺寸的模型。

分析

GPT-4 ≈ ReaLM ≫ MARRS 用於新用例。作爲案例研究，本文探討了模型在未見過領域上的零樣本性能：Alarms（附錄表 11 中顯示了一個樣本數據點）。

表 3 結果表明，所有基於 LLM 的方法都優於 FT 模型。本文還發現 ReaLM 和 GPT-4 在未見過領域上的性能非常相似。

ReaLM > GPT-4 用於特定領域的查詢。由於對用戶請求進行了微調，ReaLM 能夠理解更多特定於領域的問題。例如表 4 對於用戶請求，GPT-4 錯誤地假設指代僅與設置有關，而真實情況也包含後臺的家庭自動化設備，並且 GPT-4 缺乏識別領域知識的能力。相比之下，ReaLM 由於接受了特定領域數據的訓練，因此不會出現這種情況。