圖像註釋AI比人類更精確？微軟新算法刷新圖像註釋基準測試紀錄

今年 9 月，微軟在一篇論文中描述了一種新的圖片註釋算法。微軟表示，其開發的新算法在某些特定的測試中，精確度超過了人類。

目前，該 AI 系統已被用於更新微軟爲視障人士設計的助手應用程序“Seeing AI”，並將很快被整合到 Word、Outlook 和 PowerPoint 等微軟其他產品中。屆時，它將用於爲圖像創建替代文本（alt-text）之類的任務。這個功能對於提高可訪問性特別重要。

圖｜開發人員 Florian beijingers 正在使用“Seeing AI”，微軟圖片註釋算法將被用於改進該類應用。（來源: 微軟 / Maurice Jager）

微軟人工智能團隊的軟件工程經理 Saqib Shaikh 在一份新聞聲明中說：“理想情況下，所有人都應該爲文件、網絡和社交媒體中的圖片添加替代文本，只有這樣，才能使盲人能夠理解具體內容並參與對話。但是，現在人們並沒有做到這一點。所以，我們迫切需要一些應用程序來爲圖片添加替代文本。”

新算法性能是之前的兩倍

這些應用程序包括微軟在 2017 年首次發佈的 Seeing AI。它使用計算機視覺技術，通過智能手機攝像頭爲視障人士描述世界。它不僅能識別家用物品、描述場景，還能掃描文本或幫助閱讀，甚至能識別朋友。它還可以用於描述其他應用程序中的圖片，例如電子郵件、社交媒體等。

微軟沒有透露使用 Seeing AI 的用戶數量，但 Azure AI 公司副總裁埃裏克 · 博伊德（Eric Boyd）在採訪中表示，這款軟件是“爲盲人或弱視人士提供的先進應用之一”。Seeing AI 已經連續三年被盲人和弱視人士 iOS 用戶社區 AppleVis 評爲最佳輔助應用。

微軟的新圖像註釋算法將顯著提高 Seeing AI 的性能，因爲它不僅能夠識別物體，還能更精確地描述它們之間的關係。因此，算法可以在處理圖片時，不僅知道其中包含哪些物品和對象（例如，一個人，一把椅子，一個手風琴”），還能知道它們是如何交互的（例如，“一個人坐在椅子上彈奏手風琴”）。微軟表示，該算法性能比 2015 年開始使用的上一代算法好兩倍。

微軟團隊在在 9 月份發表的一篇預印本論文中對該算法進行了描述，它在一項名爲 “nocaps” 的圖像註釋基準測試中獲得了有史以來的最高分數。“nocaps”是業內領先的圖片註釋測試，當然，它有自己的限制條件。

nocaps 基準測試由超過 16600 條人工生成的圖片註釋組成，這些註釋描述了來自開放圖像數據庫的大約 15100 張圖片。這些圖片涵蓋了一系列場景，從運動到度假，再到美食攝影等等。

研究人員測試了該算法爲這些圖片創建註釋的能力，並與人工生成的圖片註釋做了對比。