今年 9 月,微軟在一篇論文中描述了一種新的圖片註釋算法。微軟表示,其開發的新算法在某些特定的測試中,精確度超過了人類。

目前,該 AI 系統已被用於更新微軟爲視障人士設計的助手應用程序“Seeing AI”,並將很快被整合到 Word、Outlook 和 PowerPoint 等微軟其他產品中。屆時,它將用於爲圖像創建替代文本(alt-text)之類的任務。這個功能對於提高可訪問性特別重要。

圖|開發人員 Florian beijingers 正在使用“Seeing AI”,微軟圖片註釋算法將被用於改進該類應用。(來源: 微軟 / Maurice Jager)

微軟人工智能團隊的軟件工程經理 Saqib Shaikh 在一份新聞聲明中說:“理想情況下,所有人都應該爲文件、網絡和社交媒體中的圖片添加替代文本,只有這樣,才能使盲人能夠理解具體內容並參與對話。但是,現在人們並沒有做到這一點。所以,我們迫切需要一些應用程序來爲圖片添加替代文本。”

新算法性能是之前的兩倍

這些應用程序包括微軟在 2017 年首次發佈的 Seeing AI。它使用計算機視覺技術,通過智能手機攝像頭爲視障人士描述世界。它不僅能識別家用物品、描述場景,還能掃描文本或幫助閱讀,甚至能識別朋友。它還可以用於描述其他應用程序中的圖片,例如電子郵件、社交媒體等。

微軟沒有透露使用 Seeing AI 的用戶數量,但 Azure AI 公司副總裁埃裏克 · 博伊德(Eric Boyd)在採訪中表示,這款軟件是“爲盲人或弱視人士提供的先進應用之一”。Seeing AI 已經連續三年被盲人和弱視人士 iOS 用戶社區 AppleVis 評爲最佳輔助應用。

微軟的新圖像註釋算法將顯著提高 Seeing AI 的性能,因爲它不僅能夠識別物體,還能更精確地描述它們之間的關係。因此,算法可以在處理圖片時,不僅知道其中包含哪些物品和對象(例如,一個人,一把椅子,一個手風琴”),還能知道它們是如何交互的(例如,“一個人坐在椅子上彈奏手風琴”)。微軟表示,該算法性能比 2015 年開始使用的上一代算法好兩倍。

微軟團隊在在 9 月份發表的一篇預印本論文中對該算法進行了描述,它在一項名爲 “nocaps” 的圖像註釋基準測試中獲得了有史以來的最高分數。“nocaps”是業內領先的圖片註釋測試,當然,它有自己的限制條件。

nocaps 基準測試由超過 16600 條人工生成的圖片註釋組成,這些註釋描述了來自開放圖像數據庫的大約 15100 張圖片。這些圖片涵蓋了一系列場景,從運動到度假,再到美食攝影等等。

研究人員測試了該算法爲這些圖片創建註釋的能力,並與人工生成的圖片註釋做了對比。

圖 | 新算法創建的替代文本示例。(來源:微軟)

但是,需要注意的是,此次 nocaps 基準測試只涉及了複雜圖像註釋一般任務中的一小部分圖片。微軟在一份新聞稿中聲稱,它的新算法“能像人一樣描述圖片”,事實上,只有在處理 nocaps 中一小部分圖片時,它才達到了這些效果。

“性能在 nocaps 上超越人類,並不意味着圖像註釋難題已經解決了”

正如 nocaps 基準測試的創建者之一 Harsh Agrawal 說的那樣:“該算法性能在 nocaps 上超越人類,並不意味着圖片註釋難題已經解決。”Argawal 指出,在 nocaps 上測試性能的指標“僅與人類大致相關”,而基準測試本身“僅涵蓋所有可視化概念的一小部分”。

Argawal 認爲,與大多數基準測試一樣,nocaps 基準只能表示算法在任務中的性能的一個粗略指標,在 nocaps 上有超越人類的表現,並不意味着 AI 系統在圖像理解上超越人類。

誇大 AI 的能力是現階段科技公司的一個常見問題,因爲在特定基準上的性能不足以推斷出在更普遍的基礎任務上的性能。事實上,微軟在過去也曾因對其算法理解文字的能力做出類似聲明而受到研究人員的批評。

不過,近年來,由於人工智能的出現,圖片註釋的任務已經有了巨大的改進,微軟的算法無疑是最先進的。除了被集成到 Word、Outlook 和 PowerPoint 中,這款配有圖片註釋的人工智能還將通過微軟的雲計算和人工智能平臺 Azure 作爲獨立模型提供。

相關文章