人機交互新突破：百度發佈主動多模態交互技術

近年來服務機器人逐漸進入商場、餐館、銀行、機場等場所，給人們提供了簡單的諮詢、導航等服務。然而，由於多數服務機器人僅能被動響應用戶的請求，同時，大多數賓客不瞭解服務機器人的功能，甚至可能不知道它能否正常工作，這種情況下很多人不會選擇貿然去諮詢服務機器人。這種現象導致多數時候服務機器人難以起到實際作用，且使用和交互的頻率非常低，變成“移動平板電腦”。如果服務機器人能主動關注工作區域的場景，針對有潛在需求的訪客，在客戶主動請求之前，就能發起交互，既能給人賓至如歸的感受，又能主動讓用戶瞭解到服務機器人的功能，使得機器人更加智能化、人性化、提升賓客體驗。

爲此，百度的工程師們率先在小度機器人（DuRobot）上開展了一項技術革新。小度機器人落地於百度公司各個辦公大廈大堂，提供迎賓諮詢、引領講解、互動娛樂等功能，是百度對外迎賓的重要一環。這項技術的目的在於讓小度機器人能理解當前場景，發掘用戶潛在意圖，主動發起第一步交互。雖然主動交互也在學術界已經有一些初步的工作，主要通過距離傳感器、攝像頭等設備感知行人意圖，按照預設的交互規則，發起簡單的、寬泛的交互，比如簡單問候“你好”和握手等等。但這些交互模式通常非常有限（比如小於10種）。

爲了使得機器人能夠更加理解場景的細節，帶來更加智能、友好、和自然化的交互體驗，百度提出了全新的“基於視覺記號和 Transformer 模型的人機主動交互系統”（TransFormer with Visual Tokens for Human-Robot Interaction，簡稱 TFVT-HRI）。這套系統不僅能觀察場景主動發起交互和引導，其交互的動作更是包含千餘種多模態動作，使其能夠像人類一樣表現出自然的主動問候。接下來讓我們跟着 demo 視頻，看看小度機器人的新技能吧。

工作原理解釋

百度提出的 TFVT-HRI 框架，是業內首次嘗試將主動交互擴展到集表情、動作、豐富話術於一體的多模態交互模式。通過目標檢測器，將可能對主動交互產生影響的相關物體，提取爲涵蓋視覺以及相對空間信息的視覺標記（visual tokens），然後利用 Transformer 網絡學習一段時間內 visual tokens 之間的關係，從而實現對交互主體的時空建模，預測該交互主體是否有潛在交互意願，當前幀合適的多模態動作是什麼。

該工作以小度機器人爲主體，構建數據採集、模型訓練、端上嵌入式設備部署一套完整的主動交互解決方案。小度機器人工作的真實環境（通常是公共場所，大堂等）十分複雜，各種各樣的光照環境也給計算機視覺技術爲基礎的主動交互計算帶來很大挑戰。爲此，百度在多個大堂採集了不同場景的視頻片段，標註其中合適的觸發時間點，以及合適觸發的多模態動作。共計標註了上千小時的視頻片段，其中包含了3800個需要發起主動交互的場景。數據和交互專家們標註了超過1000組多模態動作組合，同時使用採樣技術獲得足量負樣本，輔助訓練。

TFVT-HRI 框架包含三個模塊：Visual Token 提取器、多模態動作表徵、基於 Transformer 的交互決策模型，如下圖所示。TFVT-HRI 框架首先以 Yolo 作爲視覺特徵提取器，提取了每幀圖像中的多個物體和人物的區域，並結合了位置信息生成表示（a）。接下來，多幀連續信息，通過 Transformer 模型進行編碼（b）。通過這種方式，模型不僅僅能獲取圖像中每一個物體隨時間運動的軌跡，人物的表情和動作變化，還能獲取到人物之間的互動關係，對於場景的理解起到了至關重要的作用。另一方面，我們將專家標註的多模態動作進行編碼，其中，語言利用百度的大規模語義理解模型 ERNIE 進行編碼，動作則利用 Embedding 表示（c）。這種編碼方式在語言上具有很好的泛化和理解能力。模型最終需要決策是否發起主動交互，以及選擇的多模態動作。

效果評估

該項目由於使用視頻流作爲輸入，輸出多模態動作 ID，這樣的做法和當前的視頻動作識別十分類似，因此百度採樣目前最優的視頻動作識別模型 R(2+1D)+ig65m 作爲基線模型和 TFVT-HRI 進行對比。該基線模型使用65M 社交網絡視頻數據做預訓練，並且利用收集的數據集 finetune。考慮到多模動作的合適性很難自動化評估，百度採用了採樣真機部署模型，真人體驗，問卷調查的方式評估動作的合適性，這樣自動化評估指標只注重多模動作觸發的時機的合適性，因而使用精準率、召回率、F1等指標。從下表可以看出，基線模型由於缺少交互對象時空建模能力，在全新的測試集上精準率顯著低於 TFVT-HRI 模型。

基於 Paddle Inference，將模型部署到機器人的嵌入式運算設備 Jetson AGX 後發現，TFVT-HRI 模型可以達到6.25FPS，而基線模型（使用輕量版本）只有1.89FPS，考慮到基線模型延遲明顯，嚴重影響用戶體驗，在用戶實驗部分，百度團隊主要對比了不使用主動交互的傳統模式。

有30名新入職員工參加了我們的用戶問卷實驗，他們之前全都沒有體驗過小度機器人，避免了主觀印象的影響。問卷涵蓋了情緒指標：效價（Valence）和喚醒度（Arousal）；態度指標：整體舒適程度、自然程度、友好和智能程度。

獨立樣本 T 檢驗（Independent-Samples T Test）結果顯示：兩組被試在效價（t(28)=1.218，p=0.233>0.05）和喚醒度（t(28)=1.906，p=0.067>0.05）均不存在顯著差異。將 Valence-Arousal 數據映射到社會心理學中常用的 Russel 情感極座標模型，可以發現兩種交互系統都能給用戶帶來偏向『激動』（EXCITED）的正向情緒。

雖然兩種模式喚起的用戶情緒無顯著差異，但在其他主觀指標上，兩種交互系統差異明顯。Levene’ Test 表明，除了“智能的”之外，其他變量方差齊性（homogeneity of variance）的假設成立，因此我們對“整體舒適度”、“自然的”、“友好的”進行了獨立樣本 T 檢驗，對“智能的”進行了 t'檢驗。結果顯示，兩組被試對“整體舒適度”（t(28)=2.141，p=0.041<0.05）、“智能的”（t' (24.679)=2.225，p=0.035<0.05）、“自然的”（t(28)=2.354，p=0.026<0.05）和“友好的”（t(28)=2.705，p=0.012<0.05）評分均存在顯著差異，TFVT-HRI 框架的評分顯著高於被動交互組。

百度的這項新技術已經全面落地於小度機器人，並且在統計數據上取得了顯著的效果。以小度機器人服務的某大堂爲例，10月用戶對比去年成功 Query 查詢量從1070個提升到5077個，平均有效服務時間從3.109% 提升到9.268%，提升十分顯著。

總結

作爲小度機器人進化的第一步，百度提出的 TFVT-HRI 主動交互框架使用 visual tokens 和 Transformer 對交互主體進行時空建模，理解他們的行爲、意圖，然後引導機器人主動發出包含表情、動作、豐富話術的多模態交互，帶給用戶更加舒適、自然、友好的體驗。目前該框架專注於主動發起第一次交互，後續百度也在探索引入用戶反饋機制，實現在線學習、強化學習，以及更大的交互動作空間。百度該技術也已經開源於 PaddleRobotics 庫，致力於向機器人行業輸出高質量的 AI 和深度學習解決方案。

開源地址：

https://github.com/PaddlePaddle/PaddleRobotics

文章地址：

https://arxiv.org/abs/2012.04832

人機交互新突破：百度發佈主動多模態交互技術

工作原理解釋

效果評估

總結

熱門新聞

週熱門

人機交互新突破：百度發佈主動多模態交互技術

工作原理解釋

效果評估

總結

谷歌開了兩個小時的發佈會，比不上OpenAI半小時

氪星晚報｜快手電商一季度泛貨架GMV佔比超20%；阿里巴巴：賬上未來可用於股票回購的金額近300億美元；阿里巴巴：賬上未來可用於股票回購的金額近300億美元

董宇輝加持也無效？新東方文旅“朋友圈”擴容：聯合飛豬搞研學，銷量仍有限

內測跳轉企業微信功能，小紅書抓住一切機會探索商業化

36氪首發｜柏川數據完成千萬級天使+輪融資，打造高階智駕數據底座

滴灌通“羅生門”，是領頭羊還是“替罪羊”？

馬斯克xAI公司與甲骨文接近達成100億美元協議，租用後者AI服務器

谷歌硬剛OpenAI，硅谷大戰繼續升級

主數據的未來：動態、人工智能驅動、數據湖驅動

抖音海蔘哥，爲什麼還沒有翻車？

G端好產品的黃金準則，到底該如何定義？

Gausspeed AI平臺：定義“下一代”視頻內容創作方式

GPT-4o的“類人”響應速度刺痛Siri？

9.9萬， 人形機器人價格戰第一槍？

諾基亞電子垃圾成了香餑餑

熱門新聞

週熱門

9.9萬，人形機器人價格戰第一槍？