隨着網課、在線會議的快速發展,一臺便攜智能的錄音設備,開始成爲不少學生羣體和初入職場的小白的日常剛需。

偶爾隨機性的錄音需求,普通智能手機足夠解決。如果是相對高頻的錄音及文字轉寫需求,一臺智能錄音筆則十分必要,尤其是日常室內錄音轉寫場景,價位百元左右的入門級錄音筆瞬間晉升爲生產力工具。

近日,科大訊飛發佈了入門級的產品訊飛智能錄音筆 A1(以下簡稱 “訊飛 A1”),售價 329 元。在價位上,訊飛 A1 直接對標 PK 的是搜狗 398 元的 AI 錄音筆 C1(以下簡稱 “搜狗 C1”)。

兩款產品價格相差不大,同屬 AI、互聯網廠商跨界做智能錄音筆硬件產品,都提供語音轉寫功能,二者誰表現更優秀?搜狗 C1 能否保持入門級錄音筆的領先地位,訊飛 A1 能否 “重新定義”入門級錄音筆產品?我們對訊飛 A1 和搜狗 C1 做了一個對比。

外觀

顏值也是生產力。

在外型上,訊飛 A1 和搜狗 C1 有區別。搜狗 C1 產品外觀造型簡潔直接,直觀但傳統。訊飛 A1 則採用了卡帶造型設計,比較個性化,有設計感,辨識度高,但體型相對搜狗 C1 增加。

搜狗 C1 頂部是一個開關機 / 錄音按鈕,錄音筆正面有個豎條形的指示燈。

在靠近錄音筆的上下邊緣部分則是兩顆數字全向麥,底部是一個 USB Type-C 接口。

訊飛 A1 採用黑色小卡帶設計,機身正面有兩枚按鍵,分別是開關鍵和錄音鍵,兩顆按鍵中間有着聲紋裝飾,其中最兩側的是兩個指示燈按鈕。

訊飛 A1 功能按鍵下方就是 knowles 雙麥克風陣列,在側面有一個 USB Type-C 接口。

配置

搜狗 C1 尺寸爲 62x18x15mm,重 17 克,其電池容量爲 300mAh,錄音時長爲 960 分鐘,待機時長爲 20 天,內部存儲空間爲 16GB。

訊飛 A1 尺寸爲 55x32x15mm,重 32 克,電池容量爲 550mAh,錄音時長爲 1200 分鐘,待機時長爲 25 天,提供 32GB 的機身儲存和 10GB 的雲端儲存。

(訊飛 A1 和搜狗 C1 產品對比表)

在攜帶方便性上,搜狗 C1 採用了側夾式設計,訊飛 A1 則採用了綁帶式設計。這兩種設計在日常使用中都比較方便。

在收聲錄音方面,搜狗 C1 配備了兩顆數字全向麥克風,訊飛 A1 採用了 Knowles 雙麥克風陣列。聲音錄製時,兩款產品均支持角色分離,都是依靠手機 APP 進行音頻轉寫。訊飛 A1 還額外支持中英文混說識別。

訊飛 A1 與搜狗 C1 產品都定位於入門級錄音筆產品,日常使用中他們更像是手機外設的 IoT 設備:錄音聲音後,依靠手機 APP 進行音頻轉寫。這也印證了兩點,一是智能錄音筆產品直接競爭力表現在現場收聲錄音能力(核心是降噪),二是核心競爭力表現在產品背後的語音轉文字的雲端 AI 能力。

功能體驗

1、APP 體驗

要使用訊飛 A1 與搜狗 C1 這兩款設備,首先要下載訊飛聽見錄音轉文字 APP 和搜狗語音助手 APP,除錄音外的所有操作均可在手機上進行。兩款 APP 打開後通過簡單幾步就能快速完成錄音筆的連接,正常使用。

▲訊飛聽見錄音轉文字 APP

▲搜狗錄音助手 APP

在 APP 的功能體驗上,兩款錄音筆搭配的 APP 均支持手機自身錄音。通過 APP,我們還可以在手機上看到錄音筆設備的存儲空間,固件版本等信息,這些二者差距不大。

在具體操作應用中,訊飛聽見語音轉文字 APP 和搜狗錄音助手 APP 最核心的不同,訊飛聽見語音轉文字 APP 操作簡單直接,它並沒有具體區分錄音的場景,直接實現音頻內容的轉寫,針對語氣詞或者講話人的區分,可以內容錄製完畢並轉寫後開啓。

搜狗錄音助手 APP 則細分了不同的語境,包括普通錄音、採訪速記、演講速記、同聲傳譯、對話翻譯等,這些其中部分需要 VIP 會員,需要付費,其包括語氣詞區分和講話人區分同樣是要在錄製轉寫完成後進行。

在這一點上,訊飛錄音筆的 APP 操作上,直擊用戶最需要的東西,而場景語境、轉寫等都不需要用戶處理,全都雲端技術處理;搜狗則需要用戶自己選擇具體場景以實現不同的轉錄效果。至於孰優孰劣,仁者見仁了。

2、錄音轉寫體驗

一款智能錄音筆,核心是錄音轉寫的準確性。訊飛 A1 和搜狗 C1 實際錄音並轉寫準確度如何?我們從一席、TED 和網易新聞上選取了三段演講視頻進行體驗,分別對兩款錄音筆產品在演講、英語識別以及採訪三種情況下轉寫準確率進行對比體驗。

演講:石正麗《追蹤 SARS 源頭》,來源:一席

這篇演講整體發音標準,我們採用實時轉寫方式比較訊飛 A1 和搜狗 C1 產品的具體表現。

在實時轉寫中,涉及 SARS 病毒這類英文詞彙,涉及到的數字內容也比較多,這些都要求錄音筆在轉寫過程中需要區分出這些單詞,並對數字進行準確識別。

我們對兩款錄音筆實時轉寫輸出的文字進行分析。

  • (1) 搜狗 C1 將多處的英文 “SARS”直接識別成 “薩斯”、“殺死”,這在發音上沒有問題,但是會影響識別的體驗,訊飛 A1 也存在兩處這樣的問題,但應該是支持中英混說識別的緣故,中英文混說識別方面訊飛 A1 高於搜狗 C1。

  • (2) 非典型性肺炎,開始部分搜狗 C1 部分識別爲 “非點進行肺炎”,訊飛 A1 識別準確。

  • (3) 在實時轉寫過程中,有一句 “27 個省市都被 SARS 波及到”,訊飛 AI 識別轉寫爲 “27 個省市都被殺死(注:SARS 讀音)波及到”,搜狗 C1 轉寫爲 “27 個省市。都被殺死過街道”。

整體來看,由於這篇演講視頻含中英文混雜、斷句、數字等情況,訊飛 A1 轉寫準確率在 99.3%,而搜狗 C1 轉寫準確率大概是 96.5%,搜狗 C1 轉寫的效果稍遜於訊飛 A1。

演講:Sara Jones 《My Story of Love and Loss as a Transracial Adoptee》,來源:TED

英文相比於中文轉寫難度會更大一些。英文中連讀、縮寫、近音詞等比較多,因此會對轉寫帶來一定困難,轉寫的同時進行實時翻譯,也會更加考驗錄音筆產品的實力。

接下來,我們通過訊飛 A1 的英文轉中文功能和搜狗 C1 的同聲傳譯功能進行轉寫和翻譯的測試。

在實時轉寫及翻譯效果上,訊飛 A1 和搜狗 C1 差別不大,都有不準確的地方,在翻譯效果上也基本一致,都存在機器翻譯的情況。不過,這項功能搜狗 C1 是 VIP 獨享,訊飛 A1 上通過轉寫時長可以免費換取。

此外,搜狗 C1 與訊飛 A1 均支持 10 種語種轉寫,但後者擁有藏、維語的獨家轉寫。方言轉寫方面,搜狗 C1 支持 10 種方言,訊飛 A1 則支持 12 種方言。

採訪:致前行者《楊瀾對話歐陽自遠:中國探月十五年》,來源:網易新聞

採訪往往是由主持人和受訪者兩部分組成,主持人發音上相比於受訪者會好一些,而受訪者則可能會夾雜一些口音或專業名詞,這對於錄音筆的轉寫來講也造成了一些挑戰。

這段素材來自於中國探月首任首席總工程師歐陽自遠院士的採訪,素材中除了主持人楊瀾還有旁白的聲音。

在講述人的區分上,訊飛 A1 是智能識別講述人的數量,而搜狗 C1 則是手動選擇。

在轉寫效果上,訊飛 A1 表現更好。而搜狗 C1 出了同音詞轉寫出現問題,實際錄製過程中也出現了一些錯轉的情況。通過統計,訊飛 A1 轉寫準確率達到 98.3%,搜狗 C1 爲 94.2%。

通過三個場景的轉錄我們看到,訊飛 A1 和搜狗 C1 都有着不錯轉錄效果,但是訊飛 A1 在語境識別、斷句方面,準確度更高一籌。拋開硬件因素,筆者認爲訊飛 A1 配套的訊飛聽見語音轉文字 APP 背後的雲端 AI 語音識別能力,對產品競爭力的貢獻更大。

這方面,訊飛 A1 贈送長達 1 年的免費轉寫服務,也顯得很有誠意和競爭力。

總結

訊飛 A1 與搜狗 C1 是兩款定位基本一致的入門級智能錄音筆設備。對比體驗下來,筆者也深刻感受到,兩款產品在近乎相同價位、硬件配置差異不大(訊飛 A1 剛剛發佈配置略勝一籌)的情況下,與其說他們硬件對標,不如說是硬件背後的訊飛與搜狗之間的 AI 技術實力與底蘊的 PK。

AI 是一個需要技術沉澱、數據積累的長賽道。訊飛與搜狗的語音識別與 AI 能力誰更勝一籌呢?訊飛 A1 與搜狗 C1 的對比,更像是他們二者在 AI 能力上的一場 PK。

我們回到文章開頭,訊飛 A1 重新定義了入門級的智能錄音筆產品了嗎?

筆者認爲,訊飛 A1 的發佈,代表着科大訊飛的語音識別與 AI 轉寫、翻譯等技術的技術下放。訊飛 A1 的出現,意味着可以讓更多的人,用更低的成本,享受訊飛語音識別與 AI 技術的服務。

同時我們也樂觀預期,訊飛 A1 的發佈,必然會刺激整個入門級智能錄音筆產品,在硬件配置、技術服務、價格力度等方面的競爭,這對消費者而言、對 AI 技術的發展而言,都是積極的。

相關文章