好未來AI背後的故事——教育OCR“4個9”的極限追求

打開題拍拍,首先映入眼簾的是一幅拍照畫面。當你將習題拍攝入框時,便可立即得到相匹配的題目解析。別看這個過程如此迅捷,背後的學問可不簡單。這個識別圖像裏文字的技術叫作OCR,全稱是Optical Character Recognition,中文名爲光學字符識別。

OCR這項技術其實並不新鮮,早在1929年德國科學家Tausheck便提出了OCR技術的概念。隨後在六七十年代世界各國就開展了系統的研究。但由於識別率和設備成本等問題,早期的OCR軟件一直離民用很遠。進入數字時代後,幫助機器理解物理世界成爲了時代命題,OCR作爲數字世界的眼睛,其重要性也在不斷提升,圍繞OCR的技術日新月異,但大多解決的仍是通用印刷體的識別問題。

教育場景需要的OCR技術有其特殊之處。學生將手機鏡頭對準的,往往是一張卷子或者一頁練習冊。同時入框的不僅有多個習題,還會有很多學生答題的手寫筆跡,甚至還有混在一起的文字與公式(包括手寫算式)。如果沒有專爲教育場景研究的OCR技術,識別這些特殊場景中的文字往往是很難做到的。因此,好未來自研出了一套適合智慧教育的OCR技術。

從零到一,萬丈高樓平地起

好未來AI中臺成立伊始,就將教育OCR作爲重點發力的研究領域之一。教育OCR包括印刷OCR、手寫OCR、公式OCR、表格OCR、版面結構化識別等等。彼時,無論學術界還是教育行業內,都沒有成熟的公式識別方案。因此,好未來AI中臺將公式識別技術作爲研究的重點,開始了從零向一摸索的過程。

圖:好未來OCR技術應用於教育場景的能力類型

公式識別具有鮮明的行業色彩和行業壁壘。

公式識別算法的基礎是數據。在這一方面,好未來多年的教育積累有了用武之地,各年級、各學科五花八門的真實習題爲AI中臺提供了充足的數據“彈藥”。OCR團隊在短時間內基於CRNN(卷積循環神經網絡,一個識別場景文字的常用方法),創新研發出能支持簡單公式的序列識別算法和基於公式字符分離的重建識別算法。這兩大能力,讓AI可以初步理解試卷上的公式和文字,而且可以像人腦一樣從左到右、從上到下地進行結構化智能理解。

雖然這時的識別準確率還有待提升,但標誌着算法研發進入了第二階段——探索印刷公式識別的最佳方案,提升準確率。好未來吸收學術界的公式研究成果,在兩個月內通過數百萬個數據驗證算法可行性,最終形成了有特色的算法框架,引入增強語義和避免漂移的網絡結構,並提升算法對模糊數據、多層嵌套數據的泛化性。經過攻堅,此階段的印刷公式識別在學生拍照搜題的核心場景中得以應用並大幅提升理科題目的搜索正確率。與此同時,好未來在教育場景的公式數據盲測中達到領先水平。

好未來公式識別的第三階段最具挑戰性。在學生實際使用中,還會出現手寫風格不同、字跡潦草、隨意多行、字體大小不一和角度傾斜等各種問題,特別是低年級的學生手寫筆跡相比成年人還有顯著差異。

圖:複雜的實際答題圖片,好未來OCR依然能準確識別

AI中臺與各業務線合作,爲OCR提供了學生學習和作答的海量且真實的筆跡數據,幫助算法實現數據從0到百萬的突破。同時,算法也積極開展多項創新,不僅實現多風格數據遷移和增強,也在多行識別中取得技術突破並形成技術優勢。

截至目前,好未來自研教育OCR已經實現了通用公式識別,即適用印刷文字與手寫文字混合、多行文字與高級公式混合等複雜場景,很好地支持了題拍拍的印刷手寫一體化拍搜功能。

從90%到99.99%,行百里者半九十

解決了能力準確性和多樣性的問題,還需要達成可用性——又要穩定又要快。

先從“穩定”講起。

在業內有一句話:“搜索的準確率每提升1%,所需的題庫成本就要以千萬計”。作爲一家有18年教學經驗和數據沉澱的科技教育公司,好未來將技術中臺與前臺業務相結合,使得技術人既能快速感知到用戶需求,又能得到大量教育數據的反哺,儘可能以技術和數據驅動降低成本。於是,AI中臺和題拍拍團隊聯合,挖掘可以爲拍照搜題“提升1%”的每一個技術點。合作至今,教育OCR爲這每一個“1%”展開了多項的技術專題攻堅,形成一系列的創新實踐併成功落地。教育OCR永遠保持對技術的追求,持續開拓新的技術能力,爲智慧教育提供技術支撐。

AI中臺和題拍拍組成了高度協同的One team機制,雙方出專人專項每週一起研究前線最新問題,並制定最高標準的可用性推進目標。雙方達成了一個有趣的“對賭協議”:在規定時間內,如果AI中臺每多實現一個9(即可用性從實現90%到99%、再到99.9%、99.99%……),則由題拍拍團隊提供“美食激勵”,反之則由AI中臺承擔。

雙方以高技術標準堅守教育初心,懷着創業的激情擼起袖子加油幹,當遇到難以解決的艱難問題時,在線會議常常從晚上七點不知不覺就開到了半夜兩三點。會議從公司到地鐵,再開到家中,地鐵的速度根本追不上每個參會者頭腦風暴的速度。

然而當99.99%可用性目標實現的那一刻,投身其中的研發老師們反而沒有預想中的歡呼雀躍和狂歡慶祝,“大家互相看了看對方臉上的黑眼圈,腦子裏想的是還有更多的技術挑戰等待去解決,這大概就是水到渠成吧。”一位項目組夥伴回想起那個時刻,平靜地說。

這是讓每個參與者都難忘的一段飛馳,非齊心協力的共創精神無以到達,如好未來的價值觀所言——爲熱愛全力以赴。

千鈞一髮,好產品不違人心

再來講講“快”。

爲了儘可能爲產品提速,算法的每一模塊都被單獨拎出來重構提速,資源佔用優化提升了百分之三十五。好未來AI中臺的技術人用一週時間便做到了算法層面的毫秒級響應。也就是說,如果題庫中已收錄,學生最慢也可以在一秒以內獲得滿意的解答。

好未來的另一條很重要的價值觀是:“一切從用戶出發”。產品好不好,歸根結底還是要看能否經得起用戶的考驗。

一位媽媽講述了她的真實故事。

最開始,這位母親下載了市面上許多拍照搜題類軟件,但是一個月後,她只留下了題拍拍。這是因爲她發現,別的拍照搜題的app在搜索整張卷子的題目時,框選每道題的位置都需要手動二次調整校準,而題拍拍可以精準框選並直接生成每道題的解析,這一個小小的技術精進卻幫助這位母親節省了大量輔導孩子的時間。

這一位用戶的最終選擇,離不開好未來產研人對技術和體驗的極致追求。

圖:自動分割框選出不同試題

題拍拍是AI中臺的一段征程,AI中臺已將其中“久經考驗”的教育OCR技術形成Hawkeye教育通用OCR解決方案,涵蓋中英文識別和公式識別,支持手寫和印刷,並將支持表格識別和重建還原,服務於中英文作文批改、題庫試卷錄入等更多業務場景。據悉,Hawkeye解決方案在印刷體識別、手寫體識別、公式識別、表格識別、整頁框選、綜合識別的六大核心能力指標裏,已全部處於市場領先水平。

開放共創,智慧教育全速啓航

好未來不斷投入對教育OCR的研究,也吸引着學術屆、技術圈對教育領域OCR技術的重視。2020年9月,好未來就以“教育手寫公式識別”爲賽題,依託智慧教育國家新一代人工智能開放創新平臺,聯合科技部火炬高技術產業開發中心、北京市科學技術委員會,舉辦了“第五屆中國創新挑戰賽·智慧教育專題賽”。

賽事吸引了來自清華、北大、中科大等高校,阿里、百度等互聯網企業,以及中科院計算所、中科院自動化所等研究院所約數百支隊伍參賽,參賽隊伍人才濟濟,涵蓋國際賽事的冠軍團隊、中國圖形圖象學學會(CSIG)常務理事及專委會主任等衆多專業選手與優秀的OCR團隊。

比賽中,好未來爲業界提供了20萬張各教育場景下的手寫公式訓練數據和測試數據,以遠超各個開源學術數據集的數據體量和複雜性,爲參賽團隊提供了充足的“彈藥”,助推行業夥伴共同碰撞出手寫公式識別技術新的發展方向。

同時,好未來依託正在承建的智慧教育國家新一代人工智能開放創新平臺,將優秀的教育OCR能力逐步面向全行業開放,幫助教育行業內暫時沒有AI、沒有OCR能力的機構和創業者快速發展。

而這只是故事的開始。在向極致攀登的路上,挑戰只會更多,沒有捷徑。愛和科技,終將指引我們抵達教育事業的星辰大海。

好未來AI背後的故事——教育OCR“4個9”的極限追求

熱門新聞

週熱門

好未來AI背後的故事——教育OCR“4個9”的極限追求

熱愛不具備任務思維

張雪峯賣研學營，家長邊喊貴邊報名

心力，纔是你的核心競爭力

原創 有希望了！四川棄嬰事件後續：大網紅等多人想領養，網友在線面試

年薪百萬，港碩學霸賣保險賺麻了？

突然發現六月只要上19天班，年已過半

你也許不知道，自己可能是一個“熱人”

AI在教育中的優勢與風險

作爲管理者如何解決工作場所的衝突

領導，謙遜一回如何?

不要做勤奮的笨蛋

AI 在教育中的8項實用示例

20個面試問題，識別優秀管理人才

沒編制的教師崗在廈門不香了？行內：該考的還是考，“有的依舊擠破頭”

兩億學生捧出一家上市公司，全品文教迎來資本“高考”

熱門新聞

週熱門

原創有希望了！四川棄嬰事件後續：大網紅等多人想領養，網友在線面試