2018第七個世界第一來了！科大訊飛刷新Cityscapes評測全部兩項任務世界紀錄

2017年，訊飛研究院院長鬍國平曾表示，“今年我們順便贏了七個世界桂冠”；董事長劉慶峯肯定了這種全身心投入技術研究的態度，並斷言：我們還會有更多的世界冠軍。

近日，科大訊飛2018年獲得的第七個世界第一來了：在國際自動駕駛領域權威評測任務Cityscapes中，科大訊飛團隊以明顯優勢刷新了全部兩項子任務的世界紀錄。

2018年，在計算機視覺領域，此前訊飛已連續在IDRiD眼底圖分析競賽、ICPR MTWI圖文識別挑戰賽中斬獲桂冠。2018年的第七個世界第一也再次佐證科大訊飛在計算機視覺領域的技術實力。

像素級圖像場景分割任務榜單

實例級圖像場景分割任務榜單

Cityscapes評測數據集：多維度考量自動駕駛圖像語義分割，近百家機構“羣雄逐鹿”

Cityscapes評測任務是由奔馳主推，提供在駕駛領域進行效果和性能測試的圖像分割數據集。該評測任務關注真實場景下的道路環境理解，用於評估參與測試的算法在城區場景語義理解方面的性能。

相比其他自動駕駛領域的測試數據集，Cityscapes任務難度更高，更加貼近自動駕駛等當下熱門需求，近年來的熱度也不斷攀升。截至目前，評測已經吸引了包括谷歌、英偉達、三星、騰訊和香港中文大學等近百家國內外優秀創新企業和頂尖學術機構的參與。

在Cityscapes任務所應用的數據集中，包含了5000張精細標註的圖像和20000張粗略標註的圖像，這些圖像包含50個城市的不同場景、不同背景、不同街景，以及30類涵蓋地面、建築、交通標誌、自然、天空、人和車輛等的物體標註。

Cityscapes評測集有兩項任務：像素級（Pixel-level）圖像場景分割（以下簡稱語義分割）與實例級（Instance-level）圖像場景分割（以下簡稱實例分割）。去年10月，科大訊飛曾參與前者並刷新記錄；此次科大訊飛同時參與全部兩項任務的測評，不僅再次刷新了語義分割任務的世界紀錄，同時以較大優勢刷新了實例分割任務的世界紀錄。

包攬兩項第一背後的祕密：框架爲基石，創新做堡壘

Cityscapes評測集中，語義分割任務（Pixel-Level Semantic Labeling Task）使用標準的PASCAL VOC IoU（intersection-over-union）得分來評估預測結果與真實場景之間的匹配準確度，要求參賽算法能夠對圖像中的每一個像素點進行準確的類別預測, 每個像素點的預測結果都會直接影響到最終得分。

實例分割任務（Instance-Level Semantic Labeling Task）則是同時對每個目標進行定位和語義分割，每個目標即爲實例，該任務最終以每個實例的分割準確度進行評估。這兩個任務的主要區別在於，在對某些類別目標進行像素級的分類基礎上，實例分割還需要進行不同實例間的區分，例如需要區分圖像中的車輛和行人，還要將車輛中不同的汽車進行區分和標註。

（結果示意圖：左-原圖，中-語義分割結果圖，右-實例分割結果圖）

針對Cityscapes數據集“尺寸變化大、相互遮擋多、目標辨識難”的特點，訊飛團隊基於圖像檢測和分割基礎算法的多年研究積累，引入了多項創新性技術。在設計語義分割模型方案時，基於Encoder-Decoder框架，融合注意力機制、可變形卷積操作等思想，創新性地增加了一組尺度自適應矯正網絡，使得模型能夠充分地利用各層級特徵和上下文信息來有效地應對場景中類別尺寸的變化，同時通過目標函數的設計對圖像各像素點進行加權編碼及梯度規整，提升難以辨識的“難例”像素點尤其是各類別邊緣相交區域像素點的預測準確度，進一步提升整幅圖像場景中每一個像素點的預測準確性。

在實例分割方案的設計上，訊飛團隊將級聯式檢測方案遷移到實例分割任務的定位模塊中，並針對駕駛場景下的一些特定的空間位置共生關係（比如：汽車出現在道路上，騎車者出現在自行車或摩托車上）引入一種空間注意力機制，逐步提升模型的定位性能，同時在分割模塊的設計上還成功借鑑語義分割模型成熟方案，精細化每個實例對象的分割結果，最終達到更好的實例分割性能。

技術持續登高的動力：應用剛需、驅動產業升級

持續保持業界一流水平，不斷拓展核心算法，連續兩年刷新Cityscapes評測集記錄，科大訊飛在技術上的突破不僅源於對人工智能的深入探索研究，也是多個產業場景深度需求的作用結果。

汽車作爲人類重要的交通工具，在近年來大步邁向智能化的浪潮中，自動駕駛和車聯網技術已成爲業界公認的重要賽道。對於逐步追求智能的汽車來說，是否具備一雙能夠明察秋毫的“慧眼”，不僅決定了車輛的安全性和可靠性，還將直接影響汽車的智能化程度。

不斷優化的算法，爲不同工作模式和不同傳感器配置的智能化車輛提供了“看得清、認得準”的核心能力：

可行駛區域的判斷更加精準

意味着車輛在做出駕駛路線決策時有精度更高的依據，可以更好地將圖像和激光雷達等感知設備返回的結果進行綜合校驗判斷，從而避免因單一傳感器缺陷而產生交通事故的可能性。

物體類別和形狀判斷更加精準

意味着車輛對於當前駕駛環境中其他交通參與者的屬性和具體形狀有更精確的判斷，在面對有些激光雷達難以識別的物體屬性和難以區分的物體實例時，車輛可以通過視覺感知這一更加直觀且完整的方案來大幅度地降低事故出現的概率。

對科大訊飛而言，在從單純的智能語音能力提供商積極轉型爲整車智能化方案提供商的進程中，Cityscapes評測恰好成爲了考驗科大訊飛在計算機視覺領域算法水平的“試金石”。而通過了檢驗的領先核心算法技術不僅可以更好地爲訊飛保駕護航，還能進一步加速機器視覺能力的產品落地應用。

除了智能汽車領域，與之緊密相關的智慧城市領域中則涉及到道路交通流量統計、安防等多個實際業務場景。此次參與Cityscapes評測任務所帶來的核心算法能力的提升和拓展，將持續助力未來產品效能提升，推動音視頻智慧交通產品領域邁向一體化。

憑藉在計算機視覺領域積累的核心技術能力，科大訊飛目前已經在教育、醫療、政法等行業賽道深入應用。不論是訊飛翻譯機、訊飛閱讀APP等產品中圖文識別的功能，還是智慧教育中的智能輔助評卷，智慧醫療中面向肺結節檢測、眼底圖分析的醫學影像診斷系統，面向公檢法等應用場景的文檔圖像分析與識別系統，都蘊含着訊飛在計算機視覺領域的孜孜以求。未來，訊飛將全面持續推進核心技術的優化迭代與落地應用，世界第一絕非終點，而是見證更多驚喜與改變的起點。

附：2018年科大訊飛在覈心技術領域取得的成果

2018年1月，機器閱讀理解SQuAD閱讀理解大賽再次刷新世界紀錄，EM得分超過人類平均水平（參賽者包括微軟、谷歌、Facebook、IBM、Salesforce、斯坦福大學、卡耐基梅隆大學、清華、北大等國內外企業和科研機構）；

2018年2月，在由國際計算語言學協會（ACL）下屬組織主辦的第十二屆國際語義評測比賽（SemEval2018）中，斬獲基於常識的機器閱讀理解全球第一；

2018年3月，在由醫學影像領域的國際頂級會議The IEEE InternationalSymposium on Biomedical Imaging (ISBI)舉辦的IDRiD糖網病挑戰賽上，取得微動脈瘤分割任務第一名、其餘三項任務前三名的佳績；

2018年6月，在由模式識別領域國際學術頂會ICPR舉辦的MTWI（Multi-Type Web Images，多樣式網絡圖像）國際識別挑戰賽中，榮膺“文字識別”、“文字檢測”和“端到端識別”全部三項冠軍；

2018年7月，在國際權威英文語音合成比賽中連續13年蟬聯世界第一，仍然是語音合成自然度指標全球唯一超過真人說話水平的公司（獲得10個測評項目中的9項第一，在最關鍵的自然度和相似度評測指標上均大幅領先第二名）；

2018年9月，國際權威英文語音識別大賽“CHiME-5”中，科大訊飛包攬全部四個項目的第一名。

查看原文 >>