摘要:百度深度學習技術平臺部總監馬豔軍首次對外公佈了PaddlePaddle全景圖,集核心框架、工具組件和服務平臺爲一體的端到端開源深度學習平臺,囊括支持面向真實場景應用、達到工業級應用效果的模型,針對大規模數據場景的分佈式訓練能力、支持多種異構硬件的高速推理引擎等。在開發者社區中,PaddlePaddle提供免費在線課程、免費算力支持,以及不間斷的賽事互動,持續推動深度學習技術發展。

深度學習正在迎來它的高光時刻。4月23日,首屆WAVE SUMMIT 2019深度學習開發者峯會在北京舉辦,過千位“慕名而來”的開發者與AI專家、學者一道見證了國內真正意義上第一場深度學習開發者盛會。

會上,百度高級副總裁、深度學習技術及應用國家工程實驗室主任王海峯表示,“深度學習推動人工智能進入工業大生產階段,而深度學習框架是智能時代的操作系統。”他認爲,深度學習技術已經具備了很強的通用性,正在推動人工智能進入工業大生產階段,呈現出標準化、自動化和模塊化的特點。深度學習框架承上啓下,下接芯片、大型計算機系統,上承各種業務模型、行業應用,是智能時代的操作系統。

深度學習再迎高光時刻 百度PaddlePaddle亮“成績單”

PaddlePaddle全景圖首曝光11項新特性及服務重磅發佈

作爲最早研究深度學習技術的公司之一,百度早在2013年即設立全球首個深度學習研究院。經過沉澱與積累,2016年百度PaddlePaddle 正式開源,成爲中國首個也是目前國內唯一開源開放、功能完備的端到端深度學習平臺。2017年,由國家發改委批覆,百度牽頭籌建了國內唯一的深度學習技術及應用國家工程實驗室。百度在深度學習領域的實力可見一斑。

核心技術,是國之重器。開源三年的PaddlePaddle在深度學習開發者峯會上交出斐然的“成績單”。

百度深度學習技術平臺部總監馬豔軍首次對外公佈了PaddlePaddle全景圖,集核心框架、工具組件和服務平臺爲一體的端到端開源深度學習平臺,囊括支持面向真實場景應用、達到工業級應用效果的模型,針對大規模數據場景的分佈式訓練能力、支持多種異構硬件的高速推理引擎等。此次,重磅發佈11項新特性及服務,包含PaddleNLP、視頻識別工具集、Paddle Serving、PaddleSlim、AutoDL Design等多種深度學習開發、訓練、預測環節的“硬通貨”。現場還宣佈“1億元”AI Studio算力支持計劃,首次公佈PaddlePaddle中文名“飛槳”。

馬豔軍表示,“百度爲大家提供的不僅是深度學習框架,而是提供一整套緊密關聯、靈活組合的完整工具組件和服務平臺,全面覆蓋初學者、零算法基礎工程師、算法工程師、研究者,平臺功能覆蓋更加完備,覆蓋的用戶更全面,各部分的打通更加順暢。”

深度學習再迎高光時刻 百度PaddlePaddle亮“成績單”

首先,核心框架層開放了從開發到訓練,再到預測的一整套完整能力。開發環節,PaddlePaddle已開源60多個經過真實業務場景驗證的官方模型,涵蓋視覺、NLP、推薦等 AI核心技術領域,成爲官方支持模型最多的深度學習平臺。全新發布PaddleCV及業界首個視頻識別工具集。面向工業應用的中文 NLP 工具集 PaddleNLP,將自然語言處理領域的多種模型用一套共享骨架代碼實現,可減少開發者在開發過程中的重複工作。擁有當前業內效果最好的中⽂語義表示模型和基於用戶大數據訓練的應用任務模型,模型源於產業實踐,達到工業級的應用效果。

首次重磅發佈的視頻識別工具集,爲開發者提供解決視頻理解、視頻編輯、視頻生成等一系列任務。它開放了7個視頻分類經典模型,這些模型共享一套配置文件,並且在數據的讀取、評估等方面共享一套代碼,覆蓋視頻識別方向的主流領先模型,還可實現一鍵式的高效配置來做訓練和預測。

訓練環節,大規模分佈式訓練主要從三方面實現了升級。首先多機多卡的全面高效支持,提升了速度;其次是在CPU的應用場景方面,針對大規模稀疏特徵設計並開放了大規模稀疏參數服務器,開發者可輕鬆下載相關鏡像使用;大規模分佈式訓練支持在各種容器上高速運行,同時支持在K8S生態下使用PaddlePaddle進行訓練。

數據處理方面,優化分佈式IO,增加遠程文件系統流式讀取能力。GPU多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力,在低配網絡帶寬網絡環境下,例如10G網絡下,同步訓練可提速10倍。

開發和訓練後,將模型部署到各種應用場景下是非常關鍵的一個步驟。部署環節需要高速的推理引擎,在此基礎上,爲了部署在更多的硬件上往往需要做模型壓縮,在真正使用時,還需要軟硬一體能力的支持。基於此,PaddlePaddle準備了完整的端到端的全流程部署方案,並將持續擴展對各類硬件的支持。基於多硬件的支持,PaddlePaddle提供性能全面領先的底層加速庫和推理引擎,全新發布Paddle Serving支持服務器端的快速部署。不僅如此,模型體積壓縮庫PaddleSlim也是爲開發者準備的“重磅驚喜”,針對體積已經很小的MobileNet模型,它仍能在模型效果不損失的前提下實現70%以上的體積壓縮。

靈活、高效、易用是PaddlePaddle大受歡迎的重要原因。在多項全新發布及重磅升級中,工具組件方面顯得尤爲突出。此次,PaddlePaddle不僅重磅開源AutoDL Design、升級PARL,並首次提出併發布預訓練一站式管理工具PaddleHub。

傳統神經網絡的結構設計是由人根據經驗設計,並不斷的進行調參訓練獲得最優結果,這個過程較爲複雜和費時費力。AutoDL Design自動化網絡結構設計是用深度學習設計深度學習,目前已經全面超過人類專家設計的網絡效果。升級後的強化學習工具PARL,在算法的覆蓋、高性能通訊以及並行的訓練方面做了大量支持和擴展。簡明易用的預訓練模型管理工具PaddleHub,提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能,10行代碼即可讓開發者完成模型遷移。

百度豪擲1億元免費算力 爲開發者破除算力桎梏

大數據、大模型、大算力是深度學習發展的必備因素,算力的重要性不言而喻。百度豪擲1億元免費算力,力爲普通開發者破除算力桎梏。馬豔軍宣佈,百度一站式開發平臺AI Studio重磅推出算力支持計劃,“我們提供總計1億元免費算力,助力開發者成功”。據介紹,免費算力主要以兩種模式提供,第一種是一人一卡模式,V100的訓練卡包括16G的顯存,最高2T的存儲空間。另外一種是遠程集羣模式,PaddlePaddle提供高性能集羣,供開發者免費使用。

深度學習的標準化、自動化、模塊化推動人工智能進入工業大生產階段,也進一步爲產業升級提供了強有力的“助攻”。基於PaddlePaddle,北京林業大學研發的面向信息素誘捕器的智能蟲情監測系統,研究對象是紅脂大小蠹。這套檢測系統的應用大幅降低蟲情監測的人力成本,以往人工檢測需要一週的工作量,現在用自動檢測一小時內就能處理完。中科院遙感與數字地球研究所應用PaddlePaddle Faster R-CNN模型,結合特徵提取網絡VGG16及區域建議網絡(Region Proposal Network,RPN),以及融合attention機制的Deeplab v3網絡對遙感影像進行目標檢測與語義分割,從而實現對重大工程目標與建設用地變化圖斑的提取。輔助國家進行重大工程用地擴張與變化情況的監測工作,並對土地資源的利用進行有效管理與控制。

深度學習發展一方面是技術的不斷創新突破,另一方面需要建設完整健康的生態。高校方面,百度提供深度學習師資培訓,並通過協同育人專項基金以及AI Studio教育版,培育深度學習領域高校人才;在開發者社區中,PaddlePaddle提供免費在線課程、免費算力支持,以及不間斷的賽事互動,持續推動深度學習技術發展;企業方面,不僅舉辦黃埔學院,還發布了“AI快車道”計劃以及AI技術的生態扶持計劃,預計深度扶植1000家AI企業。

此外,本次大會百度還爲開發者們精心打造了屬於他們的深度學習“江湖”,不但有傳授深度學習“武功祕籍”的公開課,還有“實戰過招”的開發者市集,一次性滿足深度學習開發者從“心法招式”到“當面切磋”的需求。

這一場過千位開發者組成的深度學習開發者峯會,必將掀起國內深度學習史無前例的浪潮,加速深度學習技術的發展和產業應用,必將成爲歷史上不可磨滅的一筆。

相關文章