摩爾定律減速的當下,如何開發更快速的計算機來滿足 AI 發展的需求?近幾年的深度學習基礎研究有何進展?下一代 Kaldi 是什麼樣子,什麼時候能出原型?在 2020 WAIC· 開發者日上,圖靈獎得主 David Patterson 和 Joseph Sifakis、悉尼大學教授陶大程、Kaldi 之父 Daniel Povey 等嘉賓對這些問題一一解答。

WAIC 世界人工智能大會雲端峯會已於近日在上海落幕。在機器之心承辦的 2020 WAIC· 開發者日上,圖靈獎得主 David Patterson 和 Joseph Sifakis、明略科技首席科學家吳信東、悉尼大學教授陶大程、中國建設銀行總行金融科技部總工程師胡憲忠、百度集團副總裁吳甜、Kaldi 之父 Daniel Povey、多倫多大學助理教授 David Duvenaud,以及 Julia 語言創始人 Viral Shah 做了精彩演講。

圖靈獎得主 David Patterson:用體系結構創新加速 AI 發展

人工智能的發展需要大量數據和速度更快的機器。但是在摩爾定律減速的當下,如何構建更快的機器呢?

2017 年圖靈獎得主、加州大學伯克利分校教授、計算機體系結構宗師 David Patterson 給出了他的答案:針對 AI 和 深度學習量身定製硬件,針對雲和邊緣進行計算機架構創新。

雲端芯片

David Patterson 在演講中介紹了谷歌爲雲端開發的 TPU 系列芯片,以及當前 v3 版本的卓越性能。

那麼,這些芯片構建的超級計算機的性能如何呢?與傳統超算相比,TPU v3 的性能 / Watt 是 TOP500 超算排行榜中第四名「天河」的 50 倍,是 Green500 超算排行榜第一名 SaturnV 的 10 倍(注:David Patterson 此處引用的是 2019 年的 TOP500、Green500 數據)。

邊緣計算架構創新

以適用於邊緣計算設備的阿里平頭哥玄鐵 910 芯片和初創公司 OURS 開發的 Pygmy 芯片爲例,David Patterson 介紹了 RISC-V 架構在邊緣計算芯片中的作用。

RISC-V 是一個基於精簡指令集(RISC)原則的開源指令集架構(ISA)。RISC-V 指令集可開放地用於任何目的,允許任何人設計、製造和銷售 RISC-V 芯片和軟件,且適合現代計算設備。RISC-V 的開源屬性方便相關研究人員在指令集方面進行創新,實現開放式芯片。

此外,Patterson 還介紹了 RISC-V 社區的發展,包括 2019 年由伯克利和清華聯合建設的 RIOS 實驗室。

Patterson 表示:RIOS 在西班牙語裏是「河流」的意思,河流從不同的土地收集水,並藉助水流的力量改變流經之處的地貌。RIOS 實驗室將廣攬英才,發展出一種強大的力量,進而改善信息技術格局。

圖靈獎獲得者 Joseph Sifakis:自治系統是邁向通用 AI 的第一步

隨着物聯網(IoT)的發展,人們可以通過網絡基礎設施遠程感知或控制物體,並將物理世界更直接地集成到計算機系統中,進而實現效率和可預測性的提升。在這種新形勢下,IoT 的發展面臨着人類和工業互聯網的挑戰,其中的關鍵即是自動化問題。但人們真的能夠信任自治系統嗎?

在 WAIC 開發者日主論壇上,Verimag 實驗室創始人、2007 年圖靈獎得主 Joseph Sifakis 教授帶來了「是否可以信任自治系統?邊界和風險又有哪些?」的主題演講。

Sifakis 首先講解了新一代自治系統的概念以及主要特徵。他表示,新一代自治系統通過智能體逐步代替人工操作員來滿足組織自動化需求,並具有以下三個特徵:可行性、與人類的共生自治,以及壓倒性的複雜性。

Sifakis 稱,「我們現在正處於一個轉折點,必須轉向複雜的分散式自治系統,並且不應把傳統系統工程與 AI 支持的系統對立,而要結合兩者。」

自治的概念

Sifakis 以恆溫器、自動輕軌列車、無人駕駛汽車以及象棋和足球機器人爲例,詳細闡釋了自治的概念。他表示:「每個自治系統包含一些在環境中充當控制器且追求個體目標的智能體,所以集羣行爲能夠滿足系統的全局目標。」

自治系統的可信賴問題

這部分涉及自治領域的前沿概念和知識的真實性兩方面內容。

Sifakis 首先解釋了系統可信賴性和任務關鍵性之間的關係,他表示在判斷是否信任自治系統時,應該看到其中的過渡,即給定的任務由人工執行,其他由機器執行。關鍵在於人類與機器如何分責和交流。

下圖爲 Sifakis 列舉的自治等級(Autonomy Level):

接着 Sifakis 談到了知識的真實性。他指出,每個人都瞭解什麼是知識,大腦結合快速和緩慢兩種思維繫統來產生知識。同時提出以下類比:神經網絡生成知識類似於快速思維,常規計算機生成知識類似於緩慢思維,通過有意識和努力的思考產生。

那麼知識如何分類呢?Sifakis 將知識分爲了事實和推論、隱含的經驗知識、科學和技術知識、非經驗知識(如數學和計算機知識)和元知識(知識的知識)。但隨着機器學習和數據分析的引入,知識的分類相應地發生了變化,具體分類如下圖所示:

Sifakis 對近年來人們對自動駕駛汽車的過度熱情進行了反思,同時他認爲未來對使用自治系統的風險評估也至關重要。

最後,Sifakis 表示自治系統是邁向通用 AI 的第一步,其角色也將取決於人類對它們的信任程度。

明略科技吳信東:如何自動構建知識圖譜?

從 Google 搜索,到聊天機器人、大數據風控、證券投資,這些應用無一不跟知識圖譜息息相關。知識圖譜在技術領域的熱度也在逐漸上升。在今年的 WAIC 開發者日上,明略科技首席科學家、明略科學院院長吳信東分享了「自動構建知識圖譜」的主題演講。

吳信東首先介紹了知識圖譜與數據圖譜之間的關係,表示現有 99% 的知識圖譜實際上是「缺少知識」的數據圖譜,並簡要概述了知識圖譜的定義及發展歷程。

四種知識圖譜構建方法

如何構建知識圖譜呢?吳信東介紹了四種方法:邏輯建模、隱含空間分析、人機交互和本體模型支撐。

關於邏輯建模方法,他主要講述了兩個概念,即邏輯 + 概率作爲可能世界的概率度量和基於邏輯變量或邏輯規則模板的推理模型。

隱含空間分析主要涵蓋了距離、隱變量、張量神經、矩陣分解和翻譯這五種模型。

關於人機交互方法,吳信東簡要介紹了最早採用該方法構建知識圖譜的代表性工作 SIKT、面向對象的交互知識構建系統 IAKO 和 HAO 智能。

在本體模型支撐方法中,吳信東詳細介紹了人工構建本體、半自動構建本體和自動構建三種方式。自動構建又分爲基於語言規則的方法和基於統計分析的機器學習方法。

圖譜自動構建要素 + 應用場景

那麼,如何自動構建知識圖譜呢?吳信東首先提供了總體設計框架,分爲數據自動獲取、三元組自動抽取以及自動糾錯和自主學習三步。其中又涉及「領域知識庫」和「強化學習 + 人機交互」這兩個構建要素。

至於知識圖譜的應用場景,吳信東介紹了三種:網絡行爲動態分析、智能 Q&A 和智能推薦。

HAO 圖譜系統

在演講最後,吳信東向大家展示了明略科學院開發的 HAO 圖譜系統,以及從數據圖譜到 HAO 圖譜的演化。

在應用示例中,吳信東具體分析了 HAO 圖譜在輿情分析、個性化廣告文案生成和導購賦能中的應用。此外,他還講解了圖譜構建用到的三項關鍵技術:句子級信息抽取、篇章級事件抽取,以及靜態 / 動態的圖譜結構表示。

吳信東表示圖譜構建面臨信息丟失、信息冗餘、信息更新迭代這三大挑戰,他認爲必須克服這些問題才能完成優秀的圖譜構建工作。

悉尼大學教授陶大程:深度學習基礎理論探索

爲什麼過度參數化的深度學習模型不會出現過擬合問題?更深的神經網絡總是有更好的性能嗎?神經網絡的損失面是什麼樣的?非線性神經網絡的損失平面與線性神經網絡的損失平面有什麼不同?

在本次開發者日主論壇上,悉尼大學教授、優必選人工智能首席科學家陶大程爲我們介紹了他們在這些深度學習基礎研究問題上取得的進展。

2012 年,AlexNet 的成功觸發了當前這波深度學習研究高潮。此後,儘管已有很多實證結果表明網絡越深效果越好,但採用深度模型的理論原因仍舊模糊不清。

爲了填補這一空白,2018 年,陶大程等研究者對這些問題進行了探索。通過使用強大的數據處理不平等信息理論(data processing inequality information theory),他們證明了:隨着信息損失層(如卷積池化層)的增多,預期的泛化誤差將以指數速度降至零。此外,網絡越深越好的實證觀察是基於小訓練誤差得到的。

具體來說,他們使用了馬爾可夫模型來描述深度網絡,而且輸入和輸出的互信息在其通過網絡層時不會增加。這說明深度網絡中的分層結構對濾除對分類無用的冗餘信息而言至關重要。網絡中每一層的特徵映射很可能是不可逆的,這會因數據處理不平等而導致信息損失。其泛化誤差可能會受限於輸入訓練數據和輸出假設之間的互信息,這說明輸入數據和輸出假設之間的互信息更適合應用於度量模型複雜度。

因此,那些傳統曲線是有效的。此外,這還有助於更好地理解數據增強有助於提升學習性能的原因。

除了神經網絡「深度」這個問題之外,陶大程等研究者還在 2020 年探索了深度學習中的損失平面問題。

2018 年,Soudry 和 Hoffer 證明任意深度的帶有分段線性函數(不包括線性函數)的神經網絡的損失平面可劃分爲多個平滑且多線性的開放單元。儘管其邊界不可微分,但 n 層神經網絡的單元數量在 2^n 數量級上。

基於同一條件,陶大程等人表明,這樣的神經網絡具有無限多個僞局部極小值。也因此,人們並不一定就能復現其他人得到的結果,即使訓練數據和網絡都一樣也是如此。帶有兩個分段線性激活函數的單隱藏層網絡可有效用於凸損失的迴歸任務。

他們進一步表明:1)在每個單元內,所有局部極小值都彼此等價;2)如果損失函數是嚴格凸的,那麼它們全都是一個單元內的局部極小值,並會連接成一個局部極小值谷並構成等價類,這意味着它們由一個連續路徑彼此相連,並且具備同樣的經驗風險。

最後,對於嚴格凸的損失函數,可能在一個鄰近局部極小值的等價類中存在一些平行的局部極小值,局部極小值的所有等價類會構成一個商空間。

這些結果有助於控制損失平面的幾何結構。我們可以通過它們來改善優化算法,進而用更少的計算得到更穩健的解。此外,這項研究還提供了一個不同的視角,可幫助理解嚴重參數化的神經網絡可以很好地泛化用於許多任務的原因。這類考慮了泛化的開發超出了當前大多數基於假設複雜度及其變體的理論框架的期望。

儘管目前的深度學習還存在很多問題,但陶大程表示,他對深度學習仍抱有很高的期待,這種期待包括但不限於穩健性、低成本、可解釋性、對動態環境的適應能力、道德倫理和用戶友好。

而要做到這些,陶大程認爲,將人類知識與深度學習整合到一起是至關重要的。

建行總行金融科技部總工程師胡憲忠:AIaas 設計及應用

AI 時代,企業如何藉助 AI 的力量從自身數據和業務中挖掘亮點,開發 AI 與機器學習解決方案?人工智能即服務(AIaas)應運而生。

中國建設銀行總行金融科技部總工程師胡憲忠表示,將人工智能視角的企業級結構 6 層次設計集成到原有的企業架構中,才能實現建行的人工智能即服務(AIaaS)目標。而 AI 是企業級架構的重要組成部分。

而基於平臺即服務 (PaaS) 三個 AI 框架的工程方法支持機器和深度學習,以服務組合和重用方式,快速釋放 AI 應用。

人工智能即服務(AIaaS)結構

緊接着,胡憲忠介紹了 AIaaS 結構。其中,AI 功能組件分爲 6 大類,分別是圖像識別類、智能安全類、自然語言處理類、視頻識別類、語音識別類和知識圖譜類。這些 AI 功能組件旨在提升企業的智能化能力,提供服務目錄供應用組件和應用調用。

相關組件及其服務實例列表如下:

應用現狀

在講述人工智能應用場景時,胡憲忠稱業務領域場景已經涉及建行業務模型 6 個完整價值鏈,貫穿產品管理、營銷支持、產品運營、業務支持、風險管理和報告與決策。

而隨着建行的業務創新和風險控制加強,人工智能支持的業務場景也在不斷地釋放。

演講最後,胡憲忠對建行人工智能應用的成效進行了總結,表示這符合 Gartner 研究,可以促進收入增長、降低運營成本以及提升客戶體驗。

他強調,AI 會成爲未來改變企業與客戶關係的重要技術。但科技的目標是提升員工的幸福感,而不是取代他們的工作。

百度集團副總裁吳甜:AI 大生產平臺的實踐與創新

對於每一個做 AI 的企業來說,技術的落地都是一個繞不開的話題。在今年的開發者日上,百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜帶來了百度在 AI 平臺與產業結合過程中最新的實踐進展以及思考與創新方案。

在疫情期間,百度在疫情防控、復工復產等方面提供了全方位的技術支持,包括短期內上線的疫情問答機器人、口罩人臉檢測系統、AI 多人測溫系統、肺炎篩查與病情預估 AI 系統等。

這些技術應用都是依託於百度 AI 大生產平臺打造的。該平臺實現了 AI 技術的標準化、自動化和模塊化,使得開發者、企業無需從頭去學習難度高 / 迭代快的前沿科技,避免重複造輪子。

而這個平臺的基礎底座就是百度的飛槳深度學習平臺。飛槳爲 AI 應用生產提供了核心框架、工具組件、服務平臺等全方位的支撐。爲滿足企業需求開發的飛槳企業版可以提供更全面和強大的功能,更易用的可視化界面,預知更豐富的場景模型,提供更強化的安全權限管理。

吳甜還以垃圾分類爲例介紹了飛槳在具體場景下的工作機制。

在過去一年屢次突破各項記錄的持續學習與理解框架 ERNIE 也在本次開發者日亮相。

在 ERNIE 模型推出之後,百度快速地探索了「預訓練 + 微調」的開發新範式,解決了 NLP 產業應用中場景分散的諸多難題。

此外,百度還在 ERNIE 模型的基礎上推出了整個開發平臺。

爲了向開發者提供高效、好用的預訓練 + 遷移學習機制,飛槳也持續開展了很多工作。與 2019 年 11 月相比,飛槳預訓練模型庫數量已經增長了 137%,模型下載量增長了 17%,Fine—Tune 任務數量增長了 124%。

吳甜表示,百度還基於飛槳平臺推出了 PPDE(PaddlePaddle Developers Experts)計劃,爲不同層級的人才提供不同的權益,包括技術專家認證、黃埔綠色通道、全球頂級會議的交流機會等。

Kaldi 之父 Daniel Povey:在中國,打造新一代 Kaldi

如何讓語音識別工具跟上時代潮流?Kaldi 之父、小米集團語音首席科學家 Daniel Povey 開始了他的探索。在離開約翰霍普金斯大學之後,Daniel Povey 選擇來到中國,他表示要在中國打造新一代的「Kaldi」。

在 WAIC 開發者日上,Daniel 介紹了開發新一代 Kaldi 的思路、時間線和進度。

演講圍繞「可差分的有限狀態接收器(FSA)」展開,Daniel 希望能夠基於 PyTorch 甚至 TensorFlow 構建語義識別模型。

他提到,在人們建立語音識別系統時,此類系統通常是兩種不同事物的混合體,一種類似 PyTorch 和 TensorFlow,另一種類似 OpenFst。而這二者之間的連接並不容易。

Daniel 的想法是:通過幾行代碼、PyTorch 或者擴展來實現 CTC 或者類似的算法,並結合詞彙知識,以瞭解單詞的發音。

那麼,下一代 Kaldi 項目到底是什麼樣子呢?Daniel 在演講中披露了一些細節。

K2 是下一代 Kaldi 的核心組件,用於處理序列和有限狀態接收機(FSA)。Daniel 詳細介紹了 K2 的結構、數據類型等細節。

如上圖所示,K2 是一個 Python 庫,可與 PyTorch 兼容,擁有兩個後端,一個是 C++,另一個是用於 GPU 的 CUDA 後端。PyTorch 可以高效處理矩形張量,但是不適合處理不規則數組,而 K2 項目旨在利用多種工具處理不同類型的數據,提高速度和靈活性。

此外,Daniel 表示,下一代 Kaldi 將使用全新的模型,並介紹了可能的流程:

Daniel 表示,希望把處理序列和 FSA 的 K2 組件與其他工具結合起來,做成語音識別工具包,並能夠基於 PyTorch 甚至 TensorFlow 構建語音識別工具。

多倫多大學助理教授 David Duvenaud:用 ODE 模型解決連續時間難題

離散時間和連續時間差別巨大。大部分深度學習時序模型(如循環神經網絡)要求數據以規則的時間間隔記錄,如每小時記錄一次。然而許多現實數據,如病歷、客戶交互或金融交易,是以不規則時間間隔記錄的。

那麼,如何處理連續時間動態呢?

多倫多大學助理教授、向量學院的創始人之一 David Duvenaud 介紹了,利用微分方程模型來處理連續時間動態的近期進展。

微分方程的基本思想是把系統建模爲具備某個狀態 z,而建模這一系統的方式是構建某個函數 f,f 表示系統的情況及其在當前狀態下隨時間的變化率。

一旦我們獲得了某個時間的狀態,並且有了 f,我們就可以通過納入狀態隨時間的變化來預測未來時間的情況。這種操作被稱爲求解初值問題,並且可使用數值求解器有效地完成,即便此時 f 比較複雜。

過去幾年這方面的重大進展是人們開始使用神經網絡來擬合 f,我們甚至可以完全基於數據學習 f,進而預測未來任意時間點的情況。

David Duvenaud 介紹了 ODE-RNN,以及另一種更復雜的處理時間序列數據方式——隱變量模型。

我們能否將隱變量模型擴展應用於連續時間呢?

David Duvenaud 介紹了最簡單的一種隱變量模型——隱 ODE 模型。

下圖展示了隱 ODE 模型與簡單的正弦動態數據集的擬合效果:

隱 ODE 模型代碼地址:https://github.com/YuliaRubanova/latent_ode

隱 ODE 模型能夠很好地應用於多種情況,但它的動態是確定性的。

那麼,如何爲隱 ODE 模型添加隨機性?

答案是將它們擴展成隨機微分方程(SDE)。

最後,David Duvenaud 表示,在過去兩年中他與別人合作開發了自動將隱 ODE 模型、SDE 模型與連續時間數據擬合的工具,但目前仍處於概念驗證階段。

Julia 創始人 Viral B. Shah :Julia,一門爲 AI 打造的語言

作爲機器學習社區的開發者,我們最熟悉的語言可能就是 Python 了。但最近兩年,一門新的語言正在崛起,它就是 Julia。Julia 是一門靈活的動態語言,適合科學和數值計算,性能可與傳統靜態語言媲美。

在今年的 WAIC 開發者日上,Julia 聯合創始人 Viral B. Shah 爲我們介紹了這門語言過去一年在 AI 以及其他領域取得的所有進展。

很多人可能會問:我 Python 用得好好的,爲什麼還要考慮 Julia?對此,Shah 表示,「Python 是一種解釋型語言,儘管它有一個令人驚歎的生態系統,但在性能方面仍有許多不足。」

Debian Project 的一項基準測試表明,Julia 的速度可以達到 Python 的 30 倍。尤其在面對大量數據時,Julia 可以使用多線程,實現快速的數據加載。隨着社區的不斷壯大,Julia 的生態也在不斷豐富,目前已經擁有 3000 多個開源包。

在過去的一年,Julia 社區貢獻了許多模型。在 CV 方面,他們貢獻了圖像識別和對象檢測模型;在 NLP 方面,他們有用於翻譯的 Transformer 模型;在 3D 圖形方面,Julia 的 GeometricFlux 和 Flux3D 軟件包要優於 Pytorch 和 TensorFlow 中的同類框架。

目前,全球有 1 萬多家公司都在使用 Julia,包括谷歌、空客等國外科技公司和阿里巴巴、騰訊等中國科技公司。

Julia 服務的行業也非常豐富,包括保險、製藥、氣候等多個領域。其中,美國輝瑞公司使用 Julia 將其 Matlab 代碼加速了 26 倍,並行化之後速度提升 115 倍;美國基因泰克公司構建了一個 Julia 程序包,處理基因數據的速度比以前的程序包 R 快 65,000 倍。

目前,很多世界名校都已開設 Julia 的相關課程,如斯坦福大學、麻省理工學院等。

Shah 還爲大家推薦了一些 Julia 的學習教材:

以上這些都是主單元的主題演講的精彩內容。WAIC開發者日還包括高峯對話、四場分論壇、百度公開課、開源開放 Demoday、黑客馬拉松、WAIC 雲帆獎等精彩環節。

經過一天的高強度知識洗禮,相信大家都回味無窮,請持續關注機器之心,更多 WAIC 開發者日精彩內容將陸續放出。

相關文章