摘要:針對本次 Hackathon 如何賦能 AI 學術青年,以及阿里基礎設施網絡研發事業部的細節,雷鋒網 AI 開發者獨家訪問了劉洪強主席,並在不改變原意的情況下,將活動及採訪內容整理如下。雷鋒網 AI 開發者:如果有一名 AI 學術青年希望能夠加入阿里網絡研發事業部,那麼他需要具備哪些能力呢。

雷鋒網 AI 開發者按: 2019 年 8 月 19 日,SIGCOMM 2019 在北京開幕。在 8 月 24 日,由阿里巴巴和 ACM SIGCOMM 聯合舉辦的黑客馬拉松賽(Hackathon)將於北京阿里中心舉行,本屆 Hackathon 主席由阿里巴巴基礎設施網絡研發事業部高級技術專家劉洪強擔任。這場賽事一共吸引了來自世界各地的 8 個代表隊參加,角逐冠軍。

針對本次 Hackathon 如何賦能 AI 學術青年,以及阿里基礎設施網絡研發事業部的細節,雷鋒網 AI 開發者獨家訪問了劉洪強主席,並在不改變原意的情況下,將活動及採訪內容整理如下。

Hackathon 如何賦能 AI 開發者?

雷鋒網 AI 開發者:這次 ACM SIGCOMM 上的 Hackathon 的參賽主題是「Measuring and Debugging Real Network Systems」,爲什麼會選擇這個主題呢?這個主題對於行業或者現實生活都有哪些啓發?

劉洪強:SIGCOMM 是 ACM 在數據通信中的旗艦會議,所以 SIGCOMM 上面的 Hackathon 也是以「網絡」爲主題。今年是 SIGCOMM Hackathon 舉辦的第二屆比賽,相較於上一屆更廣泛的網絡主題,這次我們選擇了更聚焦的「測量和調試真實的網絡系統」作爲本屆比賽主題。

我們主要希望能夠通過這一主題,讓參賽者意識到當前的網絡系統中還存在着大量困難的問題有待解決,所以開發好的監測工具和分析工具對提高網絡系統的整體穩定性和性能至關重要。除此之外,我們還希望能夠通過這個主題讓計算機網絡和系統行業的人看到開發網絡測量和調試系統的價值和難度,提倡思考如何藉助 AI 等新工具,從更高和更系統的層面瞭解現有的重要網絡系統,從而爲雲計算等重要的基礎設施資源保駕護航。

雷鋒網 AI 開發者:剛剛你提到的藉助 AI 新工具,那麼 AI 技術可以如何幫助解決這個主題所面臨的問題呢?

劉洪強:本次 Hackathon 中,參加者可以利用前沿的 AI 技術來對測量所收集的數據進行處理,這一方法能夠在一定程度上幫助我們發現工作人員難以發現的潛在問題。同時,本次 Hackathon 也鼓勵參加者能夠將 AI 的計算集羣和系統作爲研究對象,來設計測量和調試的工具,通過深入瞭解 AI 訓練中的網絡瓶頸,進一步研究如何爲 AI 系統設計更好的網絡。

雷鋒網 AI 開發者:除了 AI 技術,參賽還需要用到哪些技術?比賽中,賽會方能夠提供相應的平臺或數據來輔助選手完成比賽嗎?

劉洪強:本次比賽中,賽會方提供了幾個題目供選手選擇,技術領域涉及遠程程序調用(RPC),RDMA 高速網絡,WiFi 網絡,4G LTE 網絡,以及深度學習訓練系統網絡。

其中,RPC 是遠程程序調用的簡稱,它是被大量應用於分佈式系統中的網絡通信協議和接口的整體解決方案。它的特點就是將網絡底層的通信協議細節隱藏,讓應用程序在訪問和調用遠程資源的時候能夠像調用本地資源一樣方便。因此,RPC 是分佈式系統開發的重要工具,它的性能和穩定性對分佈式系統整體的性能和穩定性有着深刻的影響;

而 RDMA(Remote Direct Memory Access)是一種數據中心中的高速網絡解決方案。它的特點是將所有的傳輸層協議是現在硬件裏,直接打通網卡和內存之間的讀寫訪問,可以極大地提高網絡帶寬,實現超低延遲,節省服務器上 CPU 的使用量;

WiFi 網絡和 4G LTE 網絡則是我們日常生活中用到的兩種基礎的無線接入網絡;而分佈式深度學習則是人工智能的關鍵技術,它利用網絡實現多臺服務器互聯,將更多的計算資源聯合投入一個任務的計算,計算單元之間靠高速的網絡進行大量通信交換計算結果,實現對 AI 訓練的極大加速。

同時,賽會方還提供了免費的阿里雲計算資源,包括阿里雲所能提供的所有類型的服務。如果有團隊要將自己的計算資源帶入會場,賽方也會提供場地、網絡和電力等支持。

雷鋒網 AI 開發者:如果參賽選手要想在賽事中取得優秀的成績,有哪些要點值得選手們參考嗎?

劉洪強:如果能夠解決賽會方提供的更難難度的題目,那麼該選手取得優秀成績的幾率將大大提高;同時,完成更多的題目也能夠取得更優異的成績。另外,所有的團隊都會有 5 分鐘時間來講解他們的成果,團隊報告的質量、完成效果以及創新度都會視爲評分參考要點。

雷鋒網 AI 開發者:目前,我們身邊有很多 Hackathon,本次 ACM SIGCOMM 上的 Hackathon 與其它(比如最近京東舉辦的 Hackathon)相比,最大的亮點是什麼?

劉洪強:本次 Hackathon 的最大特點是它集中在瞭解和解決計算機網絡系統中的真實問題,並且這場比賽是由企業與 SIGCOMM 聯辦,因此比賽更偏向於學術研究方向,力在將開發和研究更充分的融合。

雷鋒網 AI 開發者:那你認爲怎樣的選題最適合通過 Hackathon 的形式來進行呢?

劉洪強:Hackathon 的題目一定要有實際意義,同時也可以對未解問題具有探索意義。另外,題目的範圍既要要有一定的專業範圍,避免主題太泛而缺乏比較的標準;同時也要有足夠的空間,來啓發參賽者發散思維進行思考和創新。

雷鋒網 AI 開發者:你認爲馬拉松賽事對開發者最大的鍛鍊體現在哪裏?

劉洪強:Hackathon 賽事對開發者最大的鍛鍊是能夠從平時的工作中暫時解放出來,通過解決 Hackathon 的問題來重新思考他們所關注領域當前面臨的問題;同時,參賽者還能在短時間內得出極具創新性和實用性的結果,在比賽中認識更多志同道合的人。

雷鋒網 AI 開發者:在本次整個 Hackathon 的籌備過程中,賽會方都面臨了哪些挑戰呢?

劉洪強:主要挑戰有三點。

首先需要確定一個合適的題目,這個題目需要能夠足夠聚焦特定的專業背景,並且能夠有足夠大的空間供參賽者發揮。

第二就是能夠在這個大題目下確定出具體的挑戰題目供參賽選手選擇。因爲這次 Hackathon 面向的對象包括所有對計算機網絡與系統感興趣的人,所以每個挑戰還要有不同難度的子挑戰,這樣纔可以讓不同背景的人蔘與。

最後是準備足夠的計算資源,並且保證選手在 Hackathon 當天也能流暢地訪問這些資源。

雷鋒網 AI 開發者:能否結合你個人過去的參賽經歷和我們談談參加比賽對於個人成長有哪些幫助?

劉洪強:我在 SIGCOMM 2018 也參加過 Hackathon,並且這次比賽也給我留下了非常深刻的印象;對我個人而言,主要收穫有兩點。

首先,通過對 Hackathon 的題目的瞭解,我能夠從側面瞭解到這個領域目前的狀態,比如:什麼「新技術、新工具」正在成爲當前領域的主流,實際系統中有什麼重要的問題需要解決,人們是如何思考這些問題等方面,我能夠有更準確的把握。

其次,在 Hackathon 的組隊和交流過程中,我交到了志同道合的朋友;而這些朋友,在之後的工作和生活中,有的成爲了我的合作伙伴,有的成爲了我的摯友,他們都對我的人生有着積極的影響。

阿里神祕組織——網絡研發事業部

雷鋒網 AI 開發者:我們知道阿里有技術團隊、運營團隊、銷售團隊,但是很少聽到阿里基礎設施網絡研發事業部,能否跟我們介紹一下這個團隊的整體情況?

劉洪強:阿里網絡研發事業部是阿里雲智能事業羣中負責整個阿里經濟體的網絡架構設計、運營、研發和研究的部門。其職責範圍覆蓋了阿里的全球數據中心網絡、城域網、骨幹網、邊緣網絡、光網絡和無線網絡。

雷鋒網 AI 開發者:阿里網絡研發事業部的核心技術是什麼呢?目前團隊都有哪些的研究成果或者技術成就,可以簡單向大家介紹一下嗎?

劉洪強:阿里基礎設施網絡研發事業部研發了多項國際領先的核心技術,例如高性能網絡、自研交換機、網絡智能化運營體系、IPv6 等等。通過系統化的技術創新,我們部門也爲整個阿里經濟體提供了非常可靠、靈活和高性價比的網絡。

圖 1 阿里雲 NFV 網絡技術平臺

而在近幾年,阿里網絡研發事業部在研究上發展非常迅速。就在今年 SIGCOMM 上,阿里網絡研發事業部的兩篇研究成果被大會所收錄。

其中一篇介紹了阿里巴巴自研的新一代高速網絡擁塞控制協議(HPCC)。HPCC 利用了最新的交換芯片能力,將網絡擁塞延遲降低幾十倍至上百倍,同時擁有快速收斂,高效和高穩定性等可以被理論證明的特性。

另一篇是業界首次實現的基於意圖語言驅動的 ACL(訪問控制)規則管理系統。該系統已經在阿里的骨幹網得到了應用,能夠實現將骨幹網的 ACL 操作變得簡單而不易出錯,將網絡 ACL 變更的計劃時間從幾周縮短爲幾個小時。

雷鋒網 AI 開發者:阿里網絡研發事業部的下一步發展計劃是什麼呢?

劉洪強:網絡研發事業部未來計劃繼續推進國際化,隨着阿里經濟體在全球業務的展開,提升阿里網絡在東南亞、歐洲、美洲的覆蓋面。

與此同時,我們會加大在技術上創新研發的力度,聚焦在未來 100G+的高性能網絡、自研機交換機、邊緣網絡、意圖驅動網絡、以及無線網絡(含 5G)等幾個關鍵領域。

雷鋒網 AI 開發者:如果有一名 AI 學術青年希望能夠加入阿里網絡研發事業部,那麼他需要具備哪些能力呢?

劉洪強:網絡研發事業部是一個高度技術密集型的部門,我們非常歡迎在網絡創新研究、硬件研發、架構設計、操作系統、高性能網絡、可編程網絡、無線網絡等領域有專長的候選人加入。

而網絡智能化是未來發展的必然趨勢,AI 則是實現網絡智能化的核心手段。我們理想中的 AI 候選人,需要具備一定的網絡背景知識,兼具良好的開發能力和 AI 應用能力,並且不懼困難和挑戰。

SIGCOMM 簡介

SIGCOMM 是由 ACM SIGCOMM 組織舉辦的通信網絡領域的旗艦型會議,也是目前國際通信網絡領域的頂尖會議之一。SIGCOMM 2019 吸引了來自全球計算機通訊網絡研究人員、學者及學生將近 1200 人蔘加了此次會議。

此次會議議題廣泛,包括物聯網、雲計算、人工智能和5G給全球所帶來的巨大影響。同時,會議將從更廣泛的網絡研究和治理的視角出發,重新審視互聯網高速發展所帶來的緊迫挑戰。

多年來,世界頂尖的大學和科技公司在 SIGCOMM 上發表的論文奠定了人們對先進網絡技術的認知,同時衆多網絡通信領域的具有里程碑意義的著作均是通過 SIGCOMM 發佈。不過,SIGCOMM 對論文的質量要求極高,必須具有基礎性貢獻、前瞻性影響和堅實系統實現的論文才會被收錄,因此每年只錄用 30 篇左右。

今年其中的兩篇論文由中國企業阿里巴巴拿下,論文題目分別爲 《HPCC: High Precision Congestion Control》《Safely and Automatically Updating In-Network ACL Configurations with Intent Language》

圖 2 SIGCOMM 2019 大會現場

雷鋒網 (公衆號:雷鋒網) AI 開發者

雷鋒網原創文章,未經授權禁止轉載。詳情見 轉載須知

相關文章