3月23日—24日,2024全球開發者先鋒大會(GDC)在上海隆重召開。商湯科技董事長兼CEO徐立受邀出席開幕式,並發表《AI 2.0時代的“新質生產力工具”》主旨演講,分享了對AI 2.0時代生產力工具“質”變背後的思考和突破路徑。

新生產力工具仍需持續進化

ChatGPT、Copilot、Blackwell是AI 2.0時代的熱度代名詞。搜索數據顯示,中國對於這些詞的關注熱度位居世界榜首。徐立指出,隨着AI 2.0時代的來臨,GitHub(一個面向開源及私有軟件項目的託管平臺)上的相關項目數量呈指數級增長。生成式AI項目、大模型項目以及輔助編程、輔助開發的工具項目層出不窮。但反過來看,中國數字人才缺口也在逐年增大,且短缺比例在快速擴大。

他同時也強調,雖然我們已經開始使用AI 2.0時代的生產力工具,但這些工具帶來的生產效率提升效果並不明顯,所能解決的問題佔比不足10%,給生產鏈路帶來的突破相對有限。

衆所周知,軟件開發全生命週期包括需求分析、設計、開發、測試、部署和維護諸多環節。雖然目前AI能夠帶來很多革新,或者擴展到很多場景,但目前僅能解決其中非常小衆的部分。具體而言,AI目前能解決的是在過往基礎上抽象成比較標準化、甚至以知識庫的形式固化下來的內容,包括代碼補全、代碼增寫以及部分測試用例等。如果把它分攤到整個軟件或者產品設計的全流程當中,佔比並不高。

徐立分析,隨着擴展能力變強,很多工具會從前端的設計、測試用例再到維護的橫向拓展,一步步往前演進。除了橫向能力的拓展,從縱向來看,當前新生產力工具的準確率和完成度也普遍較低。根據SWE-bench評估,Claude 2和GPT-4在特定任務上僅有不到5%的任務完成度,即使是最新的Devin完成度也僅13%,雖然整個行業在往前走,但目前還是處於相對雛形。

而他同時也觀察到一個有意思的現象是,編程經驗越豐富,不代表就越能用好新的生產力工具。統計數據顯示是相反的:工作五年以下的程序員使用新生產力工具解決問題時長超過一小時,但五年以上的程序員反而更短。這意味着越是高階、複雜的任務,對於當前新生產力工具來說還有一定的挑戰。

商湯“小浣熊的“KRE”三層架構實踐

徐立總結,大模型能力可分爲三層架構,而且這三層之間互有依賴,但又相對獨立。第一層知識(Knowledge),世界知識的全面灌注;第二層推理(Reasoning),理性思維的質變提升;第三層執行(Execution),世界內容的互動變革。

商湯結合“KRE”三層架構打造出的辦公輔助軟件“小浣熊”。在一個已開發完成的基模型的基礎上,商湯從需求分析到最終完成產品開發,共需投入100人天(專業計量單位)的工作量。如果去年用“小浣熊”代碼補助工具,可節省30%的工作量。它在整個過程中主要解決的還是一些重複性的勞動,在一個很好的代碼庫基礎上,能夠做一些代碼的完成任務。

現在商湯推出“小浣熊”2.0版本,它真正意義上基於給出的海量數據篩選出需求,制定產品特徵,在產品的特徵之上完成產品的自主開發。“最終,我們期待它在獲得世界知識的基礎上,在真實的世界當中應用到更多的機器人場景中。”徐立分享道。

徐立解釋,以“KRE”三層來理解“小浣熊”:知識層是代碼的補全,補全的代碼來自他人寫過的代碼;推理層則深入到軟件開發的全流程;執行層進入切分到垂直場景當中,以場景化的智能爲依歸。可以總結爲,知識層主要解決高頻、標準化問題,做別人做過的問題,顯然準確率高;推理主要解決長尾、碎片化的問題。

他舉了“小浣熊”場景化的例子。首先,管理智能化場景,在交通分析的場景中,大屏上的數據往往是固定化的,比如某個路口的流量、某個時間的流量分析等等,是一個標準化的問題。然而,當要結合天氣因素、輿論因素、新聞因素,過去沒有此類的分析結果,可以用軟件強推理能力來完成一些長尾應用的分析。其次,辦公智能化場景,當需要爲產品推廣制定預算時,把財務報表、賬戶信息、產品介紹等各類文檔資源全部輸入到商湯的“辦公小浣熊”當中,它能夠根據輸入的數據和需求,給出一個既合理又科學的預算方案,展現出強大的推理能力。

“生產力工具如果在知識能力、推理能力、執行能力三層能力上都有突破,首先受益的是廣大開發者以及場景化的核心應用,最終將真正帶來整個社會生產力的跨越式發展。”徐立說。

相關文章