36氪獲悉,近日360智慧生活集團舉辦視覺大模型及AI硬件新品發佈會。發佈會中,360推出智腦·視覺大模型及多款AI硬件產品,並宣佈360智慧生活正式切入SMB市場。

360方面表示,近年傳統深度學習算法在安防場景中的侷限性愈發突出,具體表現爲算法通用、場景不通用、邊端算法受限、內存受限等。對比之下,大模型有着更好的泛化能力,有望進一步突破傳統算法的精度與數據侷限,也能解決傳統深度學習算法的數據依賴問題。

但另一方面,當前業內提及大模型,更多指的是大語言模型,其他模態的大模型數量不多。360認爲,增強多模態能力,核心要藉助大語言模型的認知、推理、決策能力。

於是,此次360智慧生活決定將視覺感知能力與360智腦大語言模型相結合,並針對安防場景進行行業數據微調,推出視覺及多模態大模型——360智腦·視覺大模型。360視覺雲業務線總經理孫浩對外介紹,360智腦·視覺大模型現階段主要聚焦開放目標檢測(OVD)、圖像標題生成、視覺問答(VQA)三項能力。

會議中,360集團創始人周鴻禕也針對這一話題發表演講。

周鴻禕表示,過去的人工智能是弱人工智能,在此基礎上打造的智能硬件不具有真正的智能。大模型出現後,計算機第一次真正的理解這個世界,並能夠賦予AIoT真正的智能。

談及視覺大模型的研發過程,周鴻禕進一步介紹,360是在視覺感知能力基礎上,融合千億參數“360智腦”大模型,基於十億級互聯網圖文數據進行清洗訓練,並針對安防場景百萬級行業數據進行微調,最終推出360智腦-視覺大模型。

 “大模型將帶來一場新工業革命”,周鴻禕表示,所有軟件、APP、網站,所有行業都值得用大模型進行重塑,而智能硬件是硬件化的APP。從大模型的發展趨勢來看,多模態是大模型發展的必經之路,GPT-4最重要的變化是擁有了多模態的處理能力。因此,周鴻禕預測,多模態大模型與物聯網的結合將會成爲下一個風口。

以下是周鴻禕演講內容(經部分刪減),供讀者參考:

大家好,很高興今天來參加視覺大模型的發佈。

今天主要想分享一下,現在正火熱的大模型和智能硬件的結合。很多人肯定很奇怪,360已經有了360智腦,就是360的大語言模型,爲什麼又出來一個視覺大模型呢?我還是先分享幾個我對大模型和生成式AI的觀點。

其實AIoT這個概念已經不新鮮了,這個行業所有做智能硬件的人都會標榜,我不僅僅是物聯網設備,都是AIoT,這個A就是AI。但是我們今天談到的AIoT的概念,可能要重新刷新過去舊的AIoT的概念。

實際上生成式AI,或者叫ChatGPT的出現,預示着一個真正的人工智能,或者叫強人工智能,或者叫超級人工智能的拐點真正產生了。原來的AIoT,跟它聊兩句天就聊不下去了,很多音箱的功能最後就沒有人去用了,很多攝像頭的能力也只是起到一個事後錄像的作用。

那麼,這次大語言模型的問世,標榜着一個真正的人工智能時代的來臨。我覺得有兩個分水嶺:

第一,過去我們做的人工智能都是垂直人工智能,爲完成一個特定的任務就得有一套特定的算法,一個特定的模型,很難通用。而這次大語言模型它用一套算法,一套模型結構,一套訓練的思路,解決了人工智能中很多過去很碎片化的問題。

第二,還有一個區別,這次大語言模型雖然也容易給大家一個誤解,好像是隻能解決語言的問題。但是,在人工智能領域,如果把語言的問題給解決了,這件事是非常了不起的,是皇冠上的明珠。人類的語言基本上定義了人類所有的知識,如果一個大語言模型能夠真正地理解人類所有的語言,能夠很自然的做出各種交流和理解,包括各種推理,就意味着它第一次完整把人類世界的知識有了一個充分理解。

原來比如最常見的圖像識別,名詞叫Computer  vision,就是CV,或者計算機視覺。實際上很多時候是在工作層面感知,像人的視網膜的原理。但是,人之所以能成爲萬物之靈,不光是眼睛看到了當前的情況,所有看到的情況是可以在大腦裏有相應反應的。所以,大語言模型工作在認知層面。

我不知道有沒有人注意到,這次OpenAI的一個技術合夥人提到他們做視覺模型的時候,講如果你是基於大語言模型,完整理解這個世界的知識之上再來理解圖像,你的理解程度是非常不一樣的。

 所以,我也給大家講一個觀點,大家不要被“大語言模型”這五個字給弄糊塗了,就以爲它只能解決語言問題,錯了。實際上大語言模型之所以稱爲叫通用人工智能,大家應該相信,它是在理解了我們這個世界的所有知識之後,能夠解決計算機聽覺、視覺的很多問題。而且未來可能在機器人控制、自動駕駛,各個方面發揮神奇的作用。

爲什麼到現在真正的自動駕駛沒有實現。一個很簡單的道理,就是它們目前都是在感知層面的識別,雷達告訴你前方有障礙物,而不是在認知層面。如果我們的人工智能不能模擬人的認知層面的人的反應和工作,而僅還停留在一個視網膜感知的層面,我想真正的自動駕駛可能一輩子也出不來。

所以,大語言模型之所以被稱爲叫通用人工智能,不光是在自然語言處理上發揮作用。它在計算機視覺,在自動駕駛等場景上都能有作用。將來,在蛋白質摺疊分析,人類基因組序列分析等很多方面,我覺得大語言模型可能都會帶來各種各樣的驚喜。

今天我們在大語言模型上取得了突破,就有能力在大語言模型的基礎上來思考,到底怎麼樣能做出一個真正的AIoT。這個AI,如果是大語言模型驅動的AI,它就是真正的強人工智能。

我的第二個觀點,也想講講爲什麼今天我們要來講一個智能硬件的場景。

大語言模型問世以後有很多種觀點,但是,我覺得它肯定不是每個人上來馬上就能玩的東西。所以,我覺得大語言模型實際上是一個提高生產力的工具。它更像是電腦,更像是手機這種發明,意味着帶來一場工業革命級的更新。

人工智能折騰了很多年,實際上離我們很多人的日常工作和生活的場景還比較遙遠。這次以GPT爲代表的大模型確實讓人類的人工智能到了一個PC時代,到了一個iPhone時刻。

微軟給我們做了一個典範,把它所有的產品“全家桶”都拿大模型重塑了一遍。實際上這裏我們也講過很多,比如360的場景裏面瀏覽器怎麼改造、搜索怎麼改造,360安全衛士的桌面如何改造?但其實還有一個更大的領域,就是智能硬件。我覺得智能硬件實際上也是硬件化的APP,那麼它如何能夠與大語言模型結合?這場工業革命中,智能硬件這個場景將會扮演什麼樣的角色?

我也和團隊說,過去我們講互聯網思維,未來可能叫大模型思維,過去我們是講“互聯網+”,以後可能是“人工智能+”。或者以後人工智能這個詞改一下,新的人工智能可以叫“認知型人工智能”,或者叫“生成式人工智能”,或者叫“大語言模型人工智能”,跟原來老的人工智能概念不太一樣。

我想再分享一個觀點。大語言模型發展到現在,有一個巨大的方向,就是它要從單一的識別文字到能夠識別圖片、視頻、語音,就是我們所說的多模態。GPT-3.5你可以認爲是一個強人工智能的拐點,GPT-4.0比GPT-3.5領先了很多,國內我們很多同行做的產品,包括360的智腦離GPT-3.5比較近了。但是GPT-4.0如果是100分,國內的水平大概也就在70分左右。

GPT-4.0除了對知識的理解更加深入,推理更加複雜,其中有一個很重要的要求就是它有多模態的處理能力。比如文生圖,就是你提出要求,它生成圖片,這個只是完成了多模態的輸出部分。實際上真正的多模態是你能給它一張圖片、視頻,大語言模型不僅能夠認出來這張圖上有誰,最重要的是能認出來圖上的人都在幹什麼,他們互相之間有什麼關係,能讀出圖裏邊蘊含的意思,這個沒有對人類知識的瞭解,是不可能做到的。

所以,現在整個大模型的發展之路必然是多模態,多模態就是能夠輸入圖像和視頻,能夠輸出圖像和視頻,能夠輸入聲音和音樂,也能夠輸出聲音和音樂。當然,現在一個完整的多模態的大模型全世界不存在,GPT-4也只是宣佈了有這個能力,這個能力還沒有對外輸出,這也是代表了大模型下一步皇冠上的明珠。所以,今天我們把我們在多模態上的一部分成果會拿來給大家做一些展示。

如果有了多模態大模型之後,我覺得和物聯網結合就可能變成下一個風口。一直有人說機器人和大模型之間的關係。實際上把很多智能硬件,包括機器人和大語言模型接起來,就相當於給很多智能硬件有了靈魂,有了真正的大腦,不僅有了感知的能力,還有了認知的能力。

我曾經開玩笑,如果ChatGPT有了自我意識之後,又有了能下單的能力,它買的第一個物品是什麼?我說它一定首先給自己買一個智能攝像頭給自己接上,因爲它就能真正地看懂這個世界。我們還有麥克風,我們有揚聲器,接上大模型之後,相當於它有了耳朵、有了嘴巴。

360爲什麼能做視覺大模型呢?第一個基礎是說360已經訓練了一個千億參數的智腦,一個基於文字,基於自然語言理解的一個認知大模型。第二個360做智能攝像頭也做了有好多年了,有百億級的安防行業數據可以進行訓練和微調。所以這次我們基於這種安防的背景,能夠去訓練一個視覺大模型。

原來我做攝像頭的時候,最大的感慨是什麼?我們的攝像頭無法事前報警,我們在很多地方發揮的作用就是出了事之後去找攝像頭錄像,來做事後的事故的複覈。比如說,我們聽到很多家庭裏邊老人在起居室裏摔倒了,或者小孩兒爬到一個沒有窗戶的危險地帶向上攀爬,原來的攝像頭可能能認出來有老人,有小孩兒,但是他不能理解畫面的語義,所以它也就不能做出正確的判斷。

但是,當你有了一個大語言模型多模態能力爲支撐的,真正的認知型大腦的時候,當你的攝像頭看到這個場景的時候,你自然就會聯想起來這個老人可能處在危險之中,這個小孩兒可能現在有可能掉到窗戶外面去,從而就能夠提前預警,發佈警告。

現在我們有兩個團隊在密切配合,也就是說,大語言模型團隊積極幫助我們另一個團隊構造視覺的模型。這個視覺大模型構造出來之後,又可以成爲我們360大語言模型的一部分,構成我們多模態的能力。有了多模態能力的大模型,它增強了360智腦能夠看懂圖片,看懂視頻的能力。現在,聽見聲音的能力還在研發,一旦把聽懂聲音,看懂圖片,能夠連續看懂多組圖片的能力合在一起就變成了識別視頻的能力。

之前大家所設想的場景還是以偏軟件、網站、應用爲主,這次我們希望讓大模型的能力從數字世界走向物理世界,基於多模態技術的大語言模型,和智能硬件的結合是下一個風口。

相關文章