開源和閉源之爭,在大模型時代依然延續着。前不久,百度創始人李彥宏在內部講話中發出“開源模型會越來越落後”的言論,再次將這一話題引爆。

不僅有許多業內人公開提出不同看法,似乎還接連迎來市場層面的“回應”:Meta 時隔兩日發佈性能直追 GPT 4 的開源大模型 Llama 3,蘋果、微軟又各自開源了針對手機等移動設備的語言模型 OpenELM 和 Phi-3 Mini。

然而,儘管開源模型在今天的崛起有目共睹,其背後的問題依然不可迴避。由於本身的黑盒屬性,開源的“衆人拾柴火焰高”優勢並不能完全顯現在大模型上,甚至成本和效率更受影響。那麼對於各個行業的廠商來說,身處如今的大模型市場,該做出怎樣的選擇?

帶着這一問題,InfoQ《極客有約》特別邀請了零一萬物開源負責人林旅強擔任主持人,與 Data Strato 副總裁史少鋒、華爲 AI 科學家張敏、LLMFarm創始人 & CEO 宜博, 在 AICon 全球人工智能與機器學習技術大會即將召開之際,一同探討開源與閉源模型的現狀、差異及未來發展。部分亮點如下:

  • 整體開源落後於閉源,以 GPT 爲代表大概是一年時間的差距;
  • 模型能力的差異不在於開或閉,而是背後的人與團隊;
  • 自建模型還是購買第三方服務,企業要根據各自的商業場景選擇成本和合規需求最適合的部署方式;
  • 企業使用大模型可能不止一套,會像今天使用雲一樣是混合架構;
  • 正確認識大模型的能與不能纔是避坑最好的條件。

在訪談的第一部分,四位專家分別對開源、閉源大模型的成本能力和效益進行了分析;第二部分分析了兩類大模型面臨的技術和合規挑戰;第三部分則是從實際應用與效果角度進行了分析。以下爲訪談實錄,經編輯。

開源、閉源哪家強?

林旅強:目前從模型能力的角度來說,開源陣營和閉源陣營之間整體是什麼樣的情況?

張敏:大模型是從 ChatGPT 熱起來以後,被越來越多的人和公司關注到,現在看是有開源、閉源之說。閉源的代表是 OpenAI,以及 Claude 也有一部分模型是閉源的。開源來看,從 Llama 1 到最新的 Llama 3,效果越來越好,大家也越來越認可這些模型,最近看到 Meta 的 400B 大模型,效果已經和 GPT 4 非常接近了。從開發者角度,我們希望能看到更多效果更好的開源模型,這實際上對整個大模型領域的繁榮可能會有更多幫助。

宜博:個人認爲,整個開源和閉源社區的模型分爲三個階段:小於 GPT 3 或者 3.5 的,接近於 GPT 3 和 3.5 的,接近於 GPT 4 的。去年上半年, OpenAI 發了 GPT3.5 和 GPT 4 之後遙遙領先於整個開源社區;到去年下半年時,開源社區的情況有了很大改變,發佈了很多接近於 GPT 3-3.5 能力的新模型,今年上半年開始有一些部分能力已經靠近 GPT 4 的開源模型。

整體來講,開源社區當前還是落後於閉源社區,如果以 GPT 爲標準呢,大概是一年時間的差距。開源社區其實一直處在追趕閉源社區的態勢,但這種差距在縮小。今年上半年又發了 Sora,開源社區開始追 Sora,到現在爲止雖然做了很多努力,但效果還差很多。

史少鋒:剛纔兩位老師發表了他們的觀點,我覺得整體上大家的感覺差不多,就是一開始閉源模型遙遙領先或讓人眼前一亮,但隨着更多的開源模型被放出來,開源的能力也在快速跟上。作爲模型使用者,今天我們主要還是通過 API 的方式來用大模型,但現在新的開源模型能力越來越強,同時對計算資源的要求在不斷降低。我們期待不遠的將來,開源模型可以在本地跑起來,能夠完全私有化地去支撐一些應用,這對我們有很大的吸引力。

林旅強:那什麼因素會嚴重影響開源和閉源模型的能力差異呢?

針對這個問題,我個人認爲開源和閉源模型的能力差異,重點不在於它開源或閉源,而是它的研發團隊的能力差異。至於做出來的模型要開源還是閉源,是進一步從該公司的整體商業模式去考慮的點。之前 Llama 推出的時候,我非常興奮,覺得終於有人運用開源來突圍閉源的大模型了,因爲訓練模型成本實在太高,要開源本來就不容易;雖說至今二者仍有些差距,但如果不開源就沒機會給開發者和產業界有另一種選擇了。

史少鋒:的確,模型會很依賴於開發團隊的工程能力,並不在於開源還是閉源。今天的開源模型也並不是真正的開源,正如百度創始人李彥宏所說,大模型本身就是一個黑盒子,並不能指望社區有多少貢獻。除此之外,模型還依賴於掌握的數據語料質量、豐富程度以及算力規模。這也是爲什麼今天我們看到,只有非常大型的公司才能開發出讓整個業界爲之一亮的大模型。

宜博:我認同開源和閉源對模型能力的影響並不在於形式,而在於背後的人,和背後的團隊所持有的資金、算力、數據。

林旅強:大模型跟開源軟件有一點很不一樣的地方,就是開源軟件有可能因爲社區不斷有代碼貢獻而變得更好,但現在業內所謂的開源大模型則是把權重 open 出來,沒辦法以開源社區貢獻上游的模式讓算法和數據質量更好,確實很依賴出品團隊的能力,如數據、框架算法調優、算力門檻還有最新方法的挑選。所以在我們看來,模型能力的差異不在於開源或閉源,而在於團隊的人才密度有多高。

張敏:數據、算力和算法對大模型都至關重要,算法是與團隊是強相關的,這對於模型最終效果的提升是非常重要的。

林旅強:剛纔我們討論到開源、閉源模型的能力,那它們的差距到底是逐步縮小還是增大?開源是不是會越來越不好?閉源越來越領先?

宜博:我認爲差距並不是持續擴大和縮小,而是永遠在動態平衡變化的狀態。

林旅強:那照你的描述是不是永遠閉源走在前面,開源在追趕?

宜博:這一點其實是由行業現狀決定的,比如在服務器領域,Windows 現在很難追得上 Linux,iOS 有一些領域也追不上安卓。大模型領域是由 OpenAI 開始主導的,所以在其領頭羊位置不變的情況下,不管是閉源還是開源的,只要落後於 OpenAI 都是在追趕。

林旅強:所以這個問題應該調整爲,GPT 跟其他模型的能力是逐漸縮小還擴大。

史少鋒:站在百度文心一言的角度來說,我理解他們在思考的是有沒有必要做開源,開源模型並不一定能像普通開源軟件那樣有“衆人拾柴火焰高”的效果,反而要花費更多的時間和精力去做各種合規、對外發布、問題收集等流程。在這種情況下,他們認爲開源沒有必要,閉源的話效率更高,可以使團隊更加聚焦於訓練下一代模型。某一天 OpenAI 把大模型開源了,是否能代表開源打倒了閉源呢?我覺得也不是。

林旅強:那從成本、能力、效益分析的話,部署自己的大模型與使用第三方大模型在初期成本上有什麼不同?長遠來看,自建模型與購買模型服務在成本上又會如何變化?

宜博:我們做了很多輪實踐發現,假如第一次去驗證模型,用 API 調用是最划算的,因爲 API 用量很少。但如果要跑數據,一定要用自己的服務器和開源模型去做,否則成本太大了。比如我們曾經有個項目,大概算下來,全部跑 API token 比自己購買服務器的成本要貴 200 多萬。再就是推理部署的未來環境,用戶量大到一定程度後會有個臨界點,可能就用自己的服務器比較划算了。所以,要根據大家各自使用的場景去選擇不同的成本策略。

張敏:從我們對接的客戶來看,他們是更希望通過本地的私有化部署來做業務支撐,這對數據安全是非常有好處的。

史少鋒:站在用戶的角度,我覺得今天的 SaaS 大模型服務已經非常便宜,如果自己去搞部署,那成本就高了去了。目前 Open AI 的價格不代表以後,大家都在卷,很多價格會更低,國內甚至有免費開放給公衆使用的。對於 To B 領域,可能第一考慮的是數據安全,To C 沒有看到用私有化部署的。

林旅強:確實,除了部署成本外還有一些隱性的成本,比如客戶是不是願意模型平臺把他通過 API 所調用的數據拿出去再訓練。個人去使用的話, API 確實門檻比較低,現在各家的價格都還算是比較便宜。

那如果從總體的成本控制方面,企業應該如何去選擇適合自身的大模型策略?

我個人認爲要看企業本身想怎麼用大模型,如果單 API 就能夠解決且量沒有很大的情況下,先去把 API穩定地搞起來;但如果要結合非標的數據場景去做,那隻能加上開源的部署。

宜博:企業真正在用的時候,一般是一個遞進的驗證過程,首先用最便宜的 API 去驗證 POC,甚至直接在 ChatGPT 上免費驗證,之後如果有開源的部署需求,再去驗證場景。過程中需要企業自己想清楚,如何在滿足場景的情況下選擇成本和合規需求最適合的部署方式。

林旅強:我想補充一點,之前有人問國內是需要私有部署的多還是調 API 的多,我就說要先看合規問題。因爲現在有政策要求用國產服務,但還有一些人是用了“套殼網站”調外網大模型的 API 。

張敏:大模型也有參數量的大小區別,我們真正在給客戶在做應用時,還是要根據業務領域的效果來看。在百度的文心一言裏,也是用大模型和小模型一起來支持用戶需求。

史少鋒:企業使用大模型後,可能也會像今天使用雲一樣是混合架構,根據不同需求一部分可能會放在公有云上,一部分放在私有云。爲了確保應用端的用戶無感,可以把 SaaS 版的大模型作爲一個 Plan B,相當於做了一層保護機制。綜合而來的話,以後企業可能不止一套大模型。

林旅強:我也想補充一下,現在所謂的大模型到底多大?從成本能力與效率分析來講,我們也得把大模型分爲不同檔次。雖然 scaling law 是存在的,但越大的模型性價比越往下;而小模型現在要做出效果的門檻其實也很高。目前不管多大的模型都有各種不同的成本要去考慮,所以最終還是需要回到具體場景和商業產品的本質來看。

技術與合規挑戰

林旅強:在技術實現層面,自建大模型與採用第三方模型在技術難度和支持上有何不同?

宜博:現在自建大模型一般有幾種難度:第一種是買一個小機器放在辦公室,如果要買高算力機器放在機房或者自建機房,難度指數是很高的;第二種,有了算力去部署時,也會遇到各種各樣的問題,如推理框架選擇、速度、機器使用等,這些對於沒有專業技能團隊的非技術企業消耗很大,過程中雖然所有技術人員學了很多東西,但公司的環境部署和上線成本非常大。

史少鋒:我覺得這個問題並不是很精確,自建大模型和用第三方模型的技術難度和配置不同。今天大家都在用第三方模型,但自建大模型還是偏少,大家更多還是用外部做得好的模型,區別就是自己部署的大模型和第三方 SaaS 大模型之間的區別。就像剛纔宜博說的,自己去部署要操心的是方方面面,包括硬件採購、運維、算力擴容、模型部署和升級、調優等。相較而言,用第三方模型更簡單,很多代碼拿來就可以用,但這個情況也在逐漸改變。

隨着開源生態越來越健全,軟件也越來越豐富,下載速度可能更快,以後筆記本都能跑一些參數不太大的模型。在併發量或需求量不太大的場景下,自建大模型不會比第三方模型複雜太多,gap 會逐漸縮小。

張敏:用開源大模型去做部署就像站在巨人肩膀上,會走的更快。自建則需要具備很多前提,如數據、算力、算法和好的團隊,成本可能要遠高於使用開源。

林旅強:自建大模型的難度比較大,技術實踐已經是一道門檻,像開發者本身的能力水平、背後商業機會以及交付能力等。直接採用第三方模型,也需要運維、部署的知識能力和資源投入。所以企業還是要按照能力和成本考量去選擇。

另外,我們都知道大模型可能涉及到數據安全和個人隱私的保護。在自建與第三方模型使用中,數據安全與隱私保護分別面臨哪些挑戰?大家怎麼去做呢?最簡單的是,擔心就全部私有化部署,如果數據不需要任何安全和隱私保護,就全部調 API。也就是說,還是從業務角度去選。

宜博:實際上我們會遇到幾種情況,第一種情況就是直接調用閉源模型的 API,他們號稱數據不會被拿去訓練,但實際經常會發現數據被使用了;第二種是當你用三方算力平臺訓練模型時,也會發現有自己訓練數據被拿去的情況。大家知道現在監管非常嚴,內部雖然保證數據安全和隱私,但實際上做合規很耗精力,面臨的細節挑戰還蠻多。現在整個落地量不大,所以問題還沒有那麼凸顯,但我認爲未來會逐步變得重要。

史少鋒:針對大模型,我認爲不管是自建還是第三方、私有化部署還是公有,都應該足夠重視數據安全和隱私保護。即便自建大模型,訓練時沒有識別出數據隱私,也可能導致信息泄露。而開源模型正因爲要開放給衆多用戶,在安全和隱私方面也可能做得很好。Meta 發佈的 Llama 3,就花了很多功夫在多個層次進行安全檢測。

這就像我們經常討論的,閉源軟件安全還是開源軟件安全?閉源軟件可能因爲黑客看不到源代碼,所以找不到安全漏洞,但不爲人知的漏洞可能會存在更長的時間;開源軟件貌似因爲代碼開放容易被抓到漏洞,但因爲被很多人盯着,促使其在不斷地提高安全性,長久來說可能反而做得更好。

張敏:數據安全對於大模型來說確實非常重要,訓練時會牽涉到用戶的隱私數據,抓取也可能存在攻擊性數據,從而導致輸出問題。另一方面,即使大模型做了私有化部署,使用過程中產生的數據也需要做安全保護。

林旅強:再補充一個點,很多人在講數據安全時並沒有考慮到跨境傳輸。現在出海很熱,實際應用來講可能每個地區對於數據跨境的要求不同,在各個市場各自部署的成本也就更高。合規不只要考慮到中國,還有客戶所在的國家,像歐盟、美國都會有相關的數據法規。

實際應用與效果

林旅強:利用開源或閉源大模型解決實際業務場景,在部署過程當中有哪些區分?大家分享一下踩過的坑,也教教怎麼避坑。

宜博:第一個觀點是儘量用 RAG,不要一上來就做 SFT 訓練;第二個是儘量不要一上來就用 Langchain,要花大量的時間去學習未來 90% 都用不上的代碼。

張敏:我們去跟客戶做支撐的時候,需要把用戶場景和數據越早明確下來越好,這對於我們的方案設計和模型選擇都非常重要。

史少鋒:關於大模型在具體業務場景的避坑,我覺得還是要實踐出真知,有一套針對自己場景的測試數據集,因爲大模型過於通用,並且也會升級。我們想到的辦法是可以用另一個更高水平的大模型來對多個模型的輸出打分。建立一套測試體系,對於不停迭代模型去提升結果準確性很有必要。

林旅強:我覺得要能夠正確認識大模型能夠爲你解決什麼問題,作爲避坑的前提條件。就像張老師剛剛講的,很多客戶現在誤以爲大模型跟神仙一樣什麼都能幹,這其實是有問題的,大模型只是在某一些方面確實做得比過去好很多,甚至比人類強。但我們還是要把業務流拆解出來,哪部分去接入大模型?能夠做什麼?怎麼解決幻覺問題?RAG 好在哪裏、難在哪裏?也絕不是那些開源數據集測評的打分越高代表越好,還是得從具體場景切入,認真把內部評測標準搞好,纔會知道坑在哪裏。所以我覺得,正確認識大模型的能與不能纔是避坑最好的條件。

現在線上有個問題,即使訓練內部模型也需要對涉及用戶的數據進行脫敏,在這方面有沒有一些比較好的工具或經驗?各位老師實際有沒有接觸過用戶的數據,以及會用什麼方式把用戶的數據脫敏?

史少鋒:我們本身就是做數據治理,也調研了市面上很多數據平臺在這方面的做法。成熟的數據平臺都有一套數據合規方面的功能體系,其次會通過 AI 去識別數據中的敏感信息,在導出時提醒用戶,還有一些敏感信息打碼、用戶訪問 policy 以及數據溯源的配合功能。對於一些自建的大數據平臺,是藉助工具和統一平臺去數據溯源、定義用戶訪問權限,來把風險被控制到最低。

宜博:這塊我們做的比較少,一般的客戶數據就在本地或者企業內部查詢了,脫敏拿出來的情況還比較少。

張敏:我們這邊做的更多是回覆角度方面,如果涉及到敏感內容的話,會對回覆做過濾處理或者換一種方式去回答。

林旅強:那你怎麼知道它是敏感的?

張敏:我們會做一些檢測,如果問題本身涉及到敏感詞,就需要做過濾和管控。

史少鋒:其實常用常見的 PII 信息是有一套正則規範的,身份證號碼、Email、社保號等都有,即便是文本型的識別也並不是特別難。

林旅強:未來開源模型如何能利用好社區優勢?有哪些方向和趨勢?

開源確實比較能實踐社區的方法,閉源提供 API 的就只能是用戶。在我看來,當前的“開源”大模型並不是真的把數據或訓練代碼開源出來,而是把訓練的結果也就是權重給 open 出來,海外也有稱爲開放大模型的。可是,它又不像是閉源軟件的二進制,開發者又能基於開放大模型來做二次開發,例如 SFT、繼續預訓練等,情況有點介於軟件開源和閉源光譜當中的中間態。因此,開源模型仍然有一定的被二創的空間,閉源模型則不太容易這樣操作,所以我認爲,即使開源大模型沒有開源軟件那麼開放,但開源模型社區的優勢就是可以有很多二創。

剛剛說大模型太熱,如何解決預期過高的問題?業務方老闆可能誤以爲未來一切都靠 AGI 了,但其實當下能做的事非常有限,我們如何向這些沒那麼懂但手頭有預算且腦中有想象的用戶,去正確傳遞大模型的能力界限?

宜博:我們從去年到今年做最多的就是給大家分享大模型是什麼?什麼能幹?什麼不能幹?邊界在哪裏?背後的原理是什麼?現在能真正把這些事情和自己的想法都傳遞給客戶的團隊還比較稀缺,希望有更多的程序員和技術領導者加入進來。第一,不要太高估短期大模型的能力;第二,不要太低估長期大模型的能力;第三,在當下把能落地的場景先落地。

張敏:我們這邊的做法是,通過 GPT 4 中目前我們認爲的最好效果,讓大家客觀看到當前大概做到什麼程度。

史少鋒:剛剛宜博說的是大家眼下不用對大模型期望太高,要知道它目前只是一個助手,還需要懂業務和有專業技能的人去做最後的把關,同時我們只有不斷去試去用,才能找到最適合的方向。現在大家看到文生圖出來也沒多久,但有很多文章配圖都換成了 AI,意味着這方面的生產效率已因此得到很大提升。

林旅強:總結一下就是, AI 的天花板取決於使用者的個人理解和業務認知。在你的指導之下去做工作的 AI,不可能做得比你還厲害,你纔是 AI 的天花板。當我們都瞭解到這一點,就知道它的侷限。

完整視頻參看:

https://www.infoq.cn/video/pKua6PxVgxvdDygcgrWd

本文來自微信公衆號“AI前線”(ID:ai-front),作者:華衛,36氪經授權發佈。

相關文章