Google I/O 2024：開啓新一代的 I/O

來源：谷歌黑板報

作者：Sundar Pichai

Google 和 Alphabet CEO

編者按：以下是 Sundar Pichai 在 2024 年 I/O 大會上講話編輯稿，經過調整以包含更多在舞臺上宣佈的內容。

Google 已全面進入 Gemini 時代。

在深入探討之前，我想先回顧一下我們所處的時刻。十多年來，我們一直在 AI 領域進行投入，並在各個層面進行創新：研究、產品、基礎設施，今天我們將對此進行全面討論。

儘管如此，我們仍處於 AI 平臺轉型的初期。我們看到了爲創作者、開發者、初創公司以及每一個人所帶來的巨大機遇。幫助推動這些機遇正是我們 Gemini 時代的意義所在。讓我們開始吧。

Gemini 時代

一年前，在 I/O 大會上，我們首次分享了 Gemini 的計劃：一個從一開始就構建爲原生多模態的前沿模型，能夠跨文本、圖像、視頻、代碼等多種數據類型進行推理。它標誌着將任意輸入轉換成任意輸出的重要一步——新一代的“I/O”。

自那以來，我們推出了首批 Gemini 模型，這是我們迄今爲止功能最強大的模型。它們在每個多模態基準測試中都擁有卓越的表現。兩個月後，我們又推出了 Gemini 1.5 Pro，它在處理長上下文方面取得了重大突破，能夠穩定地在生產環境中運行 100 萬個令牌（Token），比目前任何其他大規模基礎模型都要多。

我們希望每個人都能從 Gemini 的功能中受益。因此，我們立即行動起來，與大家分享這些進展。目前，超過 150 萬的開發者在使用我們各種工具中的 Gemini 模型。你們使用它來調試代碼、獲得新的見解並打造下一代的 AI 應用。

我們也在不斷將 Gemini 的突破性功能以強大的方式整合到我們的產品中。今天，我們將展示搜索、Photos、Workspace 和 Android 等產品中的實例。

產品進展

今天，我們所有擁有 20 億用戶的產品都在使用 Gemini。

我們還推出了全新的體驗，包括在移動設備上，人們現在可以通過 Android 和 iOS 上的應用程序直接與 Gemini 互動， Gemini Advanced讓用戶還可以使用我們功能最強的模型。僅在三個月的時間裏，已有超過一百萬人註冊試用，並且勢頭依然強勁。

在搜索中擴展 AI Overviews

Gemini 帶來的最令人興奮的變革之一是在 Google 搜索中。

在過去的一年中，作爲我們生成式搜索體驗（Search Generative Experience）的一部分，我們已經回答了數十億個搜索查詢。人們正在以全新的方式使用搜索，提出全新類型的問題，作出更長、更復雜的查詢，甚至是通過照片進行搜索，並獲得網絡上的最佳信息。

我們一直在 Labs 之外對這種體驗進行測試。我們倍受鼓舞地看到，不僅搜索的使用量有所增加，用戶滿意度也得到了提升。

我很高興宣佈，我們將於本週在美國向所有用戶推出這一全新改版的 AI Overviews 體驗。我們很快也將把這項體驗推廣到更多國家。

在搜索領域正發生着諸多創新。得益於 Gemini，我們能夠打造更爲強大的搜索體驗，包括在我們的產品之中。

介紹 Ask Photos

Google Photos 就是一個例子，在大約九年前，我們發佈了這款產品，自那以來，人們一直用它來整理最珍貴的回憶。如今，每天上傳的照片和視頻數量超過 60 億。

人們喜歡使用 Photos 來搜索他們生活中的點滴。藉助 Gemini，我們讓這一切變得更加簡單。

假設你在停車場繳費時，卻想不起自己的車牌號。以往，你需要在 Photos 中搜索關鍵詞，然後翻找多年積累的照片來尋找車牌。但現在，你只需直接詢問 Photos 即可。它能夠識別出經常出現的車輛，通過多方信息交叉驗證判斷出哪一輛是你的，並提供車牌號碼。

Ask Photos 還能夠幫助你以更深入的方式重溫回憶。例如，你可能正在回味女兒 Lucia 成長的早期重要時刻。現在，你可以直接問 Photos：“Lucia 是什麼時候學會游泳的？”

你甚至可以跟進提出更復雜的問題：“向我展示 Lucia 的游泳技能是怎麼進步的。”

在這裏，Gemini 不再只是進行簡單的搜索，它會識別不同的上下文——從在游泳池中撲騰，到在海洋中浮潛，再到她游泳證書上的文字和日期。Photos 會將所有這些信息整合在一起形成一個總結，讓你能夠全面瞭解，並再次重溫那些美妙的回憶。我們將在今年夏天推出 Ask Photos，並將持續增加更多功能。

通過多模態和長上下文解鎖更多知識

爲了理解跨越不同格式的各種知識，我們從一開始就將Gemini 打造成多模態的。它是一個內置了所有模態的模型。因此，它可以理解不同類型的輸入，並找到它們之間的聯繫。

多模態從根本上擴展了我們可以提出的問題以及我們將得到的答案。而長文本能力則使其更進一步，讓我們能夠引入更多信息：數百頁文本、數小時音頻或一小時的視頻、整個代碼存儲庫……或者，如果你願意，大約 96 份芝士蛋糕工廠餐廳的菜單。

處理這麼大量的菜單，你可能需要 100 萬令牌的上下文窗口，而現在通過 Gemini 1.5 Pro 就可以實現。開發者們就一直在以各種非常有趣的方式使用它。

在過去的幾個月裏，我們已經推出了具有長上下文能力的 Gemini 1.5 Pro的預覽版，我們還對翻譯、編碼和推理的質量進行了一系列改進。從今天開始，你也將在模型中看到這些更新。

現在我很高興地宣佈，我們將向全球所有開發者推出改進版的 Gemini 1.5 Pro。此外，從今天開始，具有100 萬令牌上下文能力的 Gemini 1.5 Pro 也可供 Gemini Advanced 的消費者直接使用，包含 35 種語言。

在非公開預覽版中擴展到 200 萬令牌

100 萬令牌正在開闢全新的可能性。這已經很振奮人心，但我認爲我們還可以更進一步。

今天，我們將上下文窗口擴展到 200 萬個令牌，並將其以非公開預覽版的方式提供給開發者們。

過去幾個月來我們所取得的進展讓我非常激動，這代表着我們朝無限上下文的最終目標又邁出了一步。

將 Gemini 1.5 Pro 應用於 Workspace

到目前爲止，我們已經分享了兩項技術進步：多模態和長上下文。他們各自已經非常強大，但二者結合能夠釋放更深層次的能力和更多的智能。

這在 Google Workspace 中體現得更加淋漓盡致。

長期以來，人們總在 Gmail 中搜索他們的電子郵件。而現在我們正通過 Gemini 使其變得更加強大。例如，作爲家長，你希望隨時瞭解孩子在學校發生的一切，Gemini 就可以幫助你！

現在，我們可以讓 Gemini 總結學校最近發來的所有電子郵件。在後臺，它可以識別相關電子郵件，甚至分析 PDF 等附件，你可以獲得一份包含關鍵要點和待辦事項的摘要。也許你本週正在旅途中，無法參加家長會議，而會議錄音長達一個小時。如果這份錄音來自於 Google Meet，你就可以讓 Gemini 爲你提供重點內容。倘若有個家長小組正在尋找志願者，而你那天正好有空，那麼當然，Gemini 還可以幫助你起草回覆郵件。

還有無數其他例子可以說明 Gemini 如何讓生活更輕鬆。今天起 Gemini 1.5 Pro 已經應用在 Workspace Labs 中。

NotebookLM 中的音頻輸出

我們剛剛看了一個文本輸出的例子，但通過多模態模型，我們可以做得更多。

我們在這方面已經取得了進展，未來還會有更多。NotebookLM 中的音頻概述（Audio Overview）就顯示了在這方面的進展：它通過 Gemini 1.5 Pro，可以基於你的源文件生成個性化和交互式音頻對話。

這就是多模態帶來的可能性，很快你就能夠將輸入和輸出進行混合和匹配，這就是我們所說的新一代 I/O的意思。但如果我們還能再進一步呢？

使用 AI 智能體更進一步

在這一方面更進一步就是我們在 AI 智能體（AI Agents）上看到的機遇之一。我認爲它們是可以推理、規劃和記憶的智能系統。它們能夠提前多步”思考”，跨軟件和系統工作，所有這些都是爲了幫助你完成任務，而最重要的是要在你的監督之下。

我們仍處於早期階段，但讓我向你展示一些我們正在努力解決的應用案例的類型。

讓我們以購物爲例。買鞋很有意思，但當鞋子不合適需要退貨時就不那麼有趣了。

想象一下，如果 Gemini 可以爲你完成所有步驟：

在你的收件箱中搜索收據……

從你的電子郵件中找到訂單號……

填寫退貨表格……

甚至安排 UPS 取件。

那是不是容易多了？

讓我們再舉一個更復雜一些的例子。

假設你剛搬到芝加哥。想象一下 Gemini 和 Chrome 能夠共同協作幫助你做很多準備工作——代替你組織、推理、綜合分析等。

比如，你想要探索這座城市並找到附近的服務——從乾洗店到遛狗服務，你還必須在數十個網站上更新你的新地址。

現在 Gemini 可以勝任這些工作，並在需要時提示你提供更多信息。這樣事情始終在你的掌控之中。

這部分非常重要——當我們做這些體驗的原型設計時，我們深思熟慮如何以一種私密、安全且對每個人都適用的方式來進行。

這些都是簡單的應用案例，但它們可以讓你很好地瞭解到，通過構建能夠代表你去提前思考、推理和計劃的智能系統，我們希望能夠解決的問題類型。

這對我們的使命意味着什麼

Gemini 憑藉其多模態、長上下文和智能體，使我們更接近我們的最終目標：讓 AI 助力每個人。

我們認爲，這是我們在達成使命方面取得最大進展的方式：整合以各種方式輸入的全球信息，使其可以通過任何輸出方式被獲取，並將全球信息與你的世界中的信息結合起來，以一種真正對你有用的方式進行呈現。

新的突破

爲了充分發揮 AI 的潛力，我們需要開創新領域，谷歌 DeepMind 團隊一直致力於此。

我們已經收到了大家對 1.5 Pro 及其長上下文窗口的熱情反饋，但我們也從開發人員那裏瞭解到，他們想要更快、更具成本效益。因此，明天，我們將推出 Gemini 1.5 Flash，一個爲規模化構建的更輕量級的模型，它針對以低延遲和成本爲重的任務進行了優化。1.5 Flash 將於週二在 AI Studio 和 Vertex AI 中提供。

展望未來，我們始終希望構建一個在日常生活中有用的通用智能體。Astra 項目展示了多模態理解和實時對話能力。

我們還在視頻和圖像生成方面取得了進展，推出了 Veo 和 Imagen 3，並推出了 Gemma 2.0——我們爲負責任的 AI 創新打造的下一代開放模型。

AI 時代的基礎設施：介紹 Trillium

訓練最先進的模型需要大量的計算能力。過去六年中，行業對機器學習計算能力的需求增長了 100 萬倍。而且，每年都會以十倍的速度增長。

Google 在這方面具有優勢。25 年來，我們一直在投資世界一流的技術基礎設施，從支持搜索的尖端硬件，到爲我們的 AI 進步提供支持的定製張量處理單元（tensor processing units）。

Gemini 完全在我們的第四代和第五代 TPU 上進行訓練和服務。包括 Anthropic 在內的其他領先的 AI 公司也已經在 TPU 上訓練了他們的模型。

今天，我們很高興地宣佈推出第六代 TPU—— Trillium。Trillium 是我們迄今爲止性能最強、效率最高的 TPU，與上一代 TPU v5e 相比，每個芯片的計算性能提高了 4.7 倍。

我們將在 2024 年底向 Cloud 客戶提供 Trillium。

除了我們的 TPU，我們還推出 CPU 和 GPU 來支持任何工作負載。這包括我們上個月宣佈的新型 Axion 處理器，我們的首款基於 Arm 定製的 CPU，可提供業界領先的性能和能效。

我們也很自豪成爲首批提供 Nvidia 尖端 Blackwell GPU 的 Cloud 提供商之一，該 GPU 將於 2025 年初上市。我們很幸運能與 NVIDIA 建立長期合作伙伴關係，並很高興能將 Blackwell 的突破性功能帶給我們的客戶。

芯片是我們集成端到端系統的基礎部分，從性能優化的硬件和開放軟件到靈活的消費模式。所有這些都彙集在我們的 AI 超級計算機（ AI Hypercomputer）中，這是一種開創性的超級計算機架構。

企業和開發者正在使用它來應對更復雜的挑戰，其效率是僅購買原始硬件和芯片的兩倍多。我們的 AI 超級計算機的進步之所以成爲可能，是因爲我們在數據中心採用了液體冷卻的方法。

我們已經這樣做近10年了，遠早於它成爲行業的先進技術。如今，我們部署的液體冷卻系統總容量已接近 1 吉瓦，並且還在不斷增長——這幾乎是任何其他團隊的 70 倍。

這背後的基礎是我們龐大的網絡規模，它連接了我們全球的基礎設施。我們的網絡覆蓋了超過 200 萬英里的陸地和海底光纖：是緊隨之後的雲服務提供商的 10 倍（！）以上。

我們將繼續進行必要的投資，以推進 AI 創新並提供最先進的功能。

搜索最激動人心的篇章

我們最大的投資和創新領域之一是我們的創始產品——搜索。25 年前，我們創建了搜索，以幫助人們理解互聯網上洶湧的信息浪潮。

隨着每一次平臺的轉變，我們都在幫助更好地回答你的問題上取得了突破。在移動設備上，我們利用更好的上下文、位置感知和實時信息，解鎖了新型的問題和答案。隨着自然語言理解和計算機視覺技術的進步，我們實現了新的搜索方式，可以用語音或哼唱來找到你最喜歡的新歌；或者用你在散步時看到的那朵花的圖像來進行搜索。現在，你甚至可以使用 Circle to Search 來搜索你可能想要購買的那些很酷的新鞋。去試試吧，反正你總能退貨！

當然，Gemini 時代的搜索將把這一切提升到一個全新的水平，它將把我們的基礎設施優勢、最新的 AI 功能、對信息質量的高標準以及數十年來把你與豐富的網絡連接起來的經驗相結合。其結果將是一款爲你工作的產品。

Google 搜索是生成式 AI，其規模足以滿足人類好奇心。這是我們迄今爲止最激動人心的搜索篇章。

更智能的 Gemini 體驗

Gemini 不僅僅是一個聊天機器人；它旨在成爲你得力的私人助手，可以幫助你處理複雜的任務並代表你採取行動。

與 Gemini 的互動應該是對話式的、直觀的。因此，我們宣佈推出稱爲 Live 的全新 Gemini 體驗，讓你可以使用語音與 Gemini 進行深入對話。我們還會在今年晚些時候將 Gemini Advanced 提升爲 200 萬個令牌，以便能夠上傳和分析視頻和長代碼等超密集文件。

Android 上的 Gemini

全球有數十億 Android 用戶，因此我們很高興能將 Gemini 更深入地融入用戶體驗。作爲你的全新 AI 助手，Gemini 可隨時隨地爲你提供幫助。我們已將 Gemini 模型整合到 Android 中，包括我們最新的設備端模型：Gemini Nano 多模態模型（Gemini Nano with Multimodality），它可以處理文本、圖像、音頻和語音，在保證存儲在設備上的信息私密性的同時解鎖新的體驗。

我們負責任的 AI 方法

我們繼續大膽而振奮地把握住 AI 所帶來的機遇。同時，我們也在確保以負責任的方法行事。我們正在開發一種叫做 AI 輔助紅隊測試（AI-assisted red teaming）的尖端技術，該技術利用了 Google DeepMind 在 AlphaGo 等遊戲方面的突破以改進我們的模型。此外，我們也已將 SynthID 水印工具擴展到文本和視頻兩種新的模態，因此更容易識別 AI 生成的內容。

共同創造未來

所有這些都表明了我們在以大膽而負責任的方法，讓 AI 助力每個人方面取得的重要進展。

很長一段時間以來，我們一直採用 AI 爲先的方法。我們數十年的研究領導者地位開創了許多現代突破，爲我們和整個行業的 AI 進步提供了動力。最重要的是，我們擁有：