在新興的生成式人工智能領域,雲計算巨頭亞馬遜網絡服務(AWS)一直被認爲落後於其競爭對手微軟 Azure 和谷歌雲(Google Cloud)。

但在過去兩天的 AWS Re:Invent 大會上,亞馬遜奮起直追,昭告了它希望成爲生成式 AI 領域領頭羊的願望。

繼昨日 AWS 首席執行官Adam Selipsky宣佈推出了名爲 Amazon Q 的新型聊天機器人,升級款的 AI 系統處理器 Trainium2,並與英偉達拓展夥伴關係外。今日,AWS 數據與人工智能副總裁 Swami Sivasubramanian 在其主題演講中又發佈了一系列公告。

以下是今天 14 項功能要點:

1.更多LLM 選擇:通過 Bedrock,亞馬遜 AWS 已爲企業客戶提供了對模型的訪問權限‌,如自己的預訓練基礎模型 Titan,以及來自第三方的基礎模型,如 AI21 的 Jurassic、Anthropic 的 Claude、Meta 的 Llama 2 和 Stable Diffusion。

正如此前 9 月,亞馬遜向 Anthropic投資‌ 40 億美元的熱忱一樣,Sivasubramanian 宣佈將爲 Anthropic 提供更多模型支持。他大肆宣揚了 Bedrocks 對 Anthropic 的 Claude 模型的支持,AWS 成爲首家支持Claude 2.1‌ 的雲提供商。據悉,該模型擁有業界領先的 20 萬 token 上下文窗口、且準確性更高,幻覺率更低。此外,Sivasubramanian 還宣佈了 Bedrocks 對 Meta 的 Llama 2、70B(一種開源模型)的支持,這表明 AWS 將繼續支持開源。

2. 支持多模式向量嵌入:矢量嵌入是一種將文本和其他文件轉化爲稱爲矢量的數字表示的技術。這些向量可以讓模型更容易地理解相似詞語之間的關係,例如“貓”與“小貓”的意思相近,繼而使模型能夠爲用戶提供更相關的回覆。亞馬遜此前曾宣佈採用 Titan 文本嵌入技術,並在內部將其用於亞馬遜上的產品推薦,但它只適用於文本。

今天,Sivasubramanian 宣佈,泰坦多模型嵌入技術(Titan Multi-model Embeddings)將全面投入使用,這將使在 LLM 中提供多模態搜索和推薦選項變得更加容易。

3.文本生成模型Titan TextLite 和 Titan TextExpress 已全面上市:TextLite 是一種輕量級模型,適用於聊天機器人內的文本摘要、文案撰寫和微調,而 Titan TextExpress 則適用於開放式文本生成和對話聊天。

4. 泰坦圖像生成器(Titan Image Generator)可在預覽模式下生成隱形水印,以確保安全:這種模式使客戶能夠使用簡單的語言提示,生成用於增強現有圖像的高質量逼真圖像。用戶可以使用自己的數據自定義圖像,創建反映自己品牌的內容。Sivasubramanian 表示,該模型在不同的數據集上進行訓練,以實現準確的輸出,同時還能減少毒性和偏差。

他說,人類評估員的測試結果表明,該模型的得分高於其他競爭模型。此外,該模型生成的所有圖像默認都帶有隱形水印,“旨在幫助避免虛假信息的傳播……並具有防篡改功能”。他說,Titan Image Generator 是市場上第一款帶有這種水印的產品。

在主題演講中,Sivasubramanian 以一張鬣蜥圖片爲例,展示了該模型的編輯功能。其中一項功能叫做“outpainting”,允許用戶替換圖片的背景,在演示案例中,Sivasubramanian 用雨林圖片替換了普通背景。此外,他還展示瞭如何改變圖片主體,以及如何使用自然語言來改變鬣蜥的朝向。

5.使檢索增強生成(RAG)更容易:亞馬遜正在使用 RAG 讓 LLMs 搜索自己的專有數據存儲。通常情況下,RAG 非常複雜,工程師必須將數據轉換爲矢量嵌入,並將其存儲到矢量數據庫中,需要的時間在數週甚至數月。爲此,亞馬遜發佈了亞馬遜 Bedrock 知識庫,允許企業用戶只需將 LLM 指向他們的數據位置(如 S3 存儲桶),AWS Bedrock 就能獲取相關文本或文檔,並自動完成所有矢量轉換。此外,它還可與 Vector Engine、Redis Enterprise Cloud 和 Pinecone 等流行的矢量數據庫配合使用。亞馬遜還宣佈將“很快”支持 Amazon Aurora,、MongoDB 和更多數據庫。

6.亞馬遜Bedrock 模型評估預覽:這是企業評估、比較和選擇最適合其用例的基礎模型的一種方法。

7. 自動“代理”應用 RAG DIY:生成式 AI 代理(Agents)最近很熱,因爲它們可以在一定程度上自主行動。Agents 是通過動態調用各種應用程序接口來執行復雜任務的人工智能應用程序,亞馬遜通過 Agents for Amazon 對此提供了支持,該代理於昨天全面上線。

今天早上,Sivasubramanian 展示了一個名爲 RAG DIY 的假想代理,以展示代理的能力。由 LLM 驅動的 RAG DIY 助手基於 Bedrock 中的 Claude 2,允許人們使用自然語言提問來完成家居和其他項目。Swami 舉了一個例子:例如一位女士想更換浴室的梳妝檯。那麼,她可以向該助手詢問任何類型的產品,並收到一份詳細的步驟、材料和工具清單,以及所需的許可證。該助手會利用用戶的輸入,並調用 Titan image generator 的圖像,然後,RAP DIY 應用程序使用多模態模型嵌入來搜索其大量庫存,並檢索所需的所有產品。通過調用專門用於摘要任務的 Cohere Command 模型,該助手還可以爲她提供任何產品的用戶評論摘要。

8. Gen AI 創新中心幫助企業建立定製模型:AWS 今年早些時候宣佈成立創新中心,爲企業建立基礎模型提供專家幫助,包括數據科學和戰略專業知識。AWS 今日宣佈,從明年開始,它將爲圍繞 Anthropic 的 Claude 模型構建提供定製支持,包括提供專家團隊,幫助企業利用自身數據對模型進行微調。

9.用於模型訓練的Sagemaker Hyperpod 移至 GA:越來越多的公司發現,基礎模型的訓練過程極具挑戰性。它需要海量數據、創建和維護由數千個 AI 加速器組成的昂貴集羣、編寫代碼以在集羣間分配模型訓練。近日,亞馬遜宣佈與 Nvidia 達成合作,而這確保了對最新 GPU 集羣的訪問,因此 Hyperpod 可以爲客戶完成所有這些工作。AWS 表示,Hyperpod 可以將模型訓練時間最多縮短 40%。此外,AWS 還宣佈了 Sagemaker 在推理、訓練和 MLOps 方面的一系列其他功能。

10. 重要的數據庫集成,包括矢量支持:亞馬遜爲管理數據的企業公司提供了最廣泛的雲數據庫,但這些數據庫仍然是孤島式的,使得企業公司更難通過 LLM 輕鬆訪問這些數據。亞馬遜已經意識到了這一點,並正在努力打破這些孤島,而微軟對其Fabric 計劃‌的吹捧也刺激了亞馬遜。目前,亞馬遜已開始投資於這一所謂的零 ETL 願景,並從去年開始實施‌,整合了自己的一些數據庫,如 Aurora 和 Redshift。

今日,AWS 宣佈整合 Amazon OpenSeach 和 Amazon S3,讓用戶可以在一個地方分析和可視化所有日誌數據,而無需創建任何 ETL 管道。昨日,亞馬遜宣佈在其 Redshift lakehouse 數據庫與其流行的 Aurora Postgres、Dynamo DB 和 Redis MySQL 數據庫之間,以及 DynamoDB 與 OpenSearch 之間實現零 ETL 集成。

但企業對集成的渴望還包括允許在多個數據庫中存儲和查詢矢量數據。最近,亞馬遜爲其 Aurora MySQL(一種基於雲的關係數據庫)添加了矢量搜索支持‌。今年 7 月,亞馬遜在預覽模式下爲其 OpenSearch Serverless 產品推出‌了矢量數據庫功能 Vector Engine。今天,該功能已進入全面可用狀態。

同樣在今天,AWS 宣佈其兩個更受歡迎的數據庫 --DocumentDB 和 DynamoDB 都支持矢量搜索,DocumentDB 客戶可以在同一個數據庫中同時存儲源數據和矢量數據。

11.矢量搜索可用於Redis 的內存數據庫(預覽模式):Sivasubramanian 強調了銀行等注重安全的大型公司在欺詐檢測或實時聊天機器人等用例中使用“超快”矢量搜索的需求。他說,DB for Redis 現在可以存儲數百萬個向量,併爲向量查詢提供個位數毫秒的響應時間。

12.結合Neptune Analytics,現已進入 GA:Sivasubramanian 補充說,客戶正在尋找利用圖形分析來分析相互關聯數據的方法,因此亞馬遜正在將矢量搜索與圖形分析能力結合起來,以發現數據間更多隱藏的關係 -- 這可以讓 LLM 變得更加強大。Neptune Analytics 是亞馬遜圖形數據庫 Neptune 的分析引擎,它允許數據科學家從亞馬遜 Neptune 圖形數據或 S3 上的數據湖中找到聯繫,速度比以前快“80 倍”。它將圖形和矢量數據存儲在一起。Sivasubramanian 以 Snap 公司爲例,該公司使用 Neptune Analytics 在“短短几秒鐘內”就找到了其 5000 萬活躍用戶中的數十億個連接。

13.讓第三方在淨室數據上執行機器學習(預覽模式):亞馬遜宣佈,客戶可以在所謂的“淨室”中與第三方共享數據,然後讓他們在數據上運行機器學習(ML)模型,以獲得預測性見解。這項服務被稱爲 AWS Clean Rooms ML。Sivasubramanian 表示,雖然基本的 ML 模型現在就可以使用,但專業的醫療保健和其他模型將在“未來幾個月”推出。

14.用於亞馬遜Redshift 中生成式 SQL 的 Amazon Q:Amazon Q‌ 是一款爲特定企業量身定製的人工智能助手,是 AWS 昨天發佈的重頭戲。亞馬遜今天宣佈 Q 可以支持 SQL,即客戶日常用於查詢文件的主要編碼語言。有時這些 SQL 查詢可能很複雜,但現在用戶可以使用 Q 將自然語言提示轉化爲定製的查詢建議,用於分析亞馬遜 Redshift lakehouse 中 PB 級的非結構化數據。目前該功能還處於預覽階段。不久,用戶還可以使用 Q 創建使用自然語言的數據集成管道(AWS 稱之爲 Amazon Glue)。

從這兩日的宣告來看,亞馬遜尋求差異化的戰略主要在兩個方面。首先是爲客戶提供選擇。昨日,Selipsky 在會上暗暗影射了微軟,稱微軟依賴於一家 LLM 公司(OpenAI),而亞馬遜則計劃向許多供應商提供服務。其次,亞馬遜的另一項戰略是打破各種數據庫之間的孤島,讓企業客戶在使用 LLM 時可以更輕鬆地利用他們的專有數據。

生成式 AI 的熱潮已經席捲到了雲計算巨頭間,亞馬遜 AWS 會迎頭趕超,還是微軟 Azure、谷歌 Cloud 將繼續領跑?

參考來源:

https://venturebeat.com/ai/amazon-awss-barrage-of-gen-ai-announcements-aim-to-outdo-microsoft/

本文來自微信公衆號“AIGC新智界”(ID:AIGCxinzhijie),36氪經授權發佈。

相關文章