多模態模型能以提示的形式處理各類輸入內容 (包括文字、圖片和音訊),並將這些提示轉換為多種輸出內容,不僅限於來源類型。
新客戶可獲得最多 $300 美元的免費抵免額,盡情體驗 Vertex AI 中的多模態模型和其他 Google Cloud 產品。
總覽
多模態模型是一種機器學習 (ML) 模型,能處理圖片、影片和文字等不同型態的資訊。舉例來說,您可以向 Google 的多模態模型 Gemini 提供一盤餅乾的相片,然後生成文字食譜,反之亦然。
生成式 AI 泛指使用機器學習模型產生新內容,例如文字、圖片、音樂、音訊和影片,且通常使用單一類型的提示。多模態 AI 則具備更進階的生成能力,可以處理圖片、影片和文字等多種形式的資訊。多模態就好比賦予 AI 處理及瞭解不同感官模式的能力。具體來說,輸入內容和輸出內容不再受限於單一類型,您可以給予近乎任何類型的提示,並生成絕大多數的內容類型。
Gemini 是 Google DeepMind 團隊開發的多模態模型,可以處理圖片、文字、程式碼和影片等類型的提示。Gemini 的設計宗旨就是針對文字、圖片、影片、音訊和程式碼流暢地進行推論。Vertex AI 內建的 Gemini 甚至能根據提示,從圖片中擷取文字、將圖片文字轉換為 JSON,以及生成與上傳圖片相關的解答。
多模態 AI 和多模態模型開創全新的開發方式,讓開發人員在新一代的應用程式中建構及擴充 AI 功能。舉例來說,Gemini 可以理解、解釋和生成全球最熱門的程式設計語言 (例如 Python、Java、C++ 和 Go),以及生成高品質的程式碼,讓開發人員能專心建構更多功能豐富的應用程式。多模態 AI 也有望使 AI 技術進一步走向大眾,不再像是單純的智慧軟體,而是更專業的幫手或助理。
多模態 AI 的優勢,在於為開發人員和使用者提供更先進的推理、問題解決和生成功能。這些先進技術為新一代應用程式開創無限可能,徹底改變人們工作與生活的方式。如果開發人員想開始建構產品與服務,可採用 Vertex AI Gemini API,享有企業安全性、資料落地、效能和技術支援等功能。現有 Google Cloud 客戶可以直接在 Vertex AI 中用提示與 Gemini 互動。
運作方式
多模態模型可以理解及處理絕大多數的輸入內容、結合不同類型的資訊,並生成幾乎任何輸出內容。舉例來說,若搭配使用 Vertex AI 和 Gemini,使用者可以用文字、圖片、影片或程式碼進行提示,生成與原始輸入內容不同類的內容。