多模態 AI

將近乎任何內容類型轉換成文字、程式碼、影片、音訊和圖片

多模態模型能以提示的形式處理各類輸入內容 (包括文字、圖片和音訊),並將這些提示轉換為多種輸出內容,不僅限於來源類型。

新客戶可獲得最多 $300 美元的免費抵免額,盡情體驗 Vertex AI 中的多模態模型和其他 Google Cloud 產品。

總覽

可以舉例說明何為多模態 AI?

多模態模型是一種機器學習 (ML) 模型,能處理圖片、影片和文字等不同型態的資訊。舉例來說,您可以向 Google 的多模態模型 Gemini 提供一盤餅乾的相片,然後生成文字食譜,反之亦然。

生成式 AI 和多模態 AI 有何不同?

生成式 AI 泛指使用機器學習模型產生新內容,例如文字、圖片、音樂、音訊和影片,且通常使用單一類型的提示。多模態 AI 則具備更進階的生成能力,可以處理圖片、影片和文字等多種形式的資訊。多模態就好比賦予 AI 處理及瞭解不同感官模式的能力。具體來說,輸入內容和輸出內容不再受限於單一類型,您可以給予近乎任何類型的提示,並生成絕大多數的內容類型。

什麼 AI 技術可將圖片當做提示使用?

Gemini 是 Google DeepMind 團隊開發的多模態模型,可以處理圖片、文字、程式碼和影片等類型的提示。Gemini 的設計宗旨就是針對文字、圖片、影片、音訊和程式碼流暢地進行推論。Vertex AI 內建的 Gemini 甚至能根據提示,從圖片中擷取文字、將圖片文字轉換為 JSON,以及生成與上傳圖片相關的解答。

多模態 AI 未來會如何發展?這項技術的重要性為何?

多模態 AI 和多模態模型開創全新的開發方式,讓開發人員在新一代的應用程式中建構及擴充 AI 功能。舉例來說,Gemini 可以理解、解釋和生成全球最熱門的程式設計語言 (例如 Python、Java、C++ 和 Go),以及生成高品質的程式碼,讓開發人員能專心建構更多功能豐富的應用程式。多模態 AI 也有望使 AI 技術進一步走向大眾,不再像是單純的智慧軟體,而是更專業的幫手或助理。

多模態模型和多模態 AI 有哪些優點?

多模態 AI 的優勢,在於為開發人員和使用者提供更先進的推理、問題解決和生成功能。這些先進技術為新一代應用程式開創無限可能,徹底改變人們工作與生活的方式。如果開發人員想開始建構產品與服務,可採用 Vertex AI Gemini API,享有企業安全性、資料落地、效能和技術支援等功能。現有 Google Cloud 客戶可以直接在 Vertex AI 中用提示與 Gemini 互動

運作方式

多模態模型可以理解及處理絕大多數的輸入內容、結合不同類型的資訊,並生成幾乎任何輸出內容。舉例來說,若搭配使用 Vertex AI 和 Gemini,使用者可以用文字、圖片、影片或程式碼進行提示,生成與原始輸入內容不同類的內容。

將餅乾圖片轉換成文字食譜的多模態提示

常見用途

試用多模態提示

用文字、圖片和影片提示 Gemini

使用自然語言、程式碼或圖片測試 Gemini 模型。嘗試使用範例提示來擷取圖片中的文字、將圖片文字轉換為 JSON,甚至產生關於上傳圖片的答案,打造新一代 AI 應用程式。

前往控制台測試提示
多模態模型的 Vertex AI 提示使用者介面

用文字、圖片和影片提示 Gemini

使用自然語言、程式碼或圖片測試 Gemini 模型。嘗試使用範例提示來擷取圖片中的文字、將圖片文字轉換為 JSON,甚至產生關於上傳圖片的答案,打造新一代 AI 應用程式。

前往控制台測試提示
多模態模型的 Vertex AI 提示使用者介面

使用多模態模型

開始使用 Google 的多模態模型 Gemini

概略瞭解 Google Cloud 中的多模態模型使用情形、Gemini 的優缺點、提示和要求資訊,以及權杖數量。

查看說明文件
試試 Gemini API、Vertex AI Gemini API 參考資料和多模態提示設計

開始使用 Google 的多模態模型 Gemini

概略瞭解 Google Cloud 中的多模態模型使用情形、Gemini 的優缺點、提示和要求資訊,以及權杖數量。

查看說明文件
試試 Gemini API、Vertex AI Gemini API 參考資料和多模態提示設計

開始進行概念驗證

新客戶可獲得最多 $300 美元的免費抵免額,盡情體驗 Vertex AI 中的多模態模型

試用提示範例來測試 Gemini 的多模態功能

設計多模態提示

在 Vertex AI 中探索生成式 AI

試用 Vertex AI Gemini API