What is an example of multimodal AI?

A multimodal model is a machine learning model capable of processing information from different modalities, including images, videos, and text. For example, Google's Gemini can receive a photo of a plate of cookies and generate a written recipe.

What is the difference between generative AI and multimodal AI?

Generative AI typically creates content from a single prompt type. Multimodal AI expands on this by processing information from multiple modalities (images, video, text) simultaneously, allowing users to input virtually any type of content to generate new output.

What are the benefits of multimodal AI?

Multimodal AI offers advanced reasoning, problem-solving, and generation capabilities. It allows developers to build applications that understand and generate code, text, and media seamlessly.

歡迎在 Vertex AI 試用 Gemini 3，這是 Google 最出色的模型，擅長推論、程式設計和多模態理解

多模態 AI

將近乎任何內容類型轉換成文字、程式碼、影片、音訊和圖片

多模態模型能以提示的形式處理各類輸入內容 (包括文字、圖片和音訊)，並將這些提示轉換為多種輸出內容，不僅限於來源類型。

新客戶可獲得最多 $300 美元的免費抵免額，盡情體驗 Vertex AI 中的多模態模型和其他 Google Cloud 產品。

總覽

可以舉例說明何為多模態 AI？

多模態模型是一種機器學習 (ML) 模型，能處理圖片、影片和文字等不同型態的資訊。舉例來說，您可以向 Google 的多模態模型 Gemini 提供一盤餅乾的相片，然後生成文字食譜，反之亦然。

透過 Gemini 瞭解多模態 AI

5:14

生成式 AI 和多模態 AI 有何不同？

生成式 AI 泛指使用機器學習模型產生新內容，例如文字、圖片、音樂、音訊和影片，且通常使用單一類型的提示。多模態 AI 則具備更進階的生成能力，可以處理圖片、影片和文字等多種形式的資訊。多模態就好比賦予 AI 處理及瞭解不同感官模式的能力。具體來說，輸入內容和輸出內容不再受限於單一類型，您可以給予近乎任何類型的提示，並生成絕大多數的內容類型。

什麼 AI 技術可將圖片當做提示使用？

Gemini 是 Google DeepMind 團隊開發的多模態模型，可以處理圖片、文字、程式碼和影片等類型的提示。Gemini 的設計宗旨就是針對文字、圖片、影片、音訊和程式碼流暢地進行推論。Vertex AI 內建的 Gemini 甚至能根據提示，從圖片中擷取文字、將圖片文字轉換為 JSON，以及生成與上傳圖片相關的解答。

多模態 AI 未來會如何發展？這項技術的重要性為何？

多模態 AI 和多模態模型開創全新的開發方式，讓開發人員在新一代的應用程式中建構及擴充 AI 功能。舉例來說，Gemini 可以理解、解釋和生成全球最熱門的程式設計語言 (例如 Python、Java、C++ 和 Go)，以及生成高品質的程式碼，讓開發人員能專心建構更多功能豐富的應用程式。多模態 AI 也有望使 AI 技術進一步走向大眾，不再像是單純的智慧軟體，而是更專業的幫手或助理。

多模態模型和多模態 AI 有哪些優點？

多模態 AI 的優勢，在於為開發人員和使用者提供更先進的推理、問題解決和生成功能。這些先進技術為新一代應用程式開創無限可能，徹底改變人們工作與生活的方式。如果開發人員想開始建構產品與服務，可採用 Vertex AI Gemini API，享有企業安全性、資料落地、效能和技術支援等功能。現有 Google Cloud 客戶可以直接在 Vertex AI 中用提示與 Gemini 互動。

運作方式

多模態模型可以理解及處理絕大多數的輸入內容、結合不同類型的資訊，並生成幾乎任何輸出內容。舉例來說，若搭配使用 Vertex AI 和 Gemini，使用者可以用文字、圖片、影片或程式碼進行提示，生成與原始輸入內容不同類的內容。

常見用途

試用多模態提示

用文字、圖片和影片提示 Gemini

使用自然語言、程式碼或圖片測試 Gemini 模型。嘗試使用範例提示來擷取圖片中的文字、將圖片文字轉換為 JSON，甚至產生關於上傳圖片的答案，打造新一代 AI 應用程式。

操作說明

用文字、圖片和影片提示 Gemini

使用自然語言、程式碼或圖片測試 Gemini 模型。嘗試使用範例提示來擷取圖片中的文字、將圖片文字轉換為 JSON，甚至產生關於上傳圖片的答案，打造新一代 AI 應用程式。

使用多模態模型

開始使用 Google 的多模態模型 Gemini

概略瞭解 Google Cloud 中的多模態模型使用情形、Gemini 的優缺點、提示和要求資訊，以及權杖數量。

試試 Gemini API、Vertex AI Gemini API 參考資料和多模態提示設計

操作說明

開始使用 Google 的多模態模型 Gemini

概略瞭解 Google Cloud 中的多模態模型使用情形、Gemini 的優缺點、提示和要求資訊，以及權杖數量。

多模態 AI

將近乎任何內容類型轉換成文字、程式碼、影片、音訊和圖片

產品亮點

可以舉例說明何為多模態 AI？

生成式 AI 和多模態 AI 有何不同？

什麼 AI 技術可將圖片當做提示使用？

多模態 AI 未來會如何發展？這項技術的重要性為何？

多模態模型和多模態 AI 有哪些優點？

試用多模態提示

用文字、圖片和影片提示 Gemini

操作說明

用文字、圖片和影片提示 Gemini

使用多模態模型

開始使用 Google 的多模態模型 Gemini

操作說明

開始使用 Google 的多模態模型 Gemini

開始進行概念驗證

新客戶可獲得最多 $300 美元的免費抵免額，盡情體驗 Vertex AI 中的多模態模型

試用提示範例來測試 Gemini 的多模態功能

設計多模態提示

在 Vertex AI 中探索生成式 AI

試用 Vertex AI Gemini API