What is an example of multimodal AI?

A multimodal model is a machine learning model capable of processing information from different modalities, including images, videos, and text. For example, Google's Gemini can receive a photo of a plate of cookies and generate a written recipe.

What is the difference between generative AI and multimodal AI?

Generative AI typically creates content from a single prompt type. Multimodal AI expands on this by processing information from multiple modalities (images, video, text) simultaneously, allowing users to input virtually any type of content to generate new output.

What are the benefits of multimodal AI?

Multimodal AI offers advanced reasoning, problem-solving, and generation capabilities. It allows developers to build applications that understand and generate code, text, and media seamlessly.

Gemini 3 をお試しください。Gemini Enterprise Agent Platform における推論、コーディング、マルチモーダル理解に最適なモデルです。

マルチモーダル AI

ほとんどのコンテンツタイプからテキスト、コード、動画、音声、画像を生成する

マルチモーダルモデルは、テキスト、画像、音声などの幅広い入力をプロンプトとして処理し、それらのプロンプトをソースタイプだけでなくさまざまな出力に変換できます。

新規のお客様には、Gemini Enterprise Agent Platform のマルチモーダルモデルやその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

概要

マルチモーダル AI の例にはどのようなものがありますか？

マルチモーダルモデルは、画像、動画、テキストなど、異なるモダリティからの情報を処理できる ML（機械学習）モデルです。たとえば、Google のマルチモーダルモデルである Gemini は、クッキーの置かれた皿の写真を受け取って、記述されたレシピをレスポンスとして生成します。その逆も同様です。

Gemini でマルチモーダル AI を探る

5:14

生成 AI とマルチモーダル AI の違いは何ですか？

生成 AI とは、ML モデルを使用して、テキスト、画像、音楽、音声、動画などの新しいコンテンツを通常は単一の種類のプロンプトから作成することの総称です。マルチモーダル AI は、画像、動画、テキストなどの複数のモダリティからの情報を処理することで、こうした生成機能を拡張します。マルチモダリティは、AI に異なる感覚的モードを処理して理解する能力を与えるものと考えることができます。これは実質的に、ユーザーが 1 つの入力と 1 つの出力のタイプに制限されることなく、ほとんどの入力を備えるモデルに、ほとんどのコンテンツタイプの生成をプロンプトできることを意味します。

画像をプロンプトとして使用できる AI はどれですか？

Gemini は、Google DeepMind のチームのマルチモーダルモデルで、画像だけでなく、テキスト、コード、動画でもプロンプトできます。Gemini は最初から設計されており、テキスト、画像、動画、音声、コードにわたってシームレスに推論できます。Gemini Enterprise エージェントプラットフォームでは、プロンプトを使用して画像からのテキスト抽出、画像テキストの JSON への変換、アップロードされた画像に関する回答の生成も行うことができます。

マルチモーダル AI の未来はどのようなもので、なぜ重要なのですか？

マルチモーダル AI とマルチモーダルモデルは、デベロッパーが次世代のアプリケーションで AI の機能を構築して拡張する方法の前進を示しています。たとえば、Gemini は Python、Java、C++、Go などの世界で最も普及しているプログラミング言語で高品質のコードを理解、説明、生成できるため、デベロッパーはより多くの機能を備えたアプリケーションの構築に取り組みたくなります。マルチモーダル AI の可能性は、スマートソフトウェアというよりも、専門家のヘルパーやアシスタントのような AI に世界を近づけます。

マルチモーダルモデルとマルチモーダル AI の利点は何ですか？

マルチモーダル AI の利点は、より高度な推論、問題解決、生成の機能を備えた AI をデベロッパーとユーザーに提供することです。これらの進歩は、次世代のアプリケーションが私たちの働き方と生活様式を変える可能性に無限の可能性をもたらします。構築を開始しようとしているデベロッパーに、Gemini Enterprise Agent Platform API は、エンタープライズセキュリティ、データ所在地、パフォーマンス、テクニカルサポートなどの機能を提供します。Google Cloud の既存のお客様は、今すぐエージェントプラットフォームで Gemini を使ってプロンプトを開始できます。

仕組み

マルチモーダルモデルは、ほとんどの入力を理解して処理し、異なる種類の情報を組み合わせ、ほとんどの出力を生成できます。たとえば、Agent Platform を使用すると、ユーザーは、テキスト、画像、動画、コードなどをプロンプトとして使用して、最初に入力したものとは異なるタイプのコンテンツを生成できます。

一般的な使用例

マルチモーダルプロンプトを試す

テキスト、画像、動画で Gemini にプロンプトする

自然言語、コード、画像を使用して Gemini モデルをテストします。画像からのテキスト抽出、画像テキストの JSON への変換、アップロードされた画像に関する回答の生成のためのサンプルプロンプトを、次世代の AI アプリケーションの構築にお試しください。

入門ガイド