Gemini 3 をお試しください。Gemini Enterprise Agent Platform における推論、コーディング、マルチモーダル理解に最適なモデルです。

Vision AI

画像、ドキュメント、動画から分析情報を抽出したりできます。

API を介して高度なビジョンモデルにアクセスし、ビジョンタスクを自動化して、分析を効率化し、行動につながるインサイトを引き出します。または、マネージド環境で、ノーコードのモデルトレーニングと低コストでカスタムアプリを構築できます。

新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

Google が推奨するドキュメント要約ソリューションや AI/ML 画像処理ソリューションをデプロイすることもできます。

概要

コンピュータビジョンとは

コンピュータビジョンは、コンピュータやシステムが視覚データを解釈、分析し、デジタル画像、動画、その他の視覚入力から有意義な情報を導き出すことを可能にする、AI の分野です。一般的な実際の応用例としては、オブジェクト検出、ビジュアルコンテンツ（画像、ドキュメント、動画）の処理、理解、分析、商品検索、画像の分類と検索、コンテンツ管理などがあります。

高度なマルチモーダル生成 AI

Google Cloud の Gemini Enterprise Agent Platform では、最先端のマルチモーダルモデルである Gemini を利用できます。Gemini は実質的にあらゆる入力を理解し、さまざまな種類の情報を組み合わせて、ほぼすべての出力を生成できます。

ビジョンに焦点を当てた生成 AI

Agent Platform の Imagen は、Google の最先端の画像生成 AI 機能を API 経由でアプリケーションデベロッパーに提供します。主な機能には、テキストプロンプトを使用した画像生成、テキストプロンプトを使用した画像編集、画像の説明をテキストで記述する機能、被写体モデルのファインチューニングなどがあります。

すぐに使える Vision AI

Google の事前トレーニング済みコンピュータビジョン ML モデルを基盤とする Cloud Vision API は、すぐに利用できる API（REST および RPC）です。デベロッパーは、画像ラベリング、顔やランドマークの検出、光学式文字認識（OCR）、露骨な表現を含むコンテンツへのタグ付けなど、一般的な画像検出機能をアプリケーションに簡単に統合できます。

画像に適用する各機能は、課金対象のユニットです。Cloud Vision API では、毎月 1,000 ユニットの機能を無料で利用できます。詳細については、料金詳細をご覧ください。

ドキュメント理解生成 AI

Document AI は、コンピュータビジョンや自然言語処理などのテクノロジーを組み合わせて、スキャンしたドキュメントからテキストやデータを抽出するドキュメント理解プラットフォームです。非構造化データを構造化された情報やビジネスインサイトに変換します。

さまざまな種類のドキュメントに合わせて最適化された幅広い事前トレーニング済みプロセッサが用意されています。また、Document AI Workbench を使用して、ドキュメントから構造化データを分類、分割、抽出するカスタムプロセッサを簡単に構築できます。

話者の横に動画タイトル「Document AI - the future of documents」

Document AI の概要

4:37

すぐに使える動画向け Vision AI

コンピュータビジョン技術を中核とする Video Intelligence API は、動画コンテンツの処理、分析、理解を簡単に行う方法です。

事前トレーニング済みの ML モデルが、保存された動画かストリーミング動画かを問わず、動画内の大量のオブジェクト、場所、動作を自動的に認識し、その品質は非常に優れています。コンテンツのモデレーションとレコメンデーション、メディアアーカイブ、コンテキスト広告などの一般的なユースケースに非常に効果的です。また、特定のニーズに合わせて、Agent Platform Vision でカスタム ML モデルをトレーニングすることもできます。

家族写真のコラージュの上に「use ML to make a video archive」という動画タイトル

デモ: Video Intelligence API を使用して検索可能な動画アーカイブを作成する方法

6:21

データのプライバシーとセキュリティ

Google Cloud は業界最先端の機能を備えており、お客様はご自身のデータを制御し、データがいつ、どのようにアクセスされるかを可視化できます。

Google Cloud の顧客データの所有者はお客様です。厳格なセキュリティ対策を実施して顧客データを保護し、お客様が条件に合わせてデータをコントロールできるようにするツールと機能を提供しています。顧客データを所有するのはお客様であり、Google ではありません。お客様のデータは常に契約に基づいた方法で処理されます。

詳しくは、プライバシーリソースセンターをご覧ください。

コンピュータビジョンプロダクトを比較する

提供プロダクト	最適な用途	主な機能
Cloud Vision API	基本的なビジョン機能を迅速かつ簡単に統合。	画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。費用対効果の高い従量課金制。
Document AI	スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメントワークフローを自動化する。	OCR（生成 AI を活用）、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。
Video Intelligence API	動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディアアーカイブ、コンテキスト広告。	オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。
Gemini Enterprise Agent Platform の Imagen	自動的な画像の説明を取得する。画像分類と画像検索。コンテンツの管理と推奨事項。	画像生成、画像編集、画像キャプション、マルチモーダルエンべディング。機能とリリース段階の完全なリストをご覧ください。

さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。

Cloud Vision API

最適な用途

基本的なビジョン機能を迅速かつ簡単に統合。

主な機能

画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。

費用対効果の高い従量課金制。

Document AI

最適な用途

スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメントワークフローを自動化する。

主な機能

OCR（生成 AI を活用）、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。

Video Intelligence API

最適な用途

動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディアアーカイブ、コンテキスト広告。

主な機能

オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。

Gemini Enterprise Agent Platform の Imagen

最適な用途

自動的な画像の説明を取得する。

画像分類と画像検索。

コンテンツの管理と推奨事項。

主な機能

画像生成、画像編集、画像キャプション、マルチモーダルエンべディング。

機能とリリース段階の完全なリストをご覧ください。

さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。

仕組み

Google Cloud の Vision AI ツールスイートは、コンピュータビジョンと他のテクノロジーを組み合わせて動画の理解と分析を行い、画像検出機能（画像ラベリング、顔やランドマークの検出、光学式文字認識（OCR）、露骨な表現を含むコンテンツのタグ付けなど）をアプリケーション内に簡単に統合します。
これらのツールは API を介して利用でき、特定のニーズに合わせてカスタマイズすることも可能です。

コンピュータビジョンの仕組み

デモ

独自のファイルを使用してコンピュータビジョンの仕組みを確認する

一般的な使用例

未加工ファイル内のテキストを検出して自動的に要約する

生成 AI で大規模なドキュメントを要約する

右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。

リファレンスアーキテクチャ: 生成 AI を使用したドキュメントの要約

推定デプロイ時間: 11 分（構成に 1 分、デプロイに 10 分）。

入門ガイド

生成 AI で大規模なドキュメントを要約する

右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。

リファレンスアーキテクチャ: 生成 AI を使用したドキュメントの要約

推定デプロイ時間: 11 分（構成に 1 分、デプロイに 10 分）。

画像処理パイプラインを構築する

サーバーレスアーキテクチャでのスケーラブルな画像処理

右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。

推定デプロイ時間: 12 分（構成に 2 分、デプロイに 10 分）。

入門ガイド

サーバーレスアーキテクチャでのスケーラブルな画像処理

右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。

推定デプロイ時間: 12 分（構成に 2 分、デプロイに 10 分）。

生成 AI で画像の説明を自動生成する

Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアルアセットの簡単な説明を受け取ったりできます。

英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。

入門ガイド

Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアルアセットの簡単な説明を受け取ったりできます。

英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。

生成 AI を使用してドキュメントからテキストと分析情報を抽出する

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタムエクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5～10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

入門ガイド

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタムエクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5～10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

料金

Vision AI の料金の仕組み	各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。
無料枠	プロダクト / サービス	割引価格	詳細
Vision API	最初の 1,000 ユニット毎月無料	5,000,001 以上のユニット月額	料金の詳細ページ
Document AI	なし料金はプロセッサによって異なります。	5,000,001 ページ以上 Enterprise Document OCR プロセッサの月額	料金の詳細ページ
Video Intelligence API	最初の 1,000 分月額無料	100,000 分以上月額	料金の詳細ページ
Imagen - マルチモーダルエンベディング			米国 $0.0001 画像入力ごと
Imagen - 画像キャプション			米国 $0.0015 イメージごと
Gemini Pro Vision			料金の詳細ページ

Vision AI の料金の仕組み

各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。

Vision API

プロダクト / サービス

最初の 1,000 ユニット

毎月無料

割引価格

5,000,001 以上のユニット

月額

詳細

料金の詳細ページ

Document AI

プロダクト / サービス

なし

料金はプロセッサによって異なります。

割引価格

5,000,001 ページ以上

Enterprise Document OCR プロセッサの月額

詳細

料金の詳細ページ

Video Intelligence API

プロダクト / サービス

最初の 1,000 分

月額無料

割引価格

100,000 分以上

月額

詳細

料金の詳細ページ

Imagen - マルチモーダルエンベディング

プロダクト / サービス

割引価格

詳細

米国 $0.0001

画像入力ごと

Imagen - 画像キャプション

プロダクト / サービス

割引価格

詳細

米国 $0.0015

イメージごと

Gemini Pro Vision

プロダクト / サービス

割引価格

詳細

料金の詳細ページ

料金計算ツール

必要なすべてのツールを 1 か所に集めて、プロジェクトの費用を見積もります。

カスタムの見積もり

セールスチームにご相談いただき、組織固有のニーズに応じたカスタム見積もりを入手してください。

Vision AI

画像、ドキュメント、動画から分析情報を抽出したりできます。

ハイライト

コンピュータビジョンとは

高度なマルチモーダル生成 AI

ビジョンに焦点を当てた生成 AI

すぐに使える Vision AI

ドキュメント理解生成 AI

すぐに使える動画向け Vision AI

データのプライバシーとセキュリティ

独自のファイルを使用してコンピュータビジョンの仕組みを確認する

未加工ファイル内のテキストを検出して自動的に要約する

生成 AI で大規模なドキュメントを要約する

入門ガイド

生成 AI で大規模なドキュメントを要約する

画像処理パイプラインを構築する

サーバーレスアーキテクチャでのスケーラブルな画像処理

入門ガイド

サーバーレスアーキテクチャでのスケーラブルな画像処理

生成 AI で画像の説明を自動生成する

入門ガイド

生成 AI を使用してドキュメントからテキストと分析情報を抽出する

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

入門ガイド

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

Document OCR により、毎月 1,000 ページまで無料

Video Intelligence API を使用してライブ動画をストリーミングする方法を学ぶ

Gemini Enterprise Agent Platform でオブジェクト検出機能アプリを作成する方法を学ぶ

Vision API のコードサンプルを入手する

Vision AI

画像、ドキュメント、動画から分析情報を抽出したりできます。

ハイライト

コンピュータ ビジョンとは

高度なマルチモーダル生成 AI

ビジョンに焦点を当てた生成 AI

すぐに使える Vision AI

ドキュメント理解生成 AI

すぐに使える動画向け Vision AI

データのプライバシーとセキュリティ

独自のファイルを使用してコンピュータ ビジョンの仕組みを確認する

未加工ファイル内のテキストを検出して自動的に要約する

生成 AI で大規模なドキュメントを要約する

入門ガイド

生成 AI で大規模なドキュメントを要約する

画像処理パイプラインを構築する

サーバーレス アーキテクチャでのスケーラブルな画像処理

入門ガイド

サーバーレス アーキテクチャでのスケーラブルな画像処理

生成 AI で画像の説明を自動生成する

入門ガイド

生成 AI を使用してドキュメントからテキストと分析情報を抽出する

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

入門ガイド

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

料金計算ツール

カスタムの見積もり

概念実証を開始する

新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

Document OCR により、毎月 1,000 ページまで無料

Video Intelligence API を使用してライブ動画をストリーミングする方法を学ぶ

Gemini Enterprise Agent Platform でオブジェクト検出機能アプリを作成する方法を学ぶ

Vision API のコードサンプルを入手する

コンピュータビジョンとは

独自のファイルを使用してコンピュータビジョンの仕組みを確認する

サーバーレスアーキテクチャでのスケーラブルな画像処理

サーバーレスアーキテクチャでのスケーラブルな画像処理