Vision AI

画像、ドキュメント、動画から分析情報を抽出したりできます。

API を介して高度なビジョンモデルにアクセスし、ビジョンタスクを自動化して、分析を効率化し、行動につながるインサイトを引き出します。または、マネージド環境で、ノーコードのモデル トレーニングと低コストでカスタムアプリを構築できます。

新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

Google が推奨するドキュメント要約ソリューションと AI/ML 画像処理ソリューションをデプロイすることもできます。

概要

コンピュータ ビジョンとは

コンピュータ ビジョンは、コンピュータやシステムが視覚データを解釈、分析し、デジタル画像、動画、その他の視覚入力から有意義な情報を導き出すことを可能にする、AI の分野です。一般的な実際の応用例としては、オブジェクト検出、ビジュアル コンテンツ(画像、ドキュメント、動画)の処理、理解、分析、商品検索、画像分類と検索、コンテンツ モデレーションなどがあります。

高度なマルチモーダル生成 AI

Google Cloud の Vertex AI では、最先端のマルチモーダル モデルである Gemini を利用できます。Gemini は実質的にあらゆる入力を理解し、さまざまな種類の情報を組み合わせて、ほぼすべての出力を生成できます。

ビジョンに焦点を当てた生成 AI

Vertex AI の Imagen は、Google の最先端の画像生成 AI 機能を API 経由でアプリケーション デベロッパーに提供します。主な機能には、テキスト プロンプトを使用した画像生成、テキスト プロンプトを使用した画像編集、テキストでの画像の説明、被写体モデルのファインチューニングなどがあります。

すぐに使用できる Vision AI

Google の事前トレーニング済みコンピュータ ビジョン ML モデルを基盤とする Cloud Vision API は、すぐに利用できる API(REST および RPC)です。開発者は、画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、露骨な表現を含むコンテンツへのタグ付けなど、一般的な画像検出機能をアプリケーションに簡単に統合できます。

画像に適用する各機能は、課金対象のユニットです。Cloud Vision API では、毎月 1,000 ユニットの機能を無料で利用できます。詳細については、料金詳細をご覧ください。

ドキュメント理解生成 AI

Document AI は、コンピュータ ビジョンや自然言語処理などのテクノロジーを組み合わせて、スキャンしたドキュメントからテキストやデータを抽出するドキュメント理解プラットフォームです。非構造化データを構造化された情報やビジネス インサイトに変換します。

さまざまな種類のドキュメントに最適化された幅広い事前トレーニング済みプロセッサが用意されています。また、Document AI Workbench を使用して、ドキュメントから構造化データを分類、分割、抽出するカスタム プロセッサを簡単に構築できます。

すぐに使える動画向け Vision AI

コンピュータ ビジョン技術を中核とする Video Intelligence API は、動画コンテンツの処理、分析、理解を簡単に行う方法です。

事前トレーニング済みの ML モデルが、保存された動画かストリーミング動画かを問わず、動画内の大量のオブジェクト、場所、動作を自動的に認識し、その品質は非常に優れています。コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告などの一般的なユースケースに非常に効果的です。また、特定のニーズに合わせて、Vertex AI Vision でカスタム ML モデルをトレーニングすることもできます。

Visual Inspection AI

Visual Inspection AI は、製造業やその他の産業環境における外観検査タスクを自動化します。高度なコンピュータ ビジョンとディープ ラーニングの技術を活用して、画像や動画を分析し、異常を特定して欠陥を検出、特定し、組み立て製品の部品の不足や欠陥をチェックします。

技術的な専門知識がなくても、ラベル付けされた画像を最小限に抑えてカスタムモデルをトレーニングし、生産ラインで推論を効率的に実行して、工場現場からの最新データでモデルを継続的に更新できます。

統合 Vision AI プラットフォーム

Vertex AI Vision は、デベロッパーが、画像、ビデオ、表形式データなどのさまざまなデータ モダリティを処理するコンピュータ ビジョン アプリケーションを簡単に構築、デプロイ、管理できるフルマネージドのアプリケーション開発環境です。これにより、現在のサービスの 10 分の 1 の費用で、構築にかかる時間を数日から数分に短縮できます。

独自のカスタムモデルを構築してデプロイし、CI/CD パイプラインで管理およびスケーリングできます。また、TensorFlow や PyTorch などの一般的なオープンソース ツールとも統合されています。

データのプライバシーとセキュリティ

Google Cloud は業界最先端の機能を備えており、お客様はご自身のデータを制御し、データがいつ、どのようにアクセスされるかを可視化できます。

Google Cloud の顧客データの所有者はお客様です。厳格なセキュリティ対策を実施して顧客データを保護し、お客様が条件に合わせてデータをコントロールできるようにするツールと機能を提供しています。顧客データを所有するのはお客様であり、Google ではありません。お客様のデータは常に契約に基づいた方法で処理されます。

詳しくは、プライバシー リソース センターをご覧ください。

コンピュータ ビジョン プロダクトを比較する

提供プロダクト最適な用途主な機能

基本的なビジョン機能を迅速かつ簡単に統合。

画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。

費用対効果の高い従量課金制。

スキャンしたドキュメントや画像から分析情報を抽出したり、ドキュメント ワークフローを自動化したりできます。

OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。

動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。

オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。

製造および産業環境における外観検査タスクの自動化

異常の検出、欠陥の検出と位置特定、組み立てのチェック。

特定のニーズに合わせてカスタムモデルを構築してデプロイする。

データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。

自動的な画像の説明を取得する。

画像分類と画像検索。

コンテンツの管理と推奨事項。

画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。

機能とリリース段階の完全なリストをご覧ください。

さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。

最適な用途

基本的なビジョン機能を迅速かつ簡単に統合。

主な機能

画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。

費用対効果の高い従量課金制。

最適な用途

スキャンしたドキュメントや画像から分析情報を抽出したり、ドキュメント ワークフローを自動化したりできます。

主な機能

OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。

最適な用途

動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。

主な機能

オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。

最適な用途

製造および産業環境における外観検査タスクの自動化

主な機能

異常の検出、欠陥の検出と位置特定、組み立てのチェック。

最適な用途

特定のニーズに合わせてカスタムモデルを構築してデプロイする。

主な機能

データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。

最適な用途

自動的な画像の説明を取得する。

画像分類と画像検索。

コンテンツの管理と推奨事項。

主な機能

画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。

機能とリリース段階の完全なリストをご覧ください。

さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。

仕組み

Google Cloud の Vision AI ツールスイートは、コンピュータ ビジョンと他のテクノロジーを組み合わせて動画の理解と分析を行い、画像検出機能(画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、露骨な表現を含むコンテンツのタグ付けなど)をアプリケーション内に簡単に統合します。

これらのツールは API を介して利用でき、特定のニーズに合わせてカスタマイズすることも可能です。

女性の横に動画のタイトル「コンピュータ ビジョンの仕組み」
コンピュータ ビジョンの仕組み

デモ

独自のファイルでコンピュータ ビジョンがどのように機能するかを確認

一般的な使用例

未加工ファイル内のテキストを検出して自動的に要約

生成 AI で大規模なドキュメントを要約する

右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。

生成 AI を使用したドキュメント要約のリファレンス アーキテクチャ
リファレンス アーキテクチャ: 生成 AI を使用したドキュメントの要約

推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。

生成 AI で大規模なドキュメントを要約する

右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。

生成 AI を使用したドキュメント要約のリファレンス アーキテクチャ
リファレンス アーキテクチャ: 生成 AI を使用したドキュメントの要約

推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。

画像処理パイプラインを構築する

サーバーレス アーキテクチャでのスケーラブルな画像処理

右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。

リファレンス アーキテクチャ - 画像処理パイプライン

推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。

サーバーレス アーキテクチャでのスケーラブルな画像処理

右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。

リファレンス アーキテクチャ - 画像処理パイプライン

推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。

生成 AI で画像の説明を自動生成

ImagenVisual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。

英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。

ImagenVisual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。

英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。

動画のストリーミング処理

Vertex AI Vision でストリーミング動画から分析情報を取得

アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。

リファレンス アーキテクチャ - VertexAI Vision とその他の Google Cloud ツールで動画をストリーミング処理する方法
リファレンス アーキテクチャ - VertexAI Vision とその他の Google Cloud ツールで動画をストリーミング処理する方法

Vertex AI Vision でストリーミング動画から分析情報を取得

アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。

リファレンス アーキテクチャ - VertexAI Vision とその他の Google Cloud ツールで動画をストリーミング処理する方法
リファレンス アーキテクチャ - VertexAI Vision とその他の Google Cloud ツールで動画をストリーミング処理する方法

生成 AI を使用してドキュメントからテキストと分析情報を抽出する

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

高精度の外観検査

Visual Inspection AI で品質検査を自動化

Visual Inspection AI はあらゆるステップで最適化されているため、簡単に設定でき、ROI を迅速に確認できます。汎用 ML プラットフォームに比べて、高性能な検査モデルのトレーニングを開始するために必要なラベル付き画像が最大 300 分の 1 で済むため、精度が最大 10 倍向上することが実証されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。

Visual Inspection AI を使用した品質検査のリファレンス アーキテクチャ

Visual Inspection AI で品質検査を自動化

Visual Inspection AI はあらゆるステップで最適化されているため、簡単に設定でき、ROI を迅速に確認できます。汎用 ML プラットフォームに比べて、高性能な検査モデルのトレーニングを開始するために必要なラベル付き画像が最大 300 分の 1 で済むため、精度が最大 10 倍向上することが実証されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。

Visual Inspection AI を使用した品質検査のリファレンス アーキテクチャ

料金

Vision AI の料金の仕組み各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。
無料枠プロダクト / サービス割引価格詳細

Vision API

最初の 1,000 ユニット

毎月無料

5,000,001 以上のユニット

月額

Document AI

なし

料金はプロセッサによって異なります。

5,000,001 ページ以上

Enterprise Document OCR プロセッサの月額料金

Video Intelligence API

最初の 1,000 分

月額無料

100,000 分以上

月額

Vertex AI Vision

なし

料金は機能によって異なります。

Imagen - マルチモーダル エンベディング

米国 $0.0001

画像入力ごと

Imagen - 画像キャプション

米国 $0.0015

イメージごと

Gemini Pro Vision

Vision AI の料金の仕組み

各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。

Vision API

プロダクト / サービス

最初の 1,000 ユニット

毎月無料

割引価格

5,000,001 以上のユニット

月額

詳細

Document AI

プロダクト / サービス

なし

料金はプロセッサによって異なります。

割引価格

5,000,001 ページ以上

Enterprise Document OCR プロセッサの月額料金

詳細

Video Intelligence API

プロダクト / サービス

最初の 1,000 分

月額無料

割引価格

100,000 分以上

月額

詳細

Vertex AI Vision

プロダクト / サービス

なし

料金は機能によって異なります。

割引価格

詳細

Imagen - マルチモーダル エンベディング

プロダクト / サービス

割引価格

詳細

米国 $0.0001

画像入力ごと

Imagen - 画像キャプション

プロダクト / サービス

割引価格

詳細

米国 $0.0015

イメージごと

Gemini Pro Vision

プロダクト / サービス
割引価格
詳細

料金計算ツール

必要なすべてのツールを 1 か所に集めて、プロジェクトの費用を見積もります。

カスタムの見積もり

セールスチームにご相談いただき、組織固有のニーズに応じたカスタム見積もりを入手してください。

概念実証を開始する

新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

Document OCR により、毎月 1,000 ページまで無料

Video Intelligence API を使用してライブ動画をストリーミングする方法を学ぶ

Vertex AI Vision でオブジェクト検出機能アプリを作成する方法を学ぶ

Vision API のコードサンプルを入手する

Cloud Vision API
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud