コンピュータ ビジョン

画像、ドキュメント、動画から分析情報を抽出

API を介して高度なビジョンモデルにアクセスし、ビジョンタスクの自動化、分析の合理化、行動につながるインサイトの獲得を実現します。また、マネージド環境でノーコード モデル トレーニングと低コストでカスタムアプリを構築することもできます。

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。

概要

コンピュータ ビジョンの定義

コンピュータ ビジョンは人工知能(AI)の一分野であり、コンピュータとシステムが視覚データを解釈して分析し、デジタル画像、動画、その他の視覚入力から意味のある情報を導き出せるようにします。その代表的な実世界への応用には、オブジェクト検出、ビジュアル コンテンツ(画像、ドキュメント、動画)の処理、理解と分析、商品検索、画像の分類と検索、コンテンツ管理などがあります。

高度なマルチモーダル生成 AI

Google Cloud の Vertex AI では、最先端のマルチモーダル モデルのファミリーである Gemini にアクセスできます。Gemini は、ほぼすべての入力を理解し、さまざまな種類の情報を組み合わせて、ほぼすべての出力を生成できます。Gemini はビジュアル、テキスト、コードを混在させるタスクに適していますが、Gemini Pro Vision は、オブジェクト認識、デジタル コンテンツの理解、キャプションや説明など、さまざまな視覚関連のタスクに優れており、API を介してアクセスできます。

ビジョンに焦点を当てた生成 AI

Vertex AI の Imagen は、API を介して Google の最先端の画像生成 AI 機能をアプリケーション デベロッパーに提供します。主な機能には、テキスト プロンプトを使用した画像生成(制限付き一般提供) 画像編集(制限付き一般提供)などがあります。テキスト プロンプト、画像での画像の説明(画像キャプション(一般提供)、一般提供)、被写体モデルのファインチューニング(制限付き一般提供)があります。主な機能とリリース ステージの詳細をご覧ください。

すぐに使える Vision AI

Google の事前トレーニング済みコンピュータ ビジョン ML モデルを搭載した Cloud Vision API は、すぐに利用できる API(REST および RPC)です。デベロッパーはこれを使用して、一般的なビジョン検出機能をアプリケーション内に簡単に統合できます。画像のラベル付け、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツのタグ付け。

画像に適用した各機能が課金単位となります。Cloud Vision API では、毎月 1,000 ユニットの機能を無料で使用できます。詳細については、料金詳細をご覧ください。

生成 AI のドキュメント理解

Document AI は、コンピュータ ビジョンと自然言語処理などのテクノロジーを組み合わせて、スキャンされたドキュメントからテキストやデータを抽出し、非構造化データを構造化データやビジネス インサイトに変換するドキュメント理解プラットフォームです。

さまざまなタイプのドキュメント向けに最適化された幅広い事前トレーニング済みプロセッサを備えています。また、Document AI Workbench を使用すると、ドキュメントから構造化データを分類、分割、抽出するカスタム プロセッサを簡単に構築できます。

すぐに使える動画向け Vision AI

コンピュータ ビジョン技術を中核とする Video Intelligence API を使用すると、動画コンテンツを簡単に処理、分析、理解できます。

その事前トレーニング済み ML モデルは、保存された動画またはストリーミング動画に含まれる膨大な数のオブジェクト、場所、行動を優れた品質で自動的に認識します。コンテンツの管理とレコメンデーション、メディア アーカイブ、コンテキスト広告など、一般的なユースケースで非常に効率的です。また、特定のニーズに合わせて、Vertex AI Vision を使用してカスタム ML モデルをトレーニングすることもできます。

コマースの Product Search にすぐに使える Vision AI

Vision API Product Search は Google Cloud Vision AI ツールスイートの専用サービスで、ユーザーは独自の画像で商品を検索できます。これは、商品向けに最適化された画像検索エンジンと考えることができます。現在は、日用品、アパレル、玩具、パッケージ商品、全般の商品カテゴリをサポートしています。

Visual Inspection AI

Visual Inspection AI は、製造業やその他の産業環境における外観検査タスクを自動化します。高度なコンピュータ ビジョンとディープ ラーニング技術を活用して、画像と動画の分析、異常の特定、欠陥の検出と位置の特定、組み立て製品の欠落や欠陥のチェックを行います。

技術的な専門知識がなく、ラベル付き画像が最小限で済むカスタムモデルをトレーニングし、生産ラインで推論を効率的に実行し、製造現場からの最新データでモデルを継続的に更新できます。

統合ビジョン AI プラットフォーム

Vertex AI Vision は、デベロッパーが、画像、ビデオ、表形式データなどのさまざまなデータ モダリティを処理するコンピュータ ビジョン アプリケーションを簡単に構築、デプロイ、管理できるフルマネージドのアプリケーション開発環境です。現在のサービスの 10 分の 1 の費用で、構築時間を数日から数分に短縮します。

独自のカスタムモデルを構築してデプロイし、CI/CD パイプラインで管理とスケーリングを行うことができます。また、TensorFlow や PyTorch などの一般的なオープンソース ツールとも統合されます。

データのプライバシーとセキュリティ

Google Cloud は業界最先端の機能を備えており、お客様はご自身のデータを制御し、データがいつ、どのようにアクセスされるかを可視化できます。

Google Cloud のお客様のデータの所有者はお客様です。厳格なセキュリティ対策を実施して顧客データを保護し、お客様が条件に合わせてデータをコントロールできるようにするツールと機能を提供しています。顧客データを所有するのはお客様であり、Google ではありません。お客様のデータは常に契約に基づいた方法で処理されます。

詳しくは、プライバシー リソース センターをご覧ください。

コンピュータ ビジョン プロダクトを比較する

提供プロダクト最適な用途主な機能

Cloud Vision API

基本的な視覚機能をすばやく簡単に統合できます。

画像ラベリング、顔やランドマークの検出、OCR、セーフサーチなどの事前構築済みの機能。

費用対効果に優れ、従量課金制です。

Document AI

スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメント ワークフローを自動化。

OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメントの分類。

Video Intelligence API

動画コンテンツ、コンテンツの管理とレコメンデーション、メディア アーカイブ、コンテキスト広告の分析。

オブジェクトの検出とトラッキング、シーンの理解、アクティビティ認識、顔の検出と分析、テキストの検出と認識。

Vision API Product Search

画像による商品検索とレコメンデーションにより、e コマース エクスペリエンスを強化します。特定の商品カテゴリに限定されています。

画像内の商品を識別して分類する。

Visual Inspection AI

製造業や工場の外観検査タスクを自動化

異常の検出、欠陥の検出と位置の特定、組み立てのチェックを行います。

Vertex AI Vision

特定のニーズに合わせたカスタムモデルの構築とデプロイ。

データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。

Gemini Pro Vision

ビジュアル分析と理解、マルチモーダル質問応答。

情報探索、オブジェクト認識、デジタル コンテンツの理解、構造化コンテンツの生成、キャプション / 説明、推定。

Vertex AI の Imagen

自動的な画像の説明を取得する。

画像分類と検索。

コンテンツの管理と推奨事項。

画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。

機能とリリース ステージの一覧をご覧ください。

さまざまな目的に合わせて最適化されたこれらのプロダクトを使用すると、事前トレーニング済み ML モデルを活用してすぐに利用でき、微調整も簡単です。

最適な用途

基本的な視覚機能をすばやく簡単に統合できます。

主な機能

画像ラベリング、顔やランドマークの検出、OCR、セーフサーチなどの事前構築済みの機能。

費用対効果に優れ、従量課金制です。

最適な用途

スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメント ワークフローを自動化。

主な機能

OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメントの分類。

最適な用途

動画コンテンツ、コンテンツの管理とレコメンデーション、メディア アーカイブ、コンテキスト広告の分析。

主な機能

オブジェクトの検出とトラッキング、シーンの理解、アクティビティ認識、顔の検出と分析、テキストの検出と認識。

最適な用途

画像による商品検索とレコメンデーションにより、e コマース エクスペリエンスを強化します。特定の商品カテゴリに限定されています。

主な機能

画像内の商品を識別して分類する。

最適な用途

製造業や工場の外観検査タスクを自動化

主な機能

異常の検出、欠陥の検出と位置の特定、組み立てのチェックを行います。

最適な用途

特定のニーズに合わせたカスタムモデルの構築とデプロイ。

主な機能

データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。

最適な用途

ビジュアル分析と理解、マルチモーダル質問応答。

主な機能

情報探索、オブジェクト認識、デジタル コンテンツの理解、構造化コンテンツの生成、キャプション / 説明、推定。

最適な用途

自動的な画像の説明を取得する。

画像分類と検索。

コンテンツの管理と推奨事項。

主な機能

画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。

機能とリリース ステージの一覧をご覧ください。

さまざまな目的に合わせて最適化されたこれらのプロダクトを使用すると、事前トレーニング済み ML モデルを活用してすぐに利用でき、微調整も簡単です。

仕組み

Google Cloud の Vision AI ツールスイートは、コンピュータ ビジョンと他のテクノロジーを組み合わせて動画の理解と分析を行い、画像検出機能(画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、露骨な表現を含むコンテンツのタグ付けなど)をアプリケーション内に簡単に統合します。

これらのツールは API 経由でも利用でき、特定のニーズに合わせてカスタマイズ可能です。

動画のタイトルの横にある女性: コンピュータ ビジョンの仕組み

デモ

自分のファイルでコンピュータ ビジョンがどのように機能するかを確認する

一般的な使用例

未加工ファイル内のテキストを検出して自動的に要約

生成 AI で大規模なドキュメントを要約する

右側のアーキテクチャ図に示すソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

このアプリケーションを呼び出すには、Jupyter ノートブックからファイルをアップロードするか、Google Cloud コンソールで Cloud Storage に直接ファイルをアップロードします。

Google Cloud コンソールでデプロイする
生成 AI を使用したドキュメント要約のリファレンス アーキテクチャ

推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。

生成 AI で大規模なドキュメントを要約する

右側のアーキテクチャ図に示すソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。

このアプリケーションを呼び出すには、Jupyter ノートブックからファイルをアップロードするか、Google Cloud コンソールで Cloud Storage に直接ファイルをアップロードします。

Google Cloud コンソールでデプロイする
生成 AI を使用したドキュメント要約のリファレンス アーキテクチャ

推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。

e コマース向けの画像による商品検索

ユーザーが商品を見つけやすくする

Vision API Product Search を使用すると、小売業者は商品を作成し、いくつかの視点から商品を視覚的に記述する参照画像を作成できます。小売業者はこれらの商品を商品セットに追加できます。

ユーザーが独自の画像で商品セットに対してクエリを実行すると、Vision API Product Search は ML を適用してユーザーの画像内の商品と小売業者の商品セット内の画像を比較し、視覚的および意味的に類似した結果をランク付きリストとして返します。

Vision API Product Search を試す
画像による商品検索のリファレンス アーキテクチャ

ユーザーが商品を見つけやすくする

Vision API Product Search を使用すると、小売業者は商品を作成し、いくつかの視点から商品を視覚的に記述する参照画像を作成できます。小売業者はこれらの商品を商品セットに追加できます。

ユーザーが独自の画像で商品セットに対してクエリを実行すると、Vision API Product Search は ML を適用してユーザーの画像内の商品と小売業者の商品セット内の画像を比較し、視覚的および意味的に類似した結果をランク付きリストとして返します。

Vision API Product Search を試す
画像による商品検索のリファレンス アーキテクチャ

画像処理パイプラインを構築する

サーバーレス アーキテクチャでのスケーラブルな画像処理

右側の図に示すソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー作成コンテンツの処理、物理的なドキュメントのテキストのデジタル化、画像内のオブジェクトの検出と分類などが可能になります。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解できるようになります。

Google Cloud コンソールでデプロイする
リファレンス アーキテクチャ - 画像処理パイプライン

推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。

サーバーレス アーキテクチャでのスケーラブルな画像処理

右側の図に示すソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー作成コンテンツの処理、物理的なドキュメントのテキストのデジタル化、画像内のオブジェクトの検出と分類などが可能になります。

構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解できるようになります。

Google Cloud コンソールでデプロイする
リファレンス アーキテクチャ - 画像処理パイプライン

推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。

生成 AI で画像の説明を自動的に取得する

ImagenVisual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。

この機能は、英語、フランス語、ドイツ語、イタリア語、スペイン語で利用でき、Google Cloud コンソールまたは API 呼び出しを介してアクセスできます。

画像キャプションを試す

ImagenVisual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。

この機能は、英語、フランス語、ドイツ語、イタリア語、スペイン語で利用でき、Google Cloud コンソールまたは API 呼び出しを介してアクセスできます。

画像キャプションを試す

動画のストリーミング処理

Vertex AI Vision でストリーミング動画から分析情報を取得する

アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。

Vertex AI Vision を試す
リファレンス アーキテクチャ - Vertex AI Vision とその他の Google Cloud ツールを使用して、プロセスの動画をストリーミングする方法

Vertex AI Vision でストリーミング動画から分析情報を取得する

アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。

Vertex AI Vision を試す
リファレンス アーキテクチャ - Vertex AI Vision とその他の Google Cloud ツールを使用して、プロセスの動画をストリーミングする方法

生成 AI でドキュメントからテキストと分析情報を抽出する

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

Document AI API をデプロイする

Document AI で微妙なニュアンスを含むドキュメントから分析情報を引き出す

基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。

独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。

トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。

Document AI API をデプロイする

高精度の外観検査

Visual Inspection AI で品質検査を自動化する

Visual Inspection AI はすべてのステップで最適化されるため、セットアップが簡単で、ROI を迅速に確認できます。汎用 ML プラットフォームと比較して、高性能検査モデルのトレーニングを開始するためのラベル付き画像の数が最大で 300 分の 1 で、精度が最大 10 倍であることが示されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。

Visual Inspection AI API を試す
Visual Inspection AI を使用した品質検査のリファレンス アーキテクチャ

Visual Inspection AI で品質検査を自動化する

Visual Inspection AI はすべてのステップで最適化されるため、セットアップが簡単で、ROI を迅速に確認できます。汎用 ML プラットフォームと比較して、高性能検査モデルのトレーニングを開始するためのラベル付き画像の数が最大で 300 分の 1 で、精度が最大 10 倍であることが示されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。

Visual Inspection AI API を試す
Visual Inspection AI を使用した品質検査のリファレンス アーキテクチャ

料金

Vision AI の料金の仕組み各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。
無料枠プロダクト / サービス割引価格詳細

Vision API

最初の 1,000 ユニット

毎月無料

詳細な料金ページ

Document AI

なし

料金はプロセッサによって異なります。

5,000,001 ページ以上

Enterprise Document OCR プロセッサの月額

詳細な料金ページ

Video Intelligence API

最初の 1,000 分

月額無料

100,000 分以上

月額

詳細な料金ページ

Vertex AI Vision

なし

料金は機能によって異なります。

詳細な料金ページ

Imagen - マルチモーダル エンベディング

米国 $0.0001

画像入力ごと

Imagen - 画像キャプション

米国 $0.0015

イメージごと

Gemini Pro Vision

詳細な料金ページ

Vision AI の料金の仕組み

各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。

Vision API

プロダクト / サービス

最初の 1,000 ユニット

毎月無料

割引価格

詳細

Document AI

プロダクト / サービス

なし

料金はプロセッサによって異なります。

割引価格

5,000,001 ページ以上

Enterprise Document OCR プロセッサの月額

詳細
Video Intelligence API
プロダクト / サービス

最初の 1,000 分

月額無料

割引価格

100,000 分以上

月額

詳細

Vertex AI Vision

プロダクト / サービス

なし

料金は機能によって異なります。

割引価格

詳細

Imagen - マルチモーダル エンベディング

プロダクト / サービス

割引価格

詳細

米国 $0.0001

画像入力ごと

Imagen - 画像キャプション

プロダクト / サービス

割引価格

詳細

米国 $0.0015

イメージごと

Gemini Pro Vision

プロダクト / サービス
割引価格
詳細

料金計算ツール

必要なすべてのツールを 1 か所に集めて、プロジェクトの費用を見積もります。

カスタムの見積もり

セールスチームにご相談いただき、組織固有のニーズに応じたカスタム見積もりを入手してください。

Google Cloud で次のステップへ

新規のお客様には、$300 分の無料クレジットを差し上げます

Document OCR により、毎月 1,000 ページまで無料

手順: Video Intelligence API を使用してライブ動画をストリーミングする

ガイド: Vertex AI Vision でオブジェクト検出アプリを作成する

すべてのコードサンプル: Vision API Product Search

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google の透明性の高い料金設定の手法で費用を削減
  • Google Cloud の従量課金制では、毎月の使用量と、リソース料金の前払い割引に基づいて自動的に割引が適用されます。見積もりをご希望の場合は、今すぐお問い合わせください。
Google Cloud