API を介して高度なビジョンモデルにアクセスし、ビジョンタスクを自動化して、分析を効率化し、行動につながるインサイトを引き出します。または、マネージド環境で、ノーコードのモデル トレーニングと低コストでカスタムアプリを構築できます。
新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
Google が推奨するドキュメント要約ソリューションと AI/ML 画像処理ソリューションをデプロイすることもできます。
概要
コンピュータ ビジョンは、コンピュータやシステムが視覚データを解釈、分析し、デジタル画像、動画、その他の視覚入力から有意義な情報を導き出すことを可能にする、AI の分野です。一般的な実際の応用例としては、オブジェクト検出、ビジュアル コンテンツ(画像、ドキュメント、動画)の処理、理解、分析、商品検索、画像分類と検索、コンテンツ モデレーションなどがあります。
Google Cloud の Vertex AI では、最先端のマルチモーダル モデルである Gemini を利用できます。Gemini は実質的にあらゆる入力を理解し、さまざまな種類の情報を組み合わせて、ほぼすべての出力を生成できます。
Vertex AI の Imagen は、Google の最先端の画像生成 AI 機能を API 経由でアプリケーション デベロッパーに提供します。主な機能には、テキスト プロンプトを使用した画像生成、テキスト プロンプトを使用した画像編集、テキストでの画像の説明、被写体モデルのファインチューニングなどがあります。
Google の事前トレーニング済みコンピュータ ビジョン ML モデルを基盤とする Cloud Vision API は、すぐに利用できる API(REST および RPC)です。開発者は、画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、露骨な表現を含むコンテンツへのタグ付けなど、一般的な画像検出機能をアプリケーションに簡単に統合できます。
画像に適用する各機能は、課金対象のユニットです。Cloud Vision API では、毎月 1,000 ユニットの機能を無料で利用できます。詳細については、料金詳細をご覧ください。
Document AI は、コンピュータ ビジョンや自然言語処理などのテクノロジーを組み合わせて、スキャンしたドキュメントからテキストやデータを抽出するドキュメント理解プラットフォームです。非構造化データを構造化された情報やビジネス インサイトに変換します。
さまざまな種類のドキュメントに最適化された幅広い事前トレーニング済みプロセッサが用意されています。また、Document AI Workbench を使用して、ドキュメントから構造化データを分類、分割、抽出するカスタム プロセッサを簡単に構築できます。
コンピュータ ビジョン技術を中核とする Video Intelligence API は、動画コンテンツの処理、分析、理解を簡単に行う方法です。
事前トレーニング済みの ML モデルが、保存された動画かストリーミング動画かを問わず、動画内の大量のオブジェクト、場所、動作を自動的に認識し、その品質は非常に優れています。コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告などの一般的なユースケースに非常に効果的です。また、特定のニーズに合わせて、Vertex AI Vision でカスタム ML モデルをトレーニングすることもできます。
Visual Inspection AI は、製造業やその他の産業環境における外観検査タスクを自動化します。高度なコンピュータ ビジョンとディープ ラーニングの技術を活用して、画像や動画を分析し、異常を特定して欠陥を検出、特定し、組み立て製品の部品の不足や欠陥をチェックします。
技術的な専門知識がなくても、ラベル付けされた画像を最小限に抑えてカスタムモデルをトレーニングし、生産ラインで推論を効率的に実行して、工場現場からの最新データでモデルを継続的に更新できます。
Vertex AI Vision は、デベロッパーが、画像、ビデオ、表形式データなどのさまざまなデータ モダリティを処理するコンピュータ ビジョン アプリケーションを簡単に構築、デプロイ、管理できるフルマネージドのアプリケーション開発環境です。これにより、現在のサービスの 10 分の 1 の費用で、構築にかかる時間を数日から数分に短縮できます。
独自のカスタムモデルを構築してデプロイし、CI/CD パイプラインで管理およびスケーリングできます。また、TensorFlow や PyTorch などの一般的なオープンソース ツールとも統合されています。
Google Cloud は業界最先端の機能を備えており、お客様はご自身のデータを制御し、データがいつ、どのようにアクセスされるかを可視化できます。
Google Cloud の顧客データの所有者はお客様です。厳格なセキュリティ対策を実施して顧客データを保護し、お客様が条件に合わせてデータをコントロールできるようにするツールと機能を提供しています。顧客データを所有するのはお客様であり、Google ではありません。お客様のデータは常に契約に基づいた方法で処理されます。
詳しくは、プライバシー リソース センターをご覧ください。
コンピュータ ビジョン プロダクトを比較する
| 提供プロダクト | 最適な用途 | 主な機能 |
|---|---|---|
基本的なビジョン機能を迅速かつ簡単に統合。 | 画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。 費用対効果の高い従量課金制。 | |
スキャンしたドキュメントや画像から分析情報を抽出したり、ドキュメント ワークフローを自動化したりできます。 | OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。 | |
動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。 | オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。 | |
製造および産業環境における外観検査タスクの自動化 | 異常の検出、欠陥の検出と位置特定、組み立てのチェック。 | |
特定のニーズに合わせてカスタムモデルを構築してデプロイする。 | データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。 | |
自動的な画像の説明を取得する。 画像分類と画像検索。 コンテンツの管理と推奨事項。 | 画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。 機能とリリース段階の完全なリストをご覧ください。 |
さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。
基本的なビジョン機能を迅速かつ簡単に統合。
画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。
費用対効果の高い従量課金制。
スキャンしたドキュメントや画像から分析情報を抽出したり、ドキュメント ワークフローを自動化したりできます。
OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。
動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。
オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。
特定のニーズに合わせてカスタムモデルを構築してデプロイする。
データ準備ツール、モデルのトレーニングとデプロイにより、ソリューションを完全に制御できます。技術的な専門知識が必要です。
自動的な画像の説明を取得する。
画像分類と画像検索。
コンテンツの管理と推奨事項。
画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。
機能とリリース段階の完全なリストをご覧ください。
さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。
デモ
一般的な使用例
右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。
アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。
推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。
右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。
アプリケーションを呼び出すには、Jupyter ノートブック経由でファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。
推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。
右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。
構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。
推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。
右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー生成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。
構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。
推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。
Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。
英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。
Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。
英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。
アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。
アプリケーションで動画データを分析する前に、Vertex AI Vision の Stream サービスを使用して、連続的なデータフローのためのパイプラインを作成します。取り込まれたデータは、Google の事前トレーニング済みモデルまたはお客様のカスタムモデルによって分析されます。Stream からの分析出力は Vertex AI Vision Warehouse に保存され、そこで AI を活用した高度な検索機能を使用して、非構造化メディア コンテンツをクエリできます。
基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。
独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。
トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。
基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。
独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。
トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。
Visual Inspection AI はあらゆるステップで最適化されているため、簡単に設定でき、ROI を迅速に確認できます。汎用 ML プラットフォームに比べて、高性能な検査モデルのトレーニングを開始するために必要なラベル付き画像が最大 300 分の 1 で済むため、精度が最大 10 倍向上することが実証されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。
Visual Inspection AI はあらゆるステップで最適化されているため、簡単に設定でき、ROI を迅速に確認できます。汎用 ML プラットフォームに比べて、高性能な検査モデルのトレーニングを開始するために必要なラベル付き画像が最大 300 分の 1 で済むため、精度が最大 10 倍向上することが実証されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。
料金
| Vision AI の料金の仕組み | 各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。 | ||
|---|---|---|---|
| 無料枠 | プロダクト / サービス | 割引価格 | 詳細 |
Vision API | 最初の 1,000 ユニット 毎月無料 | 5,000,001 以上のユニット 月額 | |
Document AI | なし 料金はプロセッサによって異なります。 | 5,000,001 ページ以上 Enterprise Document OCR プロセッサの月額料金 | |
Video Intelligence API | 最初の 1,000 分 月額無料 | 100,000 分以上 月額 | |
Vertex AI Vision | なし 料金は機能によって異なります。 |
| |
Imagen - マルチモーダル エンベディング |
|
| 米国 $0.0001 画像入力ごと |
Imagen - 画像キャプション |
|
| 米国 $0.0015 イメージごと |
Gemini Pro Vision | |||
Vision AI の料金の仕組み
各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。
Document AI
なし
料金はプロセッサによって異なります。
5,000,001 ページ以上
Enterprise Document OCR プロセッサの月額料金
Imagen - マルチモーダル エンベディング
米国 $0.0001
画像入力ごと
Imagen - 画像キャプション
米国 $0.0015
イメージごと