API を介して高度なビジョンモデルにアクセスし、ビジョンタスクを自動化して、分析を効率化し、行動につながるインサイトを引き出します。または、マネージド環境で、ノーコードのモデル トレーニングと低コストでカスタムアプリを構築できます。
新規のお客様には、Vision AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
Google が推奨するドキュメント要約ソリューションと AI/ML 画像処理ソリューションをデプロイすることもできます。
概要
コンピュータ ビジョンは、コンピュータやシステムが視覚データを解釈、分析し、デジタル画像、動画、その他の視覚入力から有意義な情報を導き出せるようにする人工知能(AI)の分野です。一般的な実際の応用例としては、オブジェクト検出、ビジュアル コンテンツ(画像、ドキュメント、動画)の処理、理解、分析、商品検索、画像分類と検索、コンテンツ モデレーションなどがあります。
Google Cloud の Gemini Enterprise エージェント プラットフォームでは、実質的にあらゆる入力を理解し、さまざまな種類の情報を組み合わせて、ほぼすべての出力を生成できる、最先端のマルチモーダル モデル ファミリーである Gemini を利用できます。
Google の事前トレーニング済みコンピュータ ビジョン ML モデルを基盤とする Cloud Vision API は、すぐに利用できる API(REST および RPC)です。開発者は、画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、露骨な表現を含むコンテンツへのタグ付けなど、一般的な画像検出機能をアプリケーションに簡単に統合できます。
画像に適用する各機能は、課金対象のユニットです。Cloud Vision API では、毎月 1,000 ユニットの機能を無料で利用できます。詳細については、料金詳細をご覧ください。
Document AI は、コンピュータ ビジョンや自然言語処理などのテクノロジーを組み合わせて、スキャンしたドキュメントからテキストやデータを抽出するドキュメント理解プラットフォームです。非構造化データを構造化された情報やビジネス インサイトに変換します。
さまざまな種類のドキュメントに最適化された幅広い事前トレーニング済みプロセッサが用意されています。また、Document AI Workbench を使用して、ドキュメントから構造化データを分類、分割、抽出するカスタム プロセッサを簡単に構築できます。
コンピュータ ビジョン技術を中核とする Video Intelligence API は、動画コンテンツの処理、分析、理解を簡単に行う方法です。
事前トレーニング済みの ML モデルが、保存された動画かストリーミング動画かを問わず、動画内の大量のオブジェクト、場所、動作を自動的に認識し、その品質は非常に優れています。コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告などの一般的なユースケースに非常に効果的です。また、Agent Platform Vision を使用して、特定のニーズに合わせてカスタム ML モデルをトレーニングすることもできます。
Visual Inspection AI は、製造業やその他の産業環境における外観検査タスクを自動化します。高度なコンピュータ ビジョンとディープ ラーニングの手法を活用して、画像や動画の分析、異常の特定、欠陥の検出と位置特定、組み立て製品に含まれる部品の不足や欠陥部品の確認を行います。
技術的な専門知識がなくても、最小限のラベル付き画像でカスタムモデルをトレーニングし、生産ラインで効率的に推論を実行し、工場現場からの新しいデータでモデルを継続的に更新できます。
Google Cloud は業界最先端の機能を備えており、お客様はご自身のデータを制御し、データがいつ、どのようにアクセスされるかを可視化できます。
Google Cloud の顧客データの所有者はお客様です。厳格なセキュリティ対策を実施して顧客データを保護し、お客様が条件に合わせてデータをコントロールできるようにするツールと機能を提供しています。顧客データを所有するのはお客様であり、Google ではありません。お客様のデータは常に契約に基づいた方法で処理されます。
詳しくは、プライバシー リソース センターをご覧ください。
コンピュータ ビジョン プロダクトを比較する
| 提供プロダクト | 最適な用途 | 主な機能 |
|---|---|---|
基本的なビジョン機能を迅速かつ簡単に統合できます。 | 画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。 費用対効果に優れ、従量課金制です。 | |
スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメント ワークフローを自動化する。 | OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。 | |
動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。 | オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。 | |
製造および産業環境における外観検査タスクの自動化 | 異常の検出、欠陥の検出と位置特定、組み立てのチェック。 | |
自動的な画像の説明を取得する。 画像分類と画像検索。 コンテンツの管理と推奨事項。 | 画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。 機能とリリース段階の完全なリストをご覧ください。 |
さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。
基本的なビジョン機能を迅速かつ簡単に統合できます。
画像のラベル付け、顔検出、ランドマーク検出、OCR、セーフサーチなどの事前構築済み機能。
費用対効果に優れ、従量課金制です。
スキャンしたドキュメントや画像から分析情報を抽出し、ドキュメント ワークフローを自動化する。
OCR(生成 AI を活用)、NLP、ML によるドキュメント理解、テキスト抽出、エンティティ識別、ドキュメント分類。
動画コンテンツの分析、コンテンツのモデレーションとレコメンデーション、メディア アーカイブ、コンテキスト広告。
オブジェクトの検出とトラッキング、シーンの理解、アクティビティの認識、顔検出と分析、テキストの検出と認識。
自動的な画像の説明を取得する。
画像分類と画像検索。
コンテンツの管理と推奨事項。
画像生成、画像編集、画像キャプション、マルチモーダル エンべディング。
機能とリリース段階の完全なリストをご覧ください。
さまざまな目的に最適化されたこれらのプロダクトでは、事前トレーニング済みの ML モデルを利用してすぐに使用でき、簡単にファインチューニングすることもできます。
デモ
右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。
このアプリケーションを呼び出すには、Jupyter ノートブックを介してファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。
推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。
右のアーキテクチャ図に示されているソリューションは、新しい PDF ドキュメントを Cloud Storage バケットに追加したときにトリガーされるパイプラインをデプロイします。パイプラインは、ドキュメントからテキストを抽出し、抽出されたテキストから要約を作成します。その要約は、表示と検索ができるようにデータベースに保存されます。
このアプリケーションを呼び出すには、Jupyter ノートブックを介してファイルをアップロードするか、Google Cloud コンソールの Cloud Storage に直接アップロードします。
推定デプロイ時間: 11 分(構成に 1 分、デプロイに 10 分)。
右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー作成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。
構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。
推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。
右の図に示されているこのソリューションでは、事前トレーニング済みの ML モデルを使用して、ユーザーから提供された画像を分析し、画像アノテーションを生成します。このソリューションをデプロイすると画像処理サービスが作成され、安全でない、または有害なユーザー作成コンテンツの処理、物理ドキュメントからのテキストのデジタル化、画像内のオブジェクトの検出と分類などに役立ちます。
構成とセキュリティの設定を確認し、さまざまなニーズに合わせて画像処理サービスを調整する方法を理解します。
推定デプロイ時間: 12 分(構成に 2 分、デプロイに 10 分)。
Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。
英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。
Imagen の Visual Captioning 機能を使用すると、画像に関連する説明を生成できます。この機能を使用すると、画像に関するより詳細なメタデータを取得して保存および検索し、自動字幕起こしを生成できます。また、ユーザー補助のユースケースをサポートしたり、プロダクトやビジュアル アセットの簡単な説明を受け取ったりできます。
英語、フランス語、ドイツ語、イタリア語、スペイン語で利用できるこの機能には、Google Cloud コンソールまたは API 呼び出しからアクセスできます。
基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。
独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。
トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。
基盤モデルを活用した Document AI カスタム エクストラクタは、汎用的および分野固有のドキュメントからテキストとデータを迅速かつ正確に抽出します。わずか 5~10 個のドキュメントで簡単に微調整できるため、パフォーマンスがさらに向上します。
独自のモデルをトレーニングする場合は、基盤モデルを使用してデータセットに自動的にラベル付けを行い、本番環境への移行までの時間を短縮します。
トレーニング済みの専用プロセッサを使用することもできます。プロセッサの一覧をご覧ください。
Visual Inspection AI は、あらゆるステップで最適化されているため、設定が簡単で、迅速に ROI を確認できます。汎用 ML プラットフォームに比べ、最大 300 分の 1 のラベル付き画像で高性能な検査モデルのトレーニングを開始でき、最大 10 倍の精度を実現することが示されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。
Visual Inspection AI は、あらゆるステップで最適化されているため、設定が簡単で、迅速に ROI を確認できます。汎用 ML プラットフォームに比べ、最大 300 分の 1 のラベル付き画像で高性能な検査モデルのトレーニングを開始でき、最大 10 倍の精度を実現することが示されています。技術的な専門知識がなくてもオンプレミスでモデルをトレーニングできます。何よりも、製造現場から流れるデータによってモデルを継続的に更新できるため、新しいユースケースが見つかるたびに精度が向上します。
料金
| Vision AI の料金の仕組み | 各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。 | ||
|---|---|---|---|
| 無料枠 | プロダクト / サービス | 割引価格 | 詳細 |
Vision API | 最初の 1,000 ユニット 毎月無料 | 5,000,001 以上のユニット 1 か月あたり | |
Document AI | なし 料金はプロセッサによって異なります。 | 5,000,001 ページ以上 Enterprise Document OCR プロセッサの月額料金 | |
Video Intelligence API | 最初の 1,000 分 月額無料 | 100,000 分以上 1 か月あたり | |
Imagen - マルチモーダル エンベディング |
|
| 米国 $0.0001 画像入力ごと |
Imagen - 画像キャプション |
|
| 米国 $0.0015 イメージごと |
Gemini Pro Vision | |||
Vision AI の料金の仕組み
各 Vision サービスには一連の機能またはプロセッサがあり、それぞれ料金が異なります。詳細については、料金の詳細ページをご覧ください。
Document AI
なし
料金はプロセッサによって異なります。
5,000,001 ページ以上
Enterprise Document OCR プロセッサの月額料金
Imagen - マルチモーダル エンベディング
米国 $0.0001
画像入力ごと
Imagen - 画像キャプション
米国 $0.0015
イメージごと