ダークデータを有用なインサイトへ: スマート ストレージの幕開け

Asad Khan
Sr. Director of Product Management, Google Storage
Manjul Sahay
Group Product Manager, Google Cloud Storage
※この投稿は米国時間 2025 年 10 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。
今日 AI に関心を持つ組織は、Tensor Processing Unit(TPU)と画像処理装置(GPU)による驚異的なコンピューティング能力を利用できます。また、Gemini などの基盤モデルは、AI の可能性を再定義しています。しかし、多くの企業にとって、AI の大きな障害となるのはデータそのもの、特に非構造化データです。Enterprise Strategy Group によると、ほとんどの組織では、全データの 61% が非構造化データであり、その大部分はアーカイブに分析もラベル付けもされずに保存されている、いわゆる「ダークデータ」です。しかし、この未活用のリソースは、AI の力を借りることにより、真の宝の山のようなインサイトを引き出すことができます。
同時に、非構造化データに関しては、従来のツールでは表面的な処理しか行えず、分野の専門家が大規模な手動の前処理パイプラインを構築し、データの意味論的意味を定義する必要があります。そのため、大規模なリアルタイム分析は不可能で、企業は保存したデータのほんの一部しか利用できません。
非構造化データが保存されるだけでなく、理解される世界を想像してみてください。画像、動画、ドキュメントなどのデータに対して複雑な質問をすると、興味深い回答が得られる世界です。これは単なる未来のビジョンではありません。スマート ストレージの時代はすでに到来しています。本日、AI を使用してデータのメタデータとインサイトを生成する新しい自動アノテーション機能とオブジェクト コンテキスト機能を発表します。これにより、ダークデータを大規模な検出、キュレーション、ガバナンスに使用できるようになります。さらに、新機能により、オブジェクト分析データ パイプラインを独自に構築して管理する必要がなくなります。
AI を活用してダークデータを変革
非構造化データが Google Cloud に取り込まれると、もはや受動的なオブジェクトとして扱われることはありません。その代わりに、データ パイプラインは AI を活用してデータを自動的に処理および理解し、重要な分析情報とつながりを浮かび上がらせます。このビジョンに不可欠な 2 つの新機能があります。1 つは 自動アノテーションです。これは、Google の事前トレーニング済み AI モデルを使用してメタデータを自動生成することで、データを拡充する機能です。もう 1 つはオブジェクト コンテキストです。これは、カスタムの、実用的なタグをデータに添付できる機能です。この 2 つの機能を組み合わせることで、受動的なデータを能動的なアセットに変換し、AI モデルのトレーニングのための迅速なデータ検出、モデルのバイアスを低減するためのデータ キュレーションの合理化、機密情報を保護するためのデータ ガバナンスの強化、ストレージ上で直接強力なステートフル ワークフローを構築する機能などのユースケースを実現できます。
データをスマート化する
自動アノテーションは、現在限定的な試験運用版としてリリースされており、Google の高度な AI モデルを適用することで、Cloud Storage バケットに保存されたオブジェクトに関する豊富なメタデータ(「アノテーション」)を自動的に生成します。まずは画像オブジェクトから開始します。 始めるのは簡単です。選択したバケットまたはプロジェクト全体で自動アノテーションを有効にし、利用可能なモデルを 1 つ以上選択するだけで、画像ライブラリ全体にアノテーションが付けられます。さらに、新しい画像がアップロードされると、自動的にアノテーションが付けられます。アノテーションのライフサイクルは常にそのオブジェクトのライフサイクルに関連付けられるため、管理が簡素化され、整合性が確保されます。重要な点として、自動アノテーションはユーザーの管理下で動作し、ユーザーが明示的に権限を付与したオブジェクト コンテンツにのみアクセスします。その後、Cloud Storage API 呼び出しと Storage Insights データセットを通じて、オブジェクト コンテキストとして利用できるアノテーションをクエリできます。最初のリリースでは、アノテーションの生成に事前トレーニング済みモデルを使用します。具体的には、信頼スコア付きのオブジェクト検出、画像ラベリング、不適切なコンテンツの検出です。


オブジェクトに対して生成されたアノテーションのサンプル
オブジェクト コンテキストを使用すると、新しい自動アノテーション機能で生成された情報を含め、カスタムの Key-Value ペアのメタデータを Cloud Storage のオブジェクトに直接アタッチできます。現在プレビュー版のオブジェクト コンテキストは、リスト表示とバッチ処理のための Cloud Storage API、および BigQuery での分析のための Storage Insights データセットとネイティブに統合されています。各コンテキストには、オブジェクトの作成と変更のタイムスタンプが含まれており、貴重なリネージ情報が提供されます。Identity and Access Management(IAM)権限を使用して、オブジェクト コンテキストを追加、変更、削除できるユーザーを管理できます。Cloud Storage API を使用して Amazon S3 からデータを移行すると、既存の S3 オブジェクト タグが自動的にコンテキストに変換されます。
つまり、オブジェクト コンテキストは、データを拡充するためにコンテキストを追加する柔軟なネイティブの方法を提供します。自動アノテーションなどのスマート ストレージ機能と組み合わせることで、オブジェクト コンテキストはデータを情報に変換し、Cloud Storage 内で高度なデータ マネジメント ワークフローを直接構築できます。
では、これらのスマート ストレージ機能によって実現される新しいユースケースをいくつか詳しく見ていきましょう。
1. データの検出
新しい AI アプリケーションを構築するうえで最も大きな課題の一つは、データ検出です。多くの場合サイロ化された企業の大規模なデータストア全体から、最も関連性の高いデータを見つけなければいけません。ペタバイト規模の非構造化データから特定の画像や情報を見つけ出すのは、不可能に思えるかもしれません。自動アノテーションは、Cloud Storage 内のデータに対して、豊富でわかりやすいアノテーションを自動的に生成します。ラベルや検出されたオブジェクトなどのアノテーションは、オブジェクト コンテキスト内で利用でき、BigQuery で完全にインデックス化されます。これらのアノテーションのエンベディングを生成したら、BigQuery を使用してこれらのアノテーションのセマンティック検索を実行し、「干し草の山から針を探す」問題を効果的に解決できます。たとえば、数百万点の商品画像を持つ大手小売業者は、自動アノテーションと BigQuery を使用して「赤いドレス」や「革製のソファ」をすばやく見つけ、カタログ管理とマーケティング活動を推進できます。
2. AI のためのデータ キュレーション
効果的な AI モデルを構築するには、慎重にキュレートされたデータセットが必要です。データが広範にわたって代表性を有していることを確認するためにデータを精査(例: 「このデータセットにはさまざまな色の車が含まれていますか?」)することでモデルのバイアスを減らしたり、特定のトレーニング例(「赤い車が写っている画像を探して」など)を選択したりすることは、時間がかかるうえにエラーが発生しやすくなります。自動アノテーションでは、色やオブジェクトの種類などの属性を特定して、バランスの取れたデータセットの選択を自動化できます。
たとえば、モデルをトレーニングする自動運転車企業は、ペタバイト単位の道路カメラデータを使用して交通標識を認識できます。自動アノテーションを使用して、「止まれ」や「横断歩道」という単語を含む画像を特定して抽出します。


スマートホームとセキュリティの会社である Vivint は、自動アノテーションを使用してデータを見つけて理解しています。
「お客様は、自宅や生活をより安全、スマート、便利にするために当社を信頼してくださっています。AI は、当社のプロダクトとカスタマー エクスペリエンスのイノベーションの中核をなすものです。Cloud Storage の自動アノテーション機能によって BigQuery に配信される豊富なメタデータは、データ検出とキュレーションの取り組みをスケーリングするのに役立ちます。モデルの改善に不可欠な、干し草の山の中の針のようなデータを見つけることで、AI 開発プロセスを 6 か月からわずか 1 か月に短縮できます」 - Vivint、プロダクトおよび AI 担当バイス プレジデント、Brandon Bunker 氏
3. 非構造化データを大規模に管理
非構造化データは常に増え続けており、機密情報の特定、ポリシー違反の検出、ライフサイクル管理のための分類など、手動で管理およびガバナンスを行うことは困難です。自動アノテーションとオブジェクト コンテキストは、データ ガバナンスとコンプライアンスの課題を解決するのに役立ちます。たとえば、小売業のお客様は、自動アノテーションを使用して、配送ラベルや注文書など、お客様の個人情報(PII)が目に見える形で含まれている画像を特定してフラグを立てることができます。オブジェクト コンテキストに保存されたこの情報は、フラグが付けられたオブジェクトを制限付きバケットに移動したり、レビュー プロセスを開始したりするなど、自動化されたガバナンス アクションをトリガーできます。
Cloud Storage 上にソリューションを構築しているパートナーの BigID は、オブジェクト コンテキストを使用することで、顧客のリスク管理に役立っていると報告しています。
「オブジェクト コンテキストを使用すると、BigID の業界をリードするデータ分類ソリューションの出力内容を取得し、Cloud Storage オブジェクトにラベルを適用できます。オブジェクト コンテキストにより、BigID のラベルで Cloud Storage のデータを把握できるようになります。機密情報を含むオブジェクトを特定し、AI、セキュリティ、プライバシー全体のリスクを理解して管理するのに役立ちます」 - BigID、プリンシパル テクニカル アーキテクト、Marc Hebrard 氏
明るいデータの未来
Google Cloud は、お客様のデータが単なる受動的な資産ではなく、イノベーションの積極的な触媒となる未来を築くことに尽力しています。貴重なデータを放置しないでください。データを Cloud Storage に取り込み、自動アノテーションとオブジェクト コンテキストを有効にすることで、Gemini、Vertex AI、BigQuery を使用してデータの可能性を最大限に引き出せます。
オブジェクト コンテキストは今すぐ使用できます。自動アノテーションの早期アクセスについては、Google までお問い合わせください。アクセス権を取得したら、選択したバケットまたはプロジェクト全体で自動アノテーションを有効にし、利用可能なモデルを 1 つ以上選択するだけで、画像ライブラリ全体にアノテーションが付けられます。その後、Cloud Storage API 呼び出しと Storage Insights データセットを通じてオブジェクト コンテキストとして利用できるアノテーションに対してクエリを実行できます。
詳しくは、Enterprise Strategy Group とのショーケース ペーパー『Illuminating Dark Data With Smart Storage from Google Cloud』で、Google のエンドツーエンドのビジョンをご覧ください。
ー Google ストレージ、プロダクト管理担当シニア ディレクター、Asad Khan
ー Google Cloud Storage、グループ プロダクト マネージャー Manjul Sahay



