Storage Insights データセット: 詳細な可視性でストレージ費用を最適化する方法
Misha Sheth
Product Manager, Storage
Chris Madden
EMEA Solution Lead, Storage
※この投稿は米国時間 2025 年 8 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
クラウド ストレージで大量のデータを管理するのは難しい場合があります。Google Cloud Storage は優れたスケーラビリティと耐久性を備えていますが、ストレージ管理者は次のような疑問に悩まされることがあります。
-
ストレージ費用を押し上げている要因は何か?
-
Cloud Storage のすべてのデータがどこにあり、どのように分散されているか?
-
年齢やサイズなどの特定のメタデータをデータ全体で検索するにはどうすればよいか?
実際、費用最適化、セキュリティ、コンプライアンスを実現するには、何がどこにあり、どのように使用されているかを把握する必要があります。そこで役立つのが、Cloud Storage 向けの Storage Intelligence の機能である Storage Insights データセットです。Storage Intelligence は、大規模なストレージ エステートを分析し、簡単に対策を講じるための複数の優れた機能を備えた統合管理プロダクトです。データの探索、費用の最適化、セキュリティの適用、ガバナンス ポリシーの実装に役立ちます。Storage Insights データセットを使用すると、ストレージ フットプリントを詳細に分析できます。また、Gemini Cloud Assist を使用して、自然言語で迅速に分析できます。これらの分析に基づいて、バケットの再配置や大規模なバッチ オペレーションの実行などのアクションを実行できます。
このブログでは、Insights データセットを使用して費用管理と可視化を行う方法に焦点を当て、さまざまな一般的なユースケースを確認します。これは、クラウドの費用配賦、モニタリング、予測を行うクラウド管理者や FinOps チームにとって特に便利です。
Storage Insights データセットとは
Storage Insights データセットは、Cloud Storage データを詳細に可視化する強力な自動化された方法を提供します。Storage Insights データセットは、手動スクリプト、バケットのカスタムの単発レポート、独自のコレクション パイプラインの管理の代わりに、Cloud Storage オブジェクトとそのアクティビティに関する包括的なレポートを生成し、BigQuery のリンクされたデータセットに直接配置します。
Cloud Storage バケットのレントゲン写真のようなものです。自動データ更新は 24 時間ごとに行われ(初回読み込みには最大 48 時間かかる場合があります)、未加工のストレージ メタデータを構造化されたクエリ可能なデータに変換します。このデータは、使い慣れた BigQuery ツールで分析して重要な分析情報を得ることができます。
主な機能
-
カスタマイズ可能なスコープ: データセットのスコープを、組織、プロジェクトを含むフォルダ、プロジェクト / プロジェクトのセット、または特定のバケットのレベルに設定します。
-
メタデータ データセット: バケットとオブジェクトのメタデータが BigQuery に直接含まれる、クエリ可能なデータセットを提供します。
- 定期的な更新と保持: 最初の読み込み後、データセットは 24 時間ごとにメタデータで更新され、最大 90 日間データを保持できます。
ユースケース
ルーチン ショーバックの計算
誰が / どのアプリケーションがどのストレージを消費しているかを把握することは、特に大規模な組織の場合、効果的な費用管理の第一歩となることがよくあります。Storage Insights データセットを使用すると、オブジェクトとバケットのメタデータを BigQuery で利用できます。SQL クエリを実行して、特定のチーム、プロジェクト、アプリケーションによるストレージ使用量を集計できます。これにより、バケットまたはプレフィックスごとにストレージ使用量を帰属させ、社内チャージバックや費用のアトリビューションに利用できます。たとえば、「先月、X 部門は gs://my-app-data/department-x/
で 50 TB のストレージを使用しました」といった情報を得られます。この透明性により、説明責任が促進され、正確な社内ショーバックが可能になります。
データセット内のバケットとプレフィックスごとの合計ストレージを特定する SQL クエリの例を次に示します。
ストレージ クラス全体でどのくらいのデータがあるかを把握する
Storage Insights データセットは、バケット内のすべてのオブジェクトのストレージ クラスを特定します。BigQuery のオブジェクト メタデータ ビューで storageClass, timeCreated, updated
をクエリすることで、一定期間経過したオブジェクトのさまざまなクラス(Standard、Nearline、Coldline、Archive)にわたるデータ分布と、最後に更新された日時をすばやく可視化できます。これにより、誤分類された可能性のあるデータを特定できます。また、timeStorageClassUpdated
オブジェクト メタデータを使用して、Coldline ストレージまたは Archive ストレージのデータを含むバケット全体があるかどうかや、オブジェクトがストレージ クラス間で予期せず移動したかどうか(たとえば、Archive ストレージにあるはずのファイルが Standard ストレージ クラスにあるなど)に関する貴重な分析情報も提供します。
2 年前に作成され、それ以降更新されておらず、Standard クラスにあるすべてのオブジェクトを確認する SQL クエリの例を次に示します。
ライフサイクル ポリシーと Autoclass ポリシーの設定: 費用の自動削減
手動でのデータ管理は時間がかかり、エラーが発生しやすいものです。Storage Insights データセットは、オブジェクトのライフサイクル管理(OLM)または Autoclass を使用することで費用を削減できる場所を特定するのに役立ちます。
-
OLM または Autoclass が構成されていないバケットを特定する: Storage Insights データセットを使用して、バケットのメタデータをクエリし、
lifecycle, autoclass.enabled
フィールドを使用して、ライフサイクル ポリシーが定義されていないバケットを確認できます。バケットに、一定期間後により使用頻度の低いストレージに移行するか削除する必要があるデータが含まれているにもかかわらず、ポリシーが設定されていない場合、さらに調査する必要があるエステートの部分を把握することで、適切なアクションを実行できます。Storage Insights データセットは、これらの「管理されていない」バケットにフラグを立てるためのデータを提供し、ベスト プラクティスの適用を支援します。
ライフサイクル構成または AutoClass 構成が有効になっているすべてのバケットと、アクティブな構成がないすべてのバケットを確認する SQL クエリの例を次に示します。
-
Autoclass の影響を評価する: Autoclass は、固定のアクセス タイムラインに基づいて、ストレージ クラス間でオブジェクトを自動的に移行します。しかし、期待どおりに機能しているかどうか、さらなる最適化が必要かどうかをどのように判断すればよいのでしょうか。Storage Insights データセットを使用すると、
autoclass.enabled
フィールドを使用して Autoclass が有効になっているバケットを見つけ、storageClass, timeStorageClassUpdated
フィールドを時間の経過とともに追跡して、Autoclass が有効になっているバケット内の 特定のオブジェクト のオブジェクト メタデータを分析できます。これにより、Autoclass の有効性を評価し、指定したオブジェクトが実際に最適なクラスに移動しているかどうかを確認し、費用に対する実際の影響を把握できます。たとえば、バケットで Autoclass を構成すると、31 日目のストレージ クラス間のデータの移動を 1 日目と比較して可視化し、Autoclass ポリシーがバケットにどのように影響するかを把握できます。 -
Autoclass の適合性を評価する: バケットのデータを分析して、Autoclass を使用することが適切かどうかを判断します。たとえば、バケットに保存されているデータの有効期間が短い場合(30 日未満)(
timeCreated
とtimeDeleted
を使用して、バケット内のオブジェクトの平均有効期間を判断するために、日次スナップショットでオブジェクトを評価できます)、Autoclass を有効にしない方がよい場合があります。
以下は、bucketA と bucketB で、経過時間が 30 日を超えるオブジェクトと 30 日未満のオブジェクトの数を調べる SQL クエリの例です。
プロアクティブなクリーンアップと最適化
Storage Insights データセットは、日常的な管理だけでなく、無駄なストレージを事前に見つけて排除するのにも役立ちます。
-
重複オブジェクトをすばやく検出: ストレージの無駄となる一般的な原因の一つに、誤って作成された重複があります。BigQuery クエリでオブジェクト メタデータ(
サイズ
、名前、crc32c
チェックサムなど)を使用して、重複の可能性を特定できます。たとえば、サイズとチェックサムがまったく同じで、類似する名前の複数のオブジェクトが見つかった場合、冗長性があることを示している可能性があるため、さらに調査する必要があります。
サイズ、crc32c チェックサム フィールド、名前が同じ値である(重複の可能性を示します)すべてのオブジェクトを一覧表示する SQL クエリの例を次に示します。
-
クリーンアップする一時オブジェクトを見つける: 多くのアプリケーションは一時ファイルを生成します。一時ファイルは、削除しないと、時間が経つにつれて蓄積されます。Storage Insights データセットを使用すると、特定の命名規則に一致するオブジェクト(例:
*_temp
、*.tmp
)または「temp」プレフィックスに保存されているオブジェクトと、それらの作成日を一覧表示します。これにより、孤立した一時データを体系的に特定してクリーンアップし、貴重なストレージ容量を解放できます。
1 か月前に作成されたすべてのログファイルを検索する SQL クエリの例を次に示します。
-
特定の日付より古いすべてのオブジェクトを一覧表示して、簡単にアクションを実行する: コンプライアンスのために、5 年以上前のすべての画像をアーカイブまたは削除する必要がある、または 90 日以上前のログをクリーンアップする必要がある場合があるかもしれません。Storage Insights データセットは、すべてのオブジェクトの
timeCreated
とcontentType
を提供します。簡単な BigQuery クエリで、指定した日付より古いすべてのオブジェクトを一覧表示できるため、さらに調査するためのオブジェクトの明確で実用的なリストが得られます。Storage Intelligence のバッチ オペレーションを使用すると、数十億のオブジェクトに対してサーバーレスでアクションを実行できます。 -
削除(復元可能)の適合性を確認する: オブジェクト メタデータ テーブルで
softDeleteTime
とsize
の存在をクエリして、削除(復元可能)されたデータのストレージ サイズが大きいバケットを見つけます。このような場合、データは一時的なものと見なされ、削除(復元可能)の費用の最適化の機会を調査する必要があるかもしれません。
分析をさらに深める
Storage Intelligence Insights データセットの真の力は、提供される元データだけでなく、そこから得られる分析情報と、その後に実行できるアクションにあります。Cloud Storage のメタデータが BigQuery に取り込まれると、高度な分析と統合の可能性が大きく広がります。
たとえば、Google Cloud の無料のデータ可視化およびダッシュボード ツールである Looker Studio を使用して、BigQuery Insights データセットに直接接続し、複雑なクエリを直感的でインタラクティブなダッシュボードに変換できます。次のことを行えるようになりました。
-
費用の傾向を可視化: プロジェクト、部門、ストレージ クラスごとのストレージ使用量を経時的に示すダッシュボードを作成します。これにより、チームは支出を簡単に追跡し、急増を特定して、将来の費用を予測できます。
-
急成長しているバケットを追跡する: 過去 1 週間または 1 か月で最も成長したバケットを分析し、既知のプロジェクトと比較して、正確な費用のアトリビューションを実現します。Looker のアラート機能を使用して、バケット内のデータの合計サイズが急増するなど、特定のしきい値に達したときに通知を受け取ります。
-
一般的な分析用のカスタムグラフを設定する: 日常的な FinOps ユースケース(OLM ポリシーが構成されていないバケットや、保持期限が切れたオブジェクトの追跡など)では、関連するチーム向けに週次レポートを生成して、簡単にアクションを実行できるようにします。
また、こちらのテンプレートを使用してデータセットに接続し、迅速に分析することも、独自のカスタム ダッシュボードを作成することもできます。




始める
Storage Intelligence を構成してデータセットを作成し、30 日間のトライアルでストレージ エステートの分析を今すぐ開始しましょう。費用の詳細については、料金に関するドキュメントをご覧ください。
データセットを任意のスコープに設定して、データの分析を開始します。
-
中央の FinOps チームが毎月分析するために、チームまたは部門の使用状況に基づいて Looker Studio ダッシュボードのセットを構成します。
-
BigQuery を使用してアドホック分析を行い、特定の分析情報を取得します。
-
費用を全体的に把握するには、Storage Insights データセットを Google Cloud の BigQuery への請求データのエクスポートと統合できます。請求データのエクスポートでは、Cloud Storage を含むすべての Google Cloud サービスの費用に関する詳細な情報が提供されます。
ー ストレージ担当プロダクト マネージャー、Misha Sheth
ー ストレージ担当 EMEA ソリューション リード、Chris Madden