BigQuery のデータガバナンスの概要

このドキュメントでは、BigQuery データガバナンスの概要と、BigQuery 機能を使用して BigQuery データガバナンスポリシーを実装および適用する方法について説明します。Google Cloud のデータガバナンス全体の概要については、データガバナンスとはをご覧ください。

データガバナンスとは、データのライフサイクル全体を通じてセキュリティと品質を管理することです。これにより、組織のポリシーと規制に従ってアクセスと正確性が確保されます。これらのデータガバナンスの優先事項は、次の 3 つのカテゴリに分類できます。

アクセス制御
データスチュワードシップ
データ品質

以下の各セクションでは、これらのデータガバナンスカテゴリを定義し、BigQuery 機能でこれらのカテゴリをサポートする方法、推奨される次のステップについて説明します。

アクセス制御

データアクセス管理は、データにアクセスできるユーザーを管理するルールとポリシーを定義、適用、モニタリングするプロセスです。アクセス管理により、承認されたユーザーのみがデータにアクセスできるようになります。BigQuery には、データアクセスに役立つ次の機能が用意されています。

Identity and Access Management（IAM）。IAM を使用すると、プロジェクト、データセット、テーブル、ビューなどの BigQuery リソースにアクセスできるユーザーを制御できます。IAM のロールは、ユーザー、グループ、サービスアカウントに付与できます。これらのロールは、リソースに対して行える操作を定義します。
列レベルのアクセス制御と行レベルのアクセス制御。列レベルと行レベルのアクセス制御を使用すると、ユーザー属性またはデータ値に基づいて、テーブル内の特定の列と行へのアクセスを制限できます。このコントロールを使用すると、詳細なアクセスを実装して、センシティブデータを不正アクセスから保護できます。
データ転送の管理。VPC Service Controls を使用すると、Google Cloud リソースの周囲に境界を作成し、組織のポリシーに基づいてそれらのリソースへのアクセスを制御できます。
監査ログ。監査ログは、組織内のユーザーアクティビティとシステムイベントの詳細な記録を提供します。これらのログは、データガバナンスポリシーを適用し、潜在的なセキュリティリスクを特定するのに活用できます。

アクセス制御の次のステップ

次の表に、アクセス制御機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル	学習プログラム
クラウドの新規ユーザー	BigQuery の事前定義ロールを確認し、最小権限の原則に基づいてロールを割り当てる方法を検討してください。
クラウドの経験豊富なユーザー	権限をより柔軟かつ詳細に管理するには、ニーズに合ったカスタムロールの作成を検討してください。行の制御と列の制御を追加して、テーブル内の特定の行と列へのアクセスを制御できます。 VPC Service Controls を設定して、Google Cloud リソースの周囲にアクセス境界を確立します。

データスチュワードシップ

データスチュワードシップにより、クエリ、転送、保存中にセンシティブデータを適切に分類、マスキング、秘匿化、暗号化することでセンシティブデータを保護できます。この方法により、データ保護と整理が強化されます。BigQuery には、データスチュワードシップに役立つ次の機能が用意されています。

データマスキング。データマスキングを使用すると、承認済みユーザーに周囲のデータへのアクセスを引き続き許可しながら、テーブル内のセンシティブデータを難読化できます。また、センシティブデータのパターンに一致するデータをマスキングし、偶発的なデータ漏洩を防止することもできます。
暗号化。BigQuery は自動的にすべての保存データと転送中データを暗号化し、独自のニーズや要件に合わせて暗号化の設定をカスタマイズ可能にします。
メタデータ管理。メタデータ管理では、リソースにタグを付加できます。これにより、データの検索、整理、分類が容易になります。

データスチュワードシップの次のステップ

次の表に、データスチュワードシップ機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル	学習プログラム
クラウドの新規ユーザー	Google が保存データと転送中データをデフォルトで暗号化する仕組みをご確認ください。
クラウドの経験豊富なユーザー	列レベルのデータマスキングをテーブルに追加すると、センシティブデータを公開することなく、組織全体で情報を簡単に共有できます。 Sensitive Data Protection を使用して、データをスキャンし、個人を特定できる情報（PII）、財務データ、健康情報などの機密性の高い情報とリスクの高い情報がないかスキャンします。

経験レベル

学習プログラム

クラウドの新規ユーザー

Google が保存データと転送中データをデフォルトで暗号化する仕組みをご確認ください。

クラウドの経験豊富なユーザー

列レベルのデータマスキングをテーブルに追加すると、センシティブデータを公開することなく、組織全体で情報を簡単に共有できます。
Sensitive Data Protection を使用して、データをスキャンし、個人を特定できる情報（PII）、財務データ、健康情報などの機密性の高い情報とリスクの高い情報がないかスキャンします。

データ品質

データ品質管理は、データリネージをトレースし、データが正確性、完全性、整合性に関する基準を満たすようにするためのプロセスです。BigQuery には、データ品質を向上させるために活用できる次の機能が用意されています。

データリネージ。データリネージを使用すると、時間の経過に伴うデータの流れを追跡し、データの送信元、時間の経過に伴う変化、システム内の最終的な宛先に関する分析情報を提供できます。
データプロファイルスキャン。データプロファイルスキャンを使用すると、平均値や一意の値など、データの統計的特性を分析できます。
データ品質スキャン。データ品質スキャンでは、データチェック、定義済みルールに照らしたデータの検証、データ品質に関する問題のトラブルシューティングを行うことができます。

データ品質の次のステップ

次の表に、アクセスデータ品質機能の詳細を確認するために実施できる次のステップの概要を示します。

経験レベル	学習プログラム
クラウドの新規ユーザー	データプロファイルスキャンを実行して、データの上限や平均など、データに関する分析情報を取得します。
クラウドの経験豊富なユーザー	BigQuery プロジェクトでデータリネージを有効にして、読み込み、コピー、データ変更などの BigQuery オペレーションのリネージ情報を自動的に記録します。定期的なデータ品質スキャンを設定して、事前定義のスキャンルールでデータの問題が発生する可能性があることについて警告します。データ品質スキャンのカスタムデータルールを設定して、スキャンが特定のニーズに合わせて調整されるようにします。