Amazon S3 に接続する

BigQuery 管理者は、データアナリストが Amazon Simple Storage Service（Amazon S3）バケットに保存されているデータにアクセスできるように接続を作成できます。

BigQuery Omni は、接続を介して Amazon S3 のデータにアクセスします。接続ごとに独自のアマゾンウェブサービス（AWS）の Identity and Access Management ユーザーが設定されています。AWS IAM のロールを使用してユーザーに権限を付与します。AWS IAM ロールのポリシーにより、それぞれの接続で BigQuery がアクセスできるデータが決まります。

Amazon S3 データに対してクエリを行い、BigQuery から Amazon S3 バケットにクエリ結果をエクスポートするには接続が必要です。

始める前に

次のリソースが作成されていることを確認します。

BigQuery Connection API が有効になっている Google Cloud プロジェクト。
容量ベースの料金モデルを使用している場合は、プロジェクトで BigQuery Reservation API が有効になっていることを確認します。料金については、BigQuery Omni の料金をご覧ください。
AWS で IAM ポリシーを変更する権限を持つ AWS アカウント。

必要なロール

Amazon S3 のデータにアクセスするための接続の作成に必要な権限を取得するには、プロジェクトに対する BigQuery Connection 管理者（roles/bigquery.connectionAdmin）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

BigQuery の AWS IAM ポリシーを作成する

Amazon S3 のセキュリティに関するベストプラクティスに従ってください。次の手順を行うことをおすすめします。

HTTP 経由での Amazon S3 バケットへのアクセスを防ぐ AWS ポリシーを設定します。
Amazon S3 バケットへの公開アクセスを防ぐ AWS ポリシーを設定します。
Amazon S3 サーバーサイド暗号化を使用します。
Google アカウントに付与する権限を必要最小限のものにします。
CloudTrails を設定し、Amazon S3 データイベントを有効にします。

AWS IAM ポリシーを作成するには、AWS コンソールまたは Terraform を使用します。

AWS コンソール

AWS Identity and Access Management（IAM）コンソールに移動します。アクセスする Amazon S3 バケットを所有しているアカウントにログインしていることを確認します。
[Policies] > [Create policy] を選択します（新しいタブが開きます）。

[JSON] をクリックして、次の内容をエディタに貼り付けます。

{
 "Version": "2012-10-17",
 "Statement": [
    {
     "Effect": "Allow",
     "Action": [
       "s3:ListBucket"
     ],
     "Resource": [
       "arn:aws:s3:::BUCKET_NAME"
      ]
    },
   {
     "Effect": "Allow",
     "Action": [
       "s3:GetObject"
     ],
     "Resource": [
       "arn:aws:s3:::BUCKET_NAME",
        "arn:aws:s3:::BUCKET_NAME/*"
      ]
    }
 ]
}

次のように置き換えます。

BUCKET_NAME: BigQuery がアクセスする Amazon S3 バケット。

[Name] フィールドに、「bq_omni_read_only」などのポリシー名を入力します。
[Create policy] をクリックします。

ポリシーが次の形式の Amazon Resource Name（ARN）で作成されます。

arn:aws:iam::AWS_ACCOUNT_ID:policy/POLICY_NAME

次のように置き換えます。

AWS_ACCOUNT_ID: 接続の AWS IAM ユーザーの ID 番号。
POLICY_NAME: 選択したポリシー名。

Terraform

Terraform の構成に以下を追加して、Amazon S3 バケットリソースにポリシーをアタッチします。

  resource "aws_iam_policy" "bigquery-omni-connection-policy" {
    name = "bigquery-omni-connection-policy"

    policy = <<-EOF
            {
              "Version": "2012-10-17",
              "Statement": [
                  {
                      "Sid": "BucketLevelAccess",
                      "Effect": "Allow",
                      "Action": ["s3:ListBucket"],
                      "Resource": ["arn:aws:s3:::BUCKET_NAME"]
                  },
                  {
                      "Sid": "ObjectLevelAccess",
                      "Effect": "Allow",
                      "Action": ["s3:GetObject"],
                      "Resource": [
                          "arn:aws:s3:::BUCKET_NAME",
                          "arn:aws:s3:::BUCKET_NAME/*"
                          ]
                  }
              ]
            }
            EOF
  }

BUCKET_NAME は、BigQuery がアクセスする Amazon S3 バケットに置き換えます。

Amazon S3 バケットにデータをエクスポートする必要がある場合は、s3:PutObject 権限も必要です。アクセス制御を分離するには、個別の AWS IAM ロールで別の接続を作成し、ロールに書き込み専用アクセス権を付与することをおすすめします。バケットの特定のパスに対するロールのアクセス権を制限すれば、よりきめ細かいアクセス制御を行うことができます。

BigQuery の AWS IAM ロールを作成する

次に、BigQuery 内から Amazon S3 バケットへのアクセスを許可するロールを作成します。このロールは、前のセクションで作成したポリシーを使用します。

AWS IAM ロールを作成するには、AWS コンソールまたは Terraform を使用します。

AWS コンソール

AWS IAM コンソールに移動します。アクセスする Amazon S3 バケットを所有しているアカウントにログインしていることを確認します。
[Roles] > [Create role] を選択します。
[Select type of trusted entity] で、[Web Identity] を選択します。
[Identity Provider] で [Google] を選択します。
[Audience] に、プレースホルダ値として「00000」と入力します。値は後で置き換えます。
[Next: Permissions] をクリックします。
Amazon S3 データに対するアクセス権をロールに付与するには、IAM ポリシーをロールに接続します。前のセクションで作成したポリシーを検索し、切り替えボタンをクリックします。
[Next: Tags] をクリックします。
[Next: Review] をクリックします。ロールの名前を入力します（例: BQ_Read_Only）。
[Create role] をクリックします。

Terraform

Terraform 構成に以下を追加して IAM ロールを作成し、作成したロールにポリシーを割り当てます。

  resource "aws_iam_role" "bigquery-omni-connection-role" {
    name                 = "bigquery-omni-connection"
    max_session_duration = 43200

    assume_role_policy = <<-EOF
    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Effect": "Allow",
          "Principal": {
            "Federated": "accounts.google.com"
          },
          "Action": "sts:AssumeRoleWithWebIdentity",
          "Condition": {
            "StringEquals": {
              "accounts.google.com:sub": "00000"
            }
          }
        }
      ]
    }
    EOF
  }

  resource "aws_iam_role_policy_attachment" "bigquery-omni-connection-role-attach" {
    role       = aws_iam_role.bigquery-omni-connection-role.name
    policy_arn = aws_iam_policy.bigquery-omni-connection-policy.arn
  }

  output "bigquery_omni_role" {
    value = aws_iam_role.bigquery-omni-connection-role.arn
  }

接続を作成する

Amazon S3 バケットに接続するには、Google Cloud コンソール、bq コマンドラインツール、またはクライアントライブラリを使用します。

コンソール

[BigQuery] ページに移動します。

[BigQuery] に移動
[データを追加] メニューで [外部データソース] を選択します。
[External data source] ペインで、次の情報を入力します。
- [Connection type] で、[BigLake on AWS (via BigQuery Omni)] を選択します。
- [Connection ID] に、接続リソースの識別子を入力します。文字、数字、ダッシュ、アンダースコアを使用できます。
- 接続を作成するロケーションを選択します。
- （省略可）: [Friendly name] に、わかりやすい接続名を入力します（例: My connection resource）。後で修正が必要になった場合、わかりやすい名前だと接続リソースを簡単に識別できます。
- （省略可）[Description] に、この接続リソースの説明を入力します。
- [AWS role id] に、作成した IAM ロール ID を arn:aws:iam::AWS_ACCOUNT_ID:role/ROLE_NAME の形式で入力します。
[Create connection] をクリックします。
[Go to connection] をクリックします。
[Connection info] ペインで、BigQuery Google ID をコピーします。これは、各接続に固有の Google プリンシパルです。例:
```
  BigQuery Google identity: 000000000000000000000
  
```

Terraform

  resource "google_bigquery_connection" "connection" {
    connection_id = "bigquery-omni-aws-connection"
    friendly_name = "bigquery-omni-aws-connection"
    description   = "Created by Terraform"

    location      = "AWS_LOCATION"
    aws {
      access_role {
        # This must be constructed as a string instead of referencing the AWS resources
        # directly to avoid a resource dependency cycle in Terraform.
        iam_role_id = "arn:aws:iam::AWS_ACCOUNT:role/IAM_ROLE_NAME"
      }
    }
  }

次のように置き換えます。

AWS_LOCATION: Google Cloud の Amazon S3 のロケーション
AWS_ACCOUNT: AWS アカウント ID。
IAM_ROLE_NAME: BigQuery から Amazon S3 バケットへのアクセスを許可するロール。BigQuery の AWS IAM ロールを作成するの、aws_iam_role リソースから name 引数の値を使用します。

bq

bq mk --connection --connection_type='AWS' \
--iam_role_id=arn:aws:iam::AWS_ACCOUNT_ID:role/ROLE_NAME \
--location=AWS_LOCATION \
CONNECTION_ID

次のように置き換えます。

AWS_ACCOUNT_ID: 接続の AWS IAM ユーザーの ID 番号
ROLE_NAME: 選択したロールのポリシー名
AWS_LOCATION: Google Cloud の Amazon S3 のロケーション
CONNECTION_ID: この接続リソースに付ける ID

コマンドラインで次の出力が表示されます。

  Identity: IDENTITY_ID

出力には次のものが含まれます。

IDENTITY_ID: Google Cloud が制御する、各接続に固有の Google プリンシパル。

IDENTITY_ID の値をメモします。

Java

このサンプルを試す前に、クライアントライブラリを使用した BigQuery クイックスタートにある Java の設定手順を完了してください。詳細については、BigQuery Java API のリファレンスドキュメントをご覧ください。

BigQuery に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、クライアントライブラリの認証を設定するをご覧ください。

import com.google.cloud.bigquery.connection.v1.AwsAccessRole;
import com.google.cloud.bigquery.connection.v1.AwsProperties;
import com.google.cloud.bigquery.connection.v1.Connection;
import com.google.cloud.bigquery.connection.v1.CreateConnectionRequest;
import com.google.cloud.bigquery.connection.v1.LocationName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import java.io.IOException;

// Sample to create aws connection
public class CreateAwsConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    // Example of location: aws-us-east-1
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    // Example of role id: arn:aws:iam::accountId:role/myrole
    String iamRoleId = "MY_AWS_ROLE_ID";
    AwsAccessRole role = AwsAccessRole.newBuilder().setIamRoleId(iamRoleId).build();
    AwsProperties awsProperties = AwsProperties.newBuilder().setAccessRole(role).build();
    Connection connection = Connection.newBuilder().setAws(awsProperties).build();
    createAwsConnection(projectId, location, connectionId, connection);
  }

  static void createAwsConnection(
      String projectId, String location, String connectionId, Connection connection)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      LocationName parent = LocationName.of(projectId, location);
      CreateConnectionRequest request =
          CreateConnectionRequest.newBuilder()
              .setParent(parent.toString())
              .setConnection(connection)
              .setConnectionId(connectionId)
              .build();
      Connection response = client.createConnection(request);
      AwsAccessRole role = response.getAws().getAccessRole();
      System.out.println(
          "Aws connection created successfully : Aws userId :"
              + role.getIamRoleId()
              + " Aws externalId :"
              + role.getIdentity());
    }
  }
}

AWS ロールに信頼関係を追加する

BigQuery Omni では、Amazon S3 からデータに安全にアクセスするための 2 つの方法が用意されています。Google Cloud サービスアカウントに AWS ロールへのアクセス権を付与するか、AWS アカウントが accounts.google.com 用のカスタム ID プロバイダを持っている場合は、Google Cloud サービスアカウントをオーディエンスとしてプロバイダに追加する必要があります。

信頼ポリシーを AWS ロールに追加する。
カスタム AWS ID プロバイダを構成する。

信頼ポリシーを AWS ロールに追加する

信頼関係により、ロールポリシーで指定されているロールと Amazon S3 データへのアクセス権を接続で使用します。

信頼関係を追加するには、AWS コンソールまたは Terraform を使用します。

AWS コンソール

AWS IAM コンソールに移動します。アクセスする Amazon S3 バケットを所有しているアカウントにログインしていることを確認します。
[Roles] を選択します。
作成した ROLE_NAME を選択します。
[Edit] をクリックして、次の操作を行います。
1. [Maximum session duration] を [12 hours] に設定します。各クエリは最大 6 時間実行できるため、この期間で追加の再試行を 1 回行うことができます。セッション継続時間を 12 時間以上に増やしても、追加の再試行は行えません。詳細については、クエリ / 複数ステートメントクエリ実行時間の上限をご覧ください。
2. [Save changes] をクリックします。

[Trust Relationships] を選択し、[Edit trust relationship] をクリックします。ポリシーの内容を次のもので置き換えます。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Principal": {
        "Federated": "accounts.google.com"
      },
      "Action": "sts:AssumeRoleWithWebIdentity",
      "Condition": {
        "StringEquals": {
          "accounts.google.com:sub": "IDENTITY_ID"
        }
      }
    }
  ]
}

IDENTITY_ID は、BigQuery Google ID の値に置き換えます。この値は、作成した接続の AWS コンソールページで確認できます。

[Update Trust Policy] をクリックします。

Terraform

Terraform 構成の aws_iam_role リソースを更新して、信頼関係を追加します。

    resource "aws_iam_role" "bigquery-omni-connection-role" {
      name                 = "bigquery-omni-connection"
      max_session_duration = 43200

      assume_role_policy = <<-EOF
          {
            "Version": "2012-10-17",
            "Statement": [
              {
                "Effect": "Allow",
                "Principal": {
                  "Federated": "accounts.google.com"
                },
                "Action": "sts:AssumeRoleWithWebIdentity",
                "Condition": {
                  "StringEquals": {
                    "accounts.google.com:sub": "${google_bigquery_connection.connection.aws[0].access_role[0].identity}"
                  }
                }
              }
            ]
          }
          EOF
    }

これで接続が使用できるようになりました。

カスタム AWS ID プロバイダを構成する

AWS アカウントに accounts.google.com 用のカスタム ID プロバイダがある場合は、次のように IDENTITY_ID をプロバイダのオーディエンスとして追加する必要があります。方法は次のとおりです。

AWS コンソールで [IAM] ページに移動します。

AWS IAM に移動
[IAM] > [Identity Providers] に移動します。
accounts.google.com の ID プロバイダを選択します。
[Add Audience] をクリックし、IDENTITY_ID をオーディエンスとして追加します。

これで接続が使用できるようになりました。

ユーザーと接続を共有する

次のロールを付与することで、ユーザーがデータをクエリして接続を管理できます。

roles/bigquery.connectionUser: ユーザーが接続を使用して外部データソースに接続し、クエリを実行できるようにします。
roles/bigquery.connectionAdmin: ユーザーが接続を管理できるようにします。

BigQuery での IAM のロールと権限について詳しくは、事前定義ロールと権限をご覧ください。

次のオプションのいずれかを選択します。

コンソール

[BigQuery] ページに移動します。

[BigQuery] に移動

接続は、プロジェクトで外部接続というグループに一覧表示されます。
[エクスプローラ] ペインで、[プロジェクト名] > [外部接続] > [接続] の順にクリックします。
[詳細] ペインで、[共有] をクリックして接続を共有します。次に、以下の操作を行います。
1. [接続の権限] ダイアログで、プリンシパルを追加または編集して、他のプリンシパルと接続を共有します。
2. [保存] をクリックします。

bq

bq コマンドラインツールを使用して接続を共有することはできません。接続を共有するには、Google Cloud コンソールまたは BigQuery Connections API メソッドを使用します。

API

BigQuery Connections REST API の projects.locations.connections.setIAM メソッドを使用して、policy リソースのインスタンスを指定します。

Java

import com.google.api.resourcenames.ResourceName;
import com.google.cloud.bigquery.connection.v1.ConnectionName;
import com.google.cloud.bigqueryconnection.v1.ConnectionServiceClient;
import com.google.iam.v1.Binding;
import com.google.iam.v1.Policy;
import com.google.iam.v1.SetIamPolicyRequest;
import java.io.IOException;

// Sample to share connections
public class ShareConnection {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String location = "MY_LOCATION";
    String connectionId = "MY_CONNECTION_ID";
    shareConnection(projectId, location, connectionId);
  }

  static void shareConnection(String projectId, String location, String connectionId)
      throws IOException {
    try (ConnectionServiceClient client = ConnectionServiceClient.create()) {
      ResourceName resource = ConnectionName.of(projectId, location, connectionId);
      Binding binding =
          Binding.newBuilder()
              .addMembers("group:example-analyst-group@google.com")
              .setRole("roles/bigquery.connectionUser")
              .build();
      Policy policy = Policy.newBuilder().addBindings(binding).build();
      SetIamPolicyRequest request =
          SetIamPolicyRequest.newBuilder()
              .setResource(resource.toString())
              .setPolicy(policy)
              .build();
      client.setIamPolicy(request);
      System.out.println("Connection shared successfully");
    }
  }
}

次のステップ

さまざまな接続タイプについて確認する。
接続の管理について確認する。
BigQuery Omni について確認する。
AWS ラボで BigQuery Omni を使用する。
BigLake テーブルについて確認する。
Amazon S3 データに対するクエリの方法を学ぶ。
クエリ結果を Amazon S3 バケットにエクスポートする方法を学ぶ。