Amazon S3 데이터 쿼리

이 문서에서는 Amazon Simple Storage Service(Amazon S3) BigLake 테이블에 저장된 데이터를 쿼리하는 방법을 설명합니다.

시작하기 전에

Amazon S3 BigLake 테이블이 있는지 확인합니다.

필요한 역할

Amazon S3 BigLake 테이블을 쿼리하려면 BigQuery API 호출자에게 다음 역할이 있는지 확인합니다.

  • BigQuery 연결 사용자(roles/bigquery.connectionUser)
  • BigQuery 데이터 뷰어(roles/bigquery.dataViewer)
  • BigQuery 사용자(roles/bigquery.user)

호출자는 계정 또는 Amazon S3 연결 서비스 계정일 수 있습니다. 권한에 따라 이러한 역할을 직접 부여하거나 관리자에게 부여를 요청할 수 있습니다. 역할 부여에 대한 자세한 내용은 리소스에 대해 부여할 수 있는 역할 보기를 참조하세요.

Amazon S3 BigLake 테이블을 쿼리하는 데 필요한 정확한 권한을 보려면 필수 권한 섹션을 확장합니다.

필수 권한

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

Amazon S3 BigLake 테이블 쿼리

Amazon S3 BigLake 테이블을 만든 후에는 표준 BigQuery 테이블과 마찬가지로 GoogleSQL 구문을 사용하여 쿼리할 수 있습니다.

캐시된 쿼리 결과는 BigQuery 임시 테이블에 저장됩니다. 임시 BigLake 테이블을 쿼리하려면 임시 BigLake 테이블 쿼리를 참조하세요. BigQuery Omni 제한사항 및 할당량에 대한 자세한 내용은 제한사항할당량을 참조하세요.

BigQuery Omni 리전에서 예약을 만들 때는 Enterprise 버전을 사용합니다. 버전을 사용하여 예약을 만드는 방법은 예약 만들기를 참조하세요.

BigLake Amazon S3 테이블에서 쿼리를 실행합니다.

SQL

테이블을 쿼리하려면 다음을 따르세요.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery로 이동

  2. 쿼리 편집기에서 다음 문을 입력합니다.

    SELECT * FROM DATASET_NAME.TABLE_NAME;

    다음을 바꿉니다.

    • DATASET_NAME: 생성한 데이터 세트 이름
    • TABLE_NAME: 만든 테이블의 이름입니다.

    • 실행을 클릭합니다.

쿼리를 실행하는 방법에 대한 자세한 내용은 대화형 쿼리 실행을 참조하세요.

자바

이 샘플을 사용해 보기 전에 BigQuery 빠른 시작: 클라이언트 라이브러리 사용Java 설정 안내를 따르세요. 자세한 내용은 BigQuery Java API 참고 문서를 확인하세요.

BigQuery에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 클라이언트 라이브러리의 인증 설정을 참조하세요.

import com.google.cloud.bigquery.BigQuery;
import com.google.cloud.bigquery.BigQueryException;
import com.google.cloud.bigquery.BigQueryOptions;
import com.google.cloud.bigquery.CsvOptions;
import com.google.cloud.bigquery.DatasetId;
import com.google.cloud.bigquery.ExternalTableDefinition;
import com.google.cloud.bigquery.Field;
import com.google.cloud.bigquery.QueryJobConfiguration;
import com.google.cloud.bigquery.Schema;
import com.google.cloud.bigquery.StandardSQLTypeName;
import com.google.cloud.bigquery.TableId;
import com.google.cloud.bigquery.TableInfo;
import com.google.cloud.bigquery.TableResult;

// Sample to queries an external data source aws s3 using a permanent table
public class QueryExternalTableAws {

  public static void main(String[] args) throws InterruptedException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "MY_PROJECT_ID";
    String datasetName = "MY_DATASET_NAME";
    String externalTableName = "MY_EXTERNAL_TABLE_NAME";
    // Query to find states starting with 'W'
    String query =
        String.format(
            "SELECT * FROM s%.%s.%s WHERE name LIKE 'W%%'",
            projectId, datasetName, externalTableName);
    queryExternalTableAws(query);
  }

  public static void queryExternalTableAws(String query) throws InterruptedException {
    try {
      // Initialize client that will be used to send requests. This client only needs to be created
      // once, and can be reused for multiple requests.
      BigQuery bigquery = BigQueryOptions.getDefaultInstance().getService();

      TableResult results = bigquery.query(QueryJobConfiguration.of(query));

      results
          .iterateAll()
          .forEach(row -> row.forEach(val -> System.out.printf("%s,", val.toString())));

      System.out.println("Query on aws external permanent table performed successfully.");
    } catch (BigQueryException e) {
      System.out.println("Query not performed \n" + e.toString());
    }
  }
}

임시 테이블 쿼리

BigQuery는 쿼리 결과를 저장할 임시 테이블을 만듭니다. 임시 테이블에서 쿼리 결과를 가져오려면 Google Cloud 콘솔 또는 BigQuery API를 사용하면 됩니다.

다음 옵션 중 하나를 선택합니다.

콘솔

외부 클라우드 데이터를 참조하는 BigLake 테이블을 쿼리할 때는 Google Cloud 콘솔에 표시된 쿼리 결과를 볼 수 있습니다.

API

API를 사용하여 BigLake 테이블을 쿼리하려면 다음 단계를 수행합니다.

  1. 작업 객체를 만듭니다.
  2. jobs.insert 메서드를 호출하여 쿼리를 비동기식으로 실행하거나 jobs.query 메서드를 호출하여 쿼리를 동기식으로 실행해 Job 객체를 전달합니다.
  3. 지정된 작업 참조를 전달하여 jobs.getQueryResults가 포함된 행을 읽고 쿼리 결과의 지정된 테이블 참조를 전달하여 tabledata.list 메서드를 읽습니다.

_FILE_NAME 유사 열 쿼리

외부 데이터 소스를 기반으로 하는 테이블은 _FILE_NAME이라는 유사 열을 제공합니다. 이 열에는 행이 속한 파일의 정규화된 경로가 있습니다. Cloud Storage, Google 드라이브, Amazon S3, Azure Blob Storage에 저장된 외부 데이터를 참조하는 테이블에만 이 열을 사용할 수 있습니다.

_FILE_NAME 열 이름은 예약되어 있으므로, 어떤 테이블에도 이 이름으로 열을 만들 수 없습니다. _FILE_NAME 값을 선택하려면 별칭을 사용해야 합니다. 다음 예시 쿼리에서는 유사 열에 별칭 fn을 할당하여 _FILE_NAME을 선택하는 방법을 보여줍니다.

  bq query \
  --project_id=PROJECT_ID \
  --use_legacy_sql=false \
  'SELECT
     name,
     _FILE_NAME AS fn
   FROM
     `DATASET.TABLE_NAME`
   WHERE
     name contains "Alex"' 

다음을 바꿉니다.

  • PROJECT_ID는 유효한 프로젝트 ID입니다(Cloud Shell을 사용하거나 Google Cloud CLI에서 기본 프로젝트를 설정하는 경우에는 이 플래그가 필요 없음).
  • DATASET 는 영구 외부 테이블이 저장되는 데이터 세트 이름입니다.
  • TABLE_NAME은 영구 외부 테이블 이름입니다.

쿼리의 _FILE_NAME 유사 열에 필터 조건자가 있는 경우 BigQuery는 필터를 충족하지 않는 파일 읽기를 건너뛰려고 시도합니다. _FILE_NAME 유사 열로 쿼리 조건자를 구성할 때 유사 열을 사용하여 수집-시간으로 파티션을 나눈 테이블 쿼리와 유사한 권장사항이 적용됩니다.

다음 단계