BigQuery

BigQuery 커넥터를 사용하면 Google BigQuery 데이터에 대한 삽입, 삭제, 업데이트, 읽기 작업을 수행할 수 있습니다.

시작하기 전에

BigQuery 커넥터를 사용하기 전에 다음 태스크를 수행합니다.

  • Google Cloud 프로젝트에서:
    • 커넥터를 구성하는 사용자에게 roles/connectors.admin IAM 역할을 부여합니다.
    • 커넥터에 사용할 서비스 계정에 다음 IAM 역할을 부여합니다.
      • roles/bigquery.dataEditor

      서비스 계정은 인증을 거쳐야 하며 Google API의 데이터에 액세스할 수 있는 승인을 받은 사람이 아닌 사용자를 나타내는 특별한 유형의 Google 계정입니다. 서비스 계정이 없으면 서비스 계정을 만들어야 합니다. 자세한 내용은 서비스 계정 만들기를 참조하세요.

    • 다음 서비스를 사용 설정합니다.
      • secretmanager.googleapis.com(Secret Manager API)
      • connectors.googleapis.com(Connectors API)

      서비스 사용 설정 방법은 서비스 사용 설정을 참조하세요.

    이러한 서비스나 권한이 이전 프로젝트에서 사용 설정되지 않았으면 커넥터를 구성할 때 서비스나 권한을 사용 설정하라는 메시지가 표시됩니다.

커넥터 구성

커넥터를 구성하려면 데이터 소스(백엔드 시스템)에 대한 연결을 만들어야 합니다. 연결은 데이터 소스와 관련이 있습니다. 즉, 데이터 소스가 많으면 데이터 소스마다 별도의 연결을 만들어야 합니다. 연결을 만들려면 다음 단계를 따르세요.

  1. Cloud 콘솔에서 Integration Connectors > 연결 페이지로 이동한 다음 Google Cloud 프로젝트를 선택하거나 만듭니다.

    연결 페이지로 이동

  2. + 새로 만들기를 클릭하여 연결 만들기 페이지를 엽니다.
  3. 위치 섹션에서 연결 위치를 선택합니다.
    1. 리전: 드롭다운 목록에서 위치를 선택합니다.

      지원되는 모든 리전 목록은 위치를 참조하세요.

    2. 다음을 클릭합니다.
  4. 연결 세부정보 섹션에서 다음을 완료합니다.
    1. 커넥터: 사용 가능한 커넥터 드롭다운 목록에서 BigQuery를 선택합니다.
    2. 커넥터 버전: 사용 가능한 버전의 드롭다운 목록에서 커넥터 버전을 선택합니다.
    3. 연결 이름 필드에서 연결 인스턴스의 이름을 입력합니다.

      연결 이름은 다음 기준을 충족해야 합니다.

      • 연결 이름에 문자, 숫자, 하이픈을 사용할 수 있습니다.
      • 문자는 소문자여야 합니다.
      • 연결 이름은 문자로 시작하고 문자 또는 숫자로 끝나야 합니다.
      • 연결 이름은 63자를 초과할 수 없습니다.
    4. 선택적으로 연결 인스턴스에 대한 설명을 입력합니다.
    5. 서비스 계정: 필수 역할이 있는 서비스 계정을 선택합니다.
    6. 필요한 경우 연결 노드 설정을 구성합니다.

      • 최소 노드 수: 최소 연결 노드 수를 입력합니다.
      • 최대 노드 수: 최대 연결 노드 수를 입력합니다.

      노드는 트랜잭션을 처리하는 연결의 단위(또는 복제본)입니다. 연결에 대해 더 많은 트랜잭션을 처리하려면 더 많은 노드가 필요합니다. 이와 반대로 더 적은 트랜잭션을 처리하기 위해서는 더 적은 노드가 필요합니다. 노드가 커넥터 가격 책정에 미치는 영향을 파악하려면 연결 노드 가격 책정을 참조하세요. 값을 입력하지 않으면 기본적으로 최소 노드가 (높은 가용성을 위해) 2로 설정되고 최대 노드는 50으로 설정됩니다.

    7. 프로젝트 ID: 데이터가 있는 Google Cloud 프로젝트의 ID입니다
    8. 데이터 세트 ID: BigQuery 데이터 세트의 ID입니다.
    9. 프록시 사용: 이 체크박스를 선택하여 연결의 프록시 서버를 구성하고 다음 값을 구성합니다.
      • 프록시 인증 스킴: 프록시 서버로 인증할 인증 유형을 선택합니다. 지원되는 인증 유형은 다음과 같습니다.
        • 기본: 기본 HTTP 인증입니다.
        • 다이제스트: 다이제스트 HTTP 인증입니다.
      • 프록시 사용자: 프록시 서버로 인증하는 데 사용할 사용자 이름입니다.
      • 프록시 비밀번호: 사용자 비밀번호의 Secret Manager 보안 비밀입니다.
      • 프록시 SSL 유형: 프록시 서버에 연결할 때 사용할 SSL 유형입니다. 지원되는 인증 유형은 다음과 같습니다.
        • 자동: 기본 설정입니다. URL이 HTTPS URL이면 터널 옵션이 사용됩니다. URL이 HTTP URL이면 사용 안 함 옵션이 사용됩니다.
        • 항상: 연결에 항상 SSL이 사용 설정됩니다.
        • 사용 안 함: 연결에 SSL이 사용 설정되지 않습니다.
        • 터널: 터널링 프록시를 통해 연결됩니다. 프록시 서버가 원격 호스트에 대한 연결을 열고 트래픽이 프록시를 통해 앞뒤로 흐릅니다.
      • 프록시 서버 섹션에서 프록시 서버의 세부정보를 입력합니다.
        1. + 대상 추가를 클릭합니다.
        2. 대상 유형을 선택합니다.
          • 호스트 주소: 대상의 호스트 이름 또는 IP 주소를 지정합니다.

            백엔드 시스템에 비공개 연결을 설정하려면 다음을 수행합니다.

    10. 선택적으로 + 라벨 추가를 클릭하여 키/값 쌍의 형식으로 연결에 라벨을 추가합니다.
    11. 다음을 클릭합니다.
  5. 인증 섹션에서 인증 세부정보를 입력합니다.
    1. BigQuery 연결에는 인증이 필요하지 않습니다.
    2. 다음을 클릭합니다.
  6. 검토: 연결 및 인증 세부정보를 검토합니다.
  7. 만들기를 클릭합니다.

항목, 작업, 조치

모든 Integration Connectors는 연결된 애플리케이션의 객체에 대한 추상화 레이어를 제공합니다. 이 추상화를 통해서만 애플리케이션의 객체에 액세스할 수 있습니다. 추상화는 항목, 작업, 조치로 노출됩니다.

  • 항목: 연결된 애플리케이션 또는 서비스에서 항목은 객체 또는 속성 모음으로 간주될 수 있습니다. 항목의 정의는 커넥터마다 다릅니다. 예를 들어 데이터베이스 커넥터에서는 테이블이 항목이고, 파일 서버 커넥터에서는 폴더가 항목이며 메시징 시스템 커넥터에서는 큐가 항목입니다.

    그러나 커넥터가 항목을 지원하지 않거나 항목을 포함하지 않을 수 있으며, 이 경우 Entities 목록이 비어 있습니다.

  • 작업: 작업은 항목에 대해 수행할 수 있는 활동입니다. 항목에서 다음 작업을 수행할 수 있습니다.

    사용 가능한 목록에서 항목을 선택하면 항목에 사용 가능한 작업 목록이 생성됩니다. 작업에 대한 자세한 설명은 커넥터 태스크의 항목 작업을 참조하세요. 그러나 커넥터가 항목 작업을 지원하지 않으면 이렇게 지원되지 않는 작업은 Operations 목록에 나열되지 않습니다.

  • 조치: 커넥터 인터페이스를 통해 통합에 제공되는 첫 번째 클래스 함수입니다. 조치를 사용하면 항목을 변경할 수 있습니다. 조치는 커넥터마다 다릅니다. 하지만 커넥터가 조치를 지원하지 않을 수 있으며 이 경우 Actions 목록이 비어 있습니다.

시스템 제한사항

BigQuery 커넥터는 노드별로 초당 최대 8개의 트랜잭션을 처리할 수 있으며 이 한도를 초과하는 모든 트랜잭션을 제한할 수 있습니다. 기본적으로 Integration Connectors는 가용성을 높이기 위해 연결에 2개의 노드를 할당합니다.

Integration Connectors에 적용되는 한도에 대한 자세한 내용은 한도를 참조하세요.

지원되는 데이터 유형

이 커넥터에 지원되는 데이터 유형은 다음과 같습니다.

  • BIGINT
  • BINARY
  • BIT
  • BOOLEAN
  • CHAR
  • DATE
  • DECIMAL
  • DOUBLE
  • FLOAT
  • INTEGER
  • LONGN VARCHAR
  • LONG VARCHAR
  • NCHAR
  • NUMERIC
  • NVARCHAR
  • REAL
  • SMALL INT
  • TIME
  • TIMESTAMP
  • TINY INT
  • VARBINARY
  • VARCHAR

알려진 문제

BigQuery 커넥터는 BigQuery 테이블의 기본 키를 지원하지 않습니다. 즉, entityId를 사용하여 항목 작업 가져오기, 업데이트, 삭제를 수행할 수 없습니다. 또는 필터 절을 사용하여 ID를 기준으로 레코드를 필터링할 수 있습니다.

작업

이 섹션에서는 BigQuery 커넥터에서 사용할 수 있는 작업을 설명합니다.

CancelJob 작업

이 작업을 통해 실행 중인 BigQuery 작업을 취소할 수 있습니다.

다음 표에서는 CancelJob 작업의 입력 매개변수를 설명합니다.

매개변수 이름 데이터 유형 설명
JobId 문자열 취소할 작업의 ID입니다. 필수 필드입니다.
리전 문자열 작업이 현재 실행 중인 리전입니다. 작업이 US 또는 EU 리전인 경우에는 필요하지 않습니다.

GetJob 작업

이 작업을 통해 기존 작업의 구성 정보와 실행 상태를 검색할 수 있습니다.

다음 표에서는 GetJob 작업의 입력 매개변수를 설명합니다.

매개변수 이름 데이터 유형 설명
JobId 문자열 구성을 검색할 작업의 ID입니다. 필수 필드입니다.
리전 문자열 작업이 현재 실행 중인 리전입니다. 작업이 US 또는 EU 리전인 경우에는 필요하지 않습니다.

InsertJob 작업

이 작업을 통해 BigQuery 작업을 삽입할 수 있으며 나중에 이 작업을 선택하여 쿼리 결과를 검색할 수 있습니다.

다음 표에서는 InsertJob 작업의 입력 매개변수를 설명합니다.

매개변수 이름 데이터 유형 설명
Query 문자열 BigQuery에 제출할 쿼리입니다. 필수 필드입니다.
IsDML 문자열 쿼리가 DML 문인 경우 true로 설정하고 그렇지 않으면 false로 설정해야 합니다. 기본값은 false입니다.
DestinationTable 문자열 DestProjectId:DestDatasetId.DestTable 형식의 쿼리 대상 테이블입니다.
WriteDisposition 문자열 대상 테이블에 데이터를 쓰는 방법을 지정합니다. 예를 들어 기존 결과 자르기, 기존 결과 추가 또는 테이블이 비어 있을 때만 쓰기가 있습니다. 지원되는 값은 다음과 같습니다.
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
기본값은 WRITE_TRUNCATE입니다.
DryRun 문자열 작업 실행이 테스트 실행인지 여부를 지정합니다.
MaximumBytesBilled 문자열 작업에서 처리할 수 있는 최대 바이트를 지정합니다. 작업이 지정된 값보다 많은 바이트를 처리하려고 하면 BigQuery에서 작업을 취소합니다.
리전 문자열 작업이 실행할 리전을 지정합니다.

InsertLoadJob 작업

이 작업을 통해 Google Cloud Storage의 데이터를 기존 테이블에 추가하는 BigQuery 로드 작업을 삽입할 수 있습니다.

다음 표에서는 InsertLoadJob 작업의 입력 매개변수를 설명합니다.

매개변수 이름 데이터 유형 설명
SourceURIs 문자열 공백으로 구분된 Google Cloud Storage URI 목록입니다.
SourceFormat 문자열 파일의 소스 형식입니다. 지원되는 값은 다음과 같습니다.
  • AVRO
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
  • PARQUET
  • ORC
  • CSV
DestinationTable 문자열 DestProjectId.DestDatasetId.DestTable 형식의 쿼리 대상 테이블입니다.
DestinationTableProperties 문자열 테이블 친화적인 이름, 설명, 라벨 목록을 지정하는 JSON 객체입니다.
DestinationTableSchema 문자열 테이블을 만드는 데 사용되는 필드를 지정하는 JSON 목록입니다.
DestinationEncryptionConfiguration 문자열 테이블의 KMS 암호화 설정을 지정하는 JSON 객체입니다.
SchemaUpdateOptions 문자열 대상 테이블 스키마를 업데이트할 때 적용할 옵션을 지정하는 JSON 목록입니다.
TimePartitioning 문자열 시간으로 파티션 나누기 유형과 필드를 지정하는 JSON 객체입니다.
RangePartitioning 문자열 범위로 파티션 나누기 필드와 버킷을 지정하는 JSON 객체입니다.
Clustering 문자열 클러스터링에 사용할 필드를 지정하는 JSON 객체입니다.
Autodetect 문자열 JSON 및 CSV 파일에 대한 옵션 및 스키마를 자동으로 결정해야 하는지 여부를 지정합니다.
CreateDisposition 문자열 대상 테이블이 아직 존재하지 않으면 만들어야 할지 여부를 지정합니다. 지원되는 값은 다음과 같습니다.
  • CREATE_IF_NEEDED
  • CREATE_NEVER
기본값은 CREATE_IF_NEEDED입니다.
WriteDisposition 문자열 대상 테이블에 데이터를 쓰는 방법을 지정합니다. 예를 들어 기존 결과 자르기, 기존 결과 추가 또는 테이블이 비어 있을 때만 쓰기가 있습니다. 지원되는 값은 다음과 같습니다.
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
기본값은 WRITE_APPEND입니다.
리전 문자열 작업이 실행할 리전을 지정합니다. Google Cloud Storage 리소스와 BigQuery 데이터 세트는 모두 동일한 리전에 있어야 합니다.
DryRun 문자열 작업 실행이 테스트 실행인지 여부를 지정합니다. 기본값은 false입니다.
MaximumBadRecords 문자열 전체 작업이 취소되기 전까지 최대한 가능한 잘못된 레코드 수를 지정합니다. 기본적으로 모든 레코드가 유효해야 합니다. 기본값은 0입니다.
IgnoreUnknownValues 문자열 알 수 없는 필드를 입력 파일에서 무시할지 또는 오류로 취급할지 여부를 지정합니다. 기본적으로 오류로 취급됩니다. 기본값은 false입니다.
AvroUseLogicalTypes 문자열 AVRO 논리 유형을 사용하여 AVRO 데이터를 BigQuery 유형으로 변환해야 하는지 여부를 지정합니다. 기본값은 true입니다.
CSVSkipLeadingRows 문자열 CSV 파일의 시작 부분에서 건너뛸 행 수를 지정합니다. 일반적으로 헤더 행을 건너뛰는 데 사용됩니다.
CSVEncoding 문자열 CSV 파일의 인코딩 유형입니다. 지원되는 값은 다음과 같습니다.
  • ISO-8859-1
  • UTF-8
기본값은 UTF-8입니다.
CSVNullMarker 문자열 이 문자열을 제공하면 CSV 파일 내의 NULL 값에 사용됩니다. 기본적으로 CSV 파일은 NULL을 사용할 수 없습니다.
CSVFieldDelimiter 문자열 CSV 파일 내에서 열을 구분하는 데 사용되는 문자입니다. 기본값은 쉼표(,)입니다.
CSVQuote 문자열 CSV 파일에서 따옴표로 묶인 필드에 사용되는 문자입니다. 따옴표를 사용하지 않으려면 빈 값으로 설정하면 됩니다. 기본값은 큰따옴표(")입니다.
CSVAllowQuotedNewlines 문자열 CSV 파일에서 따옴표가 있는 필드 안에 줄바꿈을 포함할 수 있는지 여부를 지정합니다. 기본값은 false입니다.
CSVAllowJaggedRows 문자열 CSV 파일에 누락된 필드가 포함될 수 있는지 여부를 지정합니다. 기본값은 false입니다.
DSBackupProjectionFields 문자열 Cloud Datastore 백업에서 로드할 필드의 JSON 목록입니다.
ParquetOptions 문자열 Parquet 관련 가져오기 옵션을 지정하는 JSON 객체입니다.
DecimalTargetTypes 문자열 숫자 유형에 적용되는 우선순위를 보여주는 JSON 목록입니다.
HivePartitioningOptions 문자열 소스 측 파티션 나누기 옵션을 지정하는 JSON 객체입니다.

커스텀 SQL 쿼리 실행

커스텀 쿼리를 만들려면 다음 단계를 수행합니다.

  1. 자세한 안내를 따라 커넥터 태스크를 추가합니다.
  2. 커넥터 태스크를 구성할 때 수행할 작업 유형에서 작업을 선택합니다.
  3. 작업 목록에서 커스텀 쿼리 실행을 선택한 후 완료를 클릭합니다.
  4. 태스크 입력 섹션을 펼친 후 다음을 수행합니다.
    1. 이후 제한 시간 필드에 쿼리가 실행될 때까지 대기할 시간(초)을 입력합니다.

      기본값: 180

    2. 최대 행 수 필드에 데이터베이스에서 반환될 최대 행 수를 입력합니다.

      기본값은 25입니다.

    3. 커스텀 쿼리를 업데이트하려면 커스텀 쿼리 수정을 클릭합니다. 스크립트 편집기 대화상자가 열립니다.
    4. 스크립트 편집기 대화상자에서 SQL 쿼리를 입력하고 저장을 클릭합니다.

      SQL 문에서 물음표(?)를 사용하여 쿼리 매개변수 목록에 지정해야 하는 단일 매개변수를 나타낼 수 있습니다. 예를 들어 다음 SQL 쿼리는 Employees 테이블에서 LastName 열에 지정된 값과 일치하는 모든 행을 선택합니다.

      SELECT * FROM Employees where LastName=?

    5. SQL 쿼리에 물음표를 사용한 경우에는 물음표마다 + 매개변수 이름 추가를 클릭하여 매개변수를 추가해야 합니다. 통합을 실행하는 동안 이러한 매개변수는 SQL 쿼리의 물음표(?)를 순차적으로 바꿉니다. 예를 들어 물음표(?) 3개를 추가한 경우 매개변수 3개를 순서대로 추가해야 합니다. 쿼리 매개변수를 추가하려면 다음을 수행합니다.
      1. 유형 목록에서 매개변수 데이터 유형을 선택합니다.
      2. 필드에 매개변수 값을 입력합니다.
      3. 여러 매개변수를 추가하려면 + 쿼리 매개변수 추가를 클릭합니다.

terraform을 사용하여 연결 만들기

Terraform 리소스를 사용하여 새 연결을 만들 수 있습니다.

Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.

연결 만들기를 위한 샘플 Terraform 템플릿을 보려면 샘플 템플릿을 참조하세요.

Terraform을 사용하여 이 연결을 만들 때는 Terraform 구성 파일에서 다음 변수를 설정해야 합니다.

매개변수 이름 데이터 유형 필수 설명
project_id STRING BigQuery 데이터 세트가 포함된 프로젝트의 ID입니다(예: myproject).
dataset_id STRING 거짓 프로젝트 이름이 없는 BigQuery 데이터 세트의 데이터 세트 ID입니다(예: mydataset).
proxy_enabled 부울 거짓 이 체크박스를 선택하여 연결의 프록시 서버를 구성합니다.
proxy_auth_scheme ENUM 거짓 ProxyServer 프록시에 인증하는 데 사용할 인증 유형입니다. 지원되는 값은 BASIC, DIGEST, NONE입니다.
proxy_user STRING 거짓 ProxyServer 프록시에 인증하는 데 사용할 사용자 이름입니다.
proxy_password SECRET 거짓 ProxyServer 프록시에 인증하는 데 사용할 비밀번호입니다.
proxy_ssltype ENUM 거짓 ProxyServer 프록시에 연결할 때 사용할 SSL 유형입니다. 지원되는 값은 AUTO, ALWAYS, NEVER, TUNNEL입니다.

통합에서 BigQuery 연결 사용

연결을 만들면 Apigee Integration 및 Application Integration에서 사용할 수 있게 됩니다. 커넥터 태스크를 통해 통합에서 연결을 사용할 수 있습니다.

  • Apigee Integration에서 커넥터 태스크를 만들고 사용하는 방법을 알아보려면 커넥터 태스크를 참조하세요.
  • Application Integration에서 커넥터 태스크를 만들고 사용하는 방법을 이해하려면 커넥터 태스크를 참조하세요.

Google Cloud 커뮤니티에서 도움 받기

Google Cloud 커뮤니티에서 Cloud 포럼에 질문을 게시하고 이 커넥터에 대해 토론할 수 있습니다.

다음 단계