PostgreSQL 이전 예약

PostgreSQL용 BigQuery Data Transfer Service 커넥터를 사용하면 사용자가 PostgreSQL 인스턴스에서 BigQuery로 데이터를 전송하는 주문형 및 반복 데이터 전송 작업을 만들 수 있습니다. 이 커넥터는 온프레미스 환경, Cloud SQL, Amazon Web Services (AWS) 및 Microsoft Azure와 같은 기타 퍼블릭 클라우드 제공업체에 호스팅된 PostgreSQL 인스턴스를 지원합니다.

제한사항

PostgreSQL 데이터 전송에는 다음과 같은 제한사항이 적용됩니다.

  • 단일 PostgreSQL 데이터베이스에 대한 동시 전송 실행 최대 수는 PostgreSQL 데이터베이스에서 지원하는 최대 동시 연결 수에 따라 결정됩니다. 동시 전송 작업 수는 PostgreSQL 데이터베이스에서 지원하는 최대 동시 연결 수보다 작은 값으로 제한해야 합니다.
  • PostgreSQL에서는 데이터 손실을 방지하기 위해 일부 데이터 유형이 BigQuery의 문자열 유형에 매핑됩니다. 예를 들어 정밀도와 척도가 정의되지 않은 PostgreSQL에 정의된 숫자 유형은 BigQuery의 문자열 유형에 매핑됩니다.

시작하기 전에

필요한 역할

Pub/Sub의 전송 실행 알림을 설정하려면 pubsub.topics.setIamPolicy Identity and Access Management (IAM) 권한이 있는지 확인합니다. 이메일 알림만 설정한다면 Pub/Sub 권한은 필요하지 않습니다. 자세한 내용은 BigQuery Data Transfer Service 실행 알림을 참조하세요.

PostgreSQL 데이터 전송을 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 BigQuery 관리자 (roles/bigquery.admin) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 PostgreSQL 데이터 전송을 만드는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

PostgreSQL 데이터 전송을 만들려면 다음 권한이 필요합니다.

  • bigquery.transfers.update
  • bigquery.datasets.get

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

네트워크 연결

PostgreSQL 데이터베이스 연결에 공개 IP 주소를 사용할 수 없는 경우 네트워크 연결을 설정해야 합니다.

필요한 네트워크 설정에 관한 자세한 안내는 다음 문서를 참고하세요.

PostgreSQL 데이터 전송 설정

다음 옵션 중 하나를 선택합니다.

콘솔

  1. 데이터 전송 페이지로 이동합니다.

    데이터 전송으로 이동

  2. 전송 만들기를 클릭합니다.

  3. 소스 유형 섹션의 소스에서 PostgreSQL을 선택합니다.

  4. 전송 구성 이름 섹션의 표시 이름에 전송 이름을 입력합니다. 전송 이름은 나중에 수정해야 할 경우를 대비해 전송을 식별할 수 있는 값이면 됩니다.

  5. 일정 옵션 섹션에서 다음을 수행합니다.

    • 반복 빈도를 선택합니다. 시간, (기본값), 또는 옵션을 선택하는 경우 빈도도 지정해야 합니다. 커스텀 옵션을 선택하여 더 구체적인 반복 빈도를 만들 수도 있습니다. 주문형 옵션을 선택하면 수동으로 전송을 트리거할 때만 이 데이터 전송이 실행됩니다.
    • 해당하는 경우 지금 시작 또는 설정 시간에 시작 옵션을 선택하고 시작 날짜와 실행 시간을 제공합니다.
  6. 대상 설정 섹션의 데이터 세트에서 데이터를 저장하기 위해 만든 데이터 세트를 선택하거나 새 데이터 세트 만들기를 클릭하고 대상 데이터 세트로 사용할 데이터 세트를 만듭니다.

  7. 데이터 소스 세부정보 섹션에서 다음을 수행합니다.

    • 네트워크 연결의 경우 기존 네트워크 연결을 선택하거나 네트워크 연결 만들기를 클릭합니다. 자세한 내용은 이 문서의 네트워크 연결 섹션을 참고하세요.
    • 호스트에 PostgreSQL 데이터베이스 서버의 호스트 이름 또는 IP 주소를 입력합니다.
    • 포트 번호에 PostgreSQL 데이터베이스 서버의 포트 번호를 입력합니다.
    • 데이터베이스 이름에 PostgreSQL 데이터베이스 이름을 입력합니다.
    • 사용자 이름에는 PostgreSQL 데이터베이스 연결을 시작하는 PostgreSQL 사용자의 사용자 이름을 입력합니다.
    • 비밀번호에 PostgreSQL 데이터베이스 연결을 시작하는 PostgreSQL 사용자의 비밀번호를 입력합니다.
    • 전송할 PostgreSQL 객체의 경우 다음 중 하나를 실행합니다.

      • 찾아보기를 클릭하여 전송에 필요한 PostgreSQL 테이블을 선택한 다음 선택을 클릭합니다.
      • 전송할 PostgreSQL 객체에 테이블 이름을 직접 입력합니다.

    전송 만들기 페이지의 데이터 소스 세부정보

  8. 선택사항: 서비스 계정 메뉴에서 전송을 승인할 맞춤 서비스 계정을 지정합니다. 사용 중인 서비스 계정에 필요한 역할 및 권한이 모두 있는지 확인합니다. 자세한 내용은 서비스 계정으로 소유자 이전을 참고하세요.

  9. 선택사항: 알림 옵션 섹션에서 다음을 수행합니다.

    • 이메일 알림을 사용 설정하려면 이메일 알림 전환 버튼을 클릭하여 사용 설정합니다. 이 옵션을 사용 설정하면 전송 실행이 실패할 때 전송 관리자에게 이메일 알림이 발송됩니다.
    • 전송에 대한 Pub/Sub 실행 알림을 구성하려면 Pub/Sub 알림 전환 버튼을 클릭하여 사용 설정합니다. 주제 이름을 선택하거나 주제 만들기를 클릭하여 주제를 만들 수 있습니다.
  10. 저장을 클릭합니다.

bq

bq mk 명령어를 입력하고 전송 생성 플래그 --transfer_config를 지정합니다.

bq mk \
    --transfer_config \
    --project_id=PROJECT_ID \
    --data_source=DATA_SOURCE \
    --display_name=DISPLAY_NAME \
    --target_dataset=DATASET \
    --params='PARAMETERS'

다음을 바꿉니다.

  • PROJECT_ID (선택사항): Google Cloud 프로젝트 ID입니다. 특정 프로젝트를 지정하는 --project_id 플래그가 입력되지 않으면 기본 프로젝트가 사용됩니다.
  • DATA_SOURCE: 데이터 소스(postgresql)입니다.
  • DISPLAY_NAME: 데이터 전송 구성의 표시 이름입니다. 전송 이름은 나중에 수정해야 할 경우를 대비해 간편하게 전송을 식별할 수 있는 값이면 됩니다.
  • DATASET. 데이터 전송 구성의 대상 데이터 세트입니다.
  • PARAMETERS: JSON 형식으로 생성된 전송 구성의 매개변수입니다. 예를 들면 --params='{"param":"param_value"}'입니다. 다음은 PostgreSQL 전송의 매개변수입니다.

    • networkAttachment (선택사항): PostgreSQL 데이터베이스에 연결할 네트워크 연결의 이름입니다.
    • connector.database: PostgreSQL 데이터베이스의 이름입니다.
    • connector.endpoint.host: 데이터베이스의 호스트 이름 또는 IP 주소입니다.
    • connector.endpoint.port: 데이터베이스의 포트 번호입니다.
    • connector.authentication.username: 데이터베이스 사용자의 사용자 이름입니다.
    • connector.authentication.password: 데이터베이스 사용자의 비밀번호입니다.
    • assets: 전송의 일부로 PostgreSQL 데이터베이스에서 전송할 PostgreSQL 테이블 이름 목록입니다.

예를 들어 다음 명령어는 My Transfer라는 PostgreSQL 전송을 만듭니다.

bq mk \
    --transfer_config \
    --target_dataset=mydataset \
    --data_source=postgresql \
    --display_name='My Transfer' \
    --params='{"assets":["DB1/PUBLIC/DEPARTMENT","DB1/PUBLIC/EMPLOYEES"], \
        "connector.authentication.username": "User1", \
        "connector.authentication.password":"ABC12345", \
        "connector.database":"DB1", \
        "Connector.endpoint.host":"192.168.0.1", \
        "Connector.endpoint.port":"1520"}' 

API

projects.locations.transferConfigs.create 메서드를 사용하고 TransferConfig 리소스의 인스턴스를 제공합니다.

데이터 유형 매핑

다음 표는 PostgreSQL 데이터 유형을 상응하는 BigQuery 데이터 유형에 매핑합니다.

PostgreSQL 데이터 유형 BigQuery 데이터 유형
bigint INTEGER
bigserial INTEGER
bit(n) STRING
bit varying(n) STRING
boolean BOOLEAN
bytea BYTES
character STRING
character varying STRING
double precision FLOAT
integer INTEGER
numeric(precision, scale)/decimal(precision, scale) NUMERIC
real FLOAT
smallint INTEGER
smallserial INTEGER
serial INTEGER
text INTEGER
date DATE
time [ (p) ] [ without timezone ] TIMESTAMP
time [ (p) ] with time zone TIMESTAMP
timestamp [ (p) ] [ without timezone ] TIMESTAMP
timestamp [ (p) ] with time zone TIMESPAMP
xml STRING
tsquery STRING
tsvector STRING
uuid STRING
box STRING
cidr STRING
circle STRING
inet STRING
interval STRING
json STRING
jsonb STRING
line STRING
lseg STRING
macaddr STRING
macaddr8 STRING
money STRING
path STRING
point STRING
polygon STRING

문제 해결

데이터 전송을 설정하는 데 문제가 있으면 PostgreSQL 전송 문제를 참고하세요.

다음 단계