PostgreSQL 이전 예약
PostgreSQL용 BigQuery Data Transfer Service 커넥터를 사용하면 사용자가 PostgreSQL 인스턴스에서 BigQuery로 데이터를 전송하는 주문형 및 반복 데이터 전송 작업을 만들 수 있습니다. 이 커넥터는 온프레미스 환경, Cloud SQL, Amazon Web Services (AWS) 및 Microsoft Azure와 같은 기타 퍼블릭 클라우드 제공업체에 호스팅된 PostgreSQL 인스턴스를 지원합니다.
제한사항
PostgreSQL 데이터 전송에는 다음과 같은 제한사항이 적용됩니다.
- 단일 PostgreSQL 데이터베이스에 대한 동시 전송 실행 최대 수는 PostgreSQL 데이터베이스에서 지원하는 최대 동시 연결 수에 따라 결정됩니다. 동시 전송 작업 수는 PostgreSQL 데이터베이스에서 지원하는 최대 동시 연결 수보다 작은 값으로 제한해야 합니다.
- PostgreSQL에서는 데이터 손실을 방지하기 위해 일부 데이터 유형이 BigQuery의 문자열 유형에 매핑됩니다. 예를 들어 정밀도와 척도가 정의되지 않은 PostgreSQL에 정의된 숫자 유형은 BigQuery의 문자열 유형에 매핑됩니다.
시작하기 전에
- PostgreSQL 데이터베이스에 사용자를 만듭니다.
- BigQuery Data Transfer Service 사용 설정에 필요한 모든 작업을 완료했는지 확인합니다.
- 데이터를 저장할 BigQuery 데이터세트를 만듭니다.
- 이 문서의 작업을 완료하려면 필수 역할이 있어야 합니다.
필요한 역할
Pub/Sub의 전송 실행 알림을 설정하려면 pubsub.topics.setIamPolicy
Identity and Access Management (IAM) 권한이 있는지 확인합니다. 이메일 알림만 설정한다면 Pub/Sub 권한은 필요하지 않습니다. 자세한 내용은 BigQuery Data Transfer Service 실행 알림을 참조하세요.
PostgreSQL 데이터 전송을 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 BigQuery 관리자 (roles/bigquery.admin
) IAM 역할을 부여해 달라고 요청하세요.
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이 사전 정의된 역할에는 PostgreSQL 데이터 전송을 만드는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
PostgreSQL 데이터 전송을 만들려면 다음 권한이 필요합니다.
-
bigquery.transfers.update
-
bigquery.datasets.get
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
네트워크 연결
PostgreSQL 데이터베이스 연결에 공개 IP 주소를 사용할 수 없는 경우 네트워크 연결을 설정해야 합니다.
필요한 네트워크 설정에 관한 자세한 안내는 다음 문서를 참고하세요.
- Cloud SQL에서 이전하는 경우 Cloud SQL 인스턴스 액세스 구성을 참고하세요.
- AWS에서 이전하는 경우 AWS-Google Cloud VPN 및 네트워크 연결 설정을 참고하세요.
- Azure에서 이전하는 경우 Azure-Google Cloud VPN 및 네트워크 연결 설정을 참고하세요.
PostgreSQL 데이터 전송 설정
다음 옵션 중 하나를 선택합니다.
콘솔
데이터 전송 페이지로 이동합니다.
전송 만들기를 클릭합니다.
소스 유형 섹션의 소스에서 PostgreSQL을 선택합니다.
전송 구성 이름 섹션의 표시 이름에 전송 이름을 입력합니다. 전송 이름은 나중에 수정해야 할 경우를 대비해 전송을 식별할 수 있는 값이면 됩니다.
일정 옵션 섹션에서 다음을 수행합니다.
- 반복 빈도를 선택합니다. 시간, 일(기본값), 주 또는 월 옵션을 선택하는 경우 빈도도 지정해야 합니다. 커스텀 옵션을 선택하여 더 구체적인 반복 빈도를 만들 수도 있습니다. 주문형 옵션을 선택하면 수동으로 전송을 트리거할 때만 이 데이터 전송이 실행됩니다.
- 해당하는 경우 지금 시작 또는 설정 시간에 시작 옵션을 선택하고 시작 날짜와 실행 시간을 제공합니다.
대상 설정 섹션의 데이터 세트에서 데이터를 저장하기 위해 만든 데이터 세트를 선택하거나 새 데이터 세트 만들기를 클릭하고 대상 데이터 세트로 사용할 데이터 세트를 만듭니다.
데이터 소스 세부정보 섹션에서 다음을 수행합니다.
- 네트워크 연결의 경우 기존 네트워크 연결을 선택하거나 네트워크 연결 만들기를 클릭합니다. 자세한 내용은 이 문서의 네트워크 연결 섹션을 참고하세요.
- 호스트에 PostgreSQL 데이터베이스 서버의 호스트 이름 또는 IP 주소를 입력합니다.
- 포트 번호에 PostgreSQL 데이터베이스 서버의 포트 번호를 입력합니다.
- 데이터베이스 이름에 PostgreSQL 데이터베이스 이름을 입력합니다.
- 사용자 이름에는 PostgreSQL 데이터베이스 연결을 시작하는 PostgreSQL 사용자의 사용자 이름을 입력합니다.
- 비밀번호에 PostgreSQL 데이터베이스 연결을 시작하는 PostgreSQL 사용자의 비밀번호를 입력합니다.
전송할 PostgreSQL 객체의 경우 다음 중 하나를 실행합니다.
- 찾아보기를 클릭하여 전송에 필요한 PostgreSQL 테이블을 선택한 다음 선택을 클릭합니다.
- 전송할 PostgreSQL 객체에 테이블 이름을 직접 입력합니다.
선택사항: 서비스 계정 메뉴에서 전송을 승인할 맞춤 서비스 계정을 지정합니다. 사용 중인 서비스 계정에 필요한 역할 및 권한이 모두 있는지 확인합니다. 자세한 내용은 서비스 계정으로 소유자 이전을 참고하세요.
선택사항: 알림 옵션 섹션에서 다음을 수행합니다.
저장을 클릭합니다.
bq
bq mk
명령어를 입력하고 전송 생성 플래그 --transfer_config
를 지정합니다.
bq mk \ --transfer_config \ --project_id=PROJECT_ID \ --data_source=DATA_SOURCE \ --display_name=DISPLAY_NAME \ --target_dataset=DATASET \ --params='PARAMETERS'
다음을 바꿉니다.
- PROJECT_ID (선택사항): Google Cloud 프로젝트 ID입니다.
특정 프로젝트를 지정하는
--project_id
플래그가 입력되지 않으면 기본 프로젝트가 사용됩니다. - DATA_SOURCE: 데이터 소스(
postgresql
)입니다. - DISPLAY_NAME: 데이터 전송 구성의 표시 이름입니다. 전송 이름은 나중에 수정해야 할 경우를 대비해 간편하게 전송을 식별할 수 있는 값이면 됩니다.
- DATASET. 데이터 전송 구성의 대상 데이터 세트입니다.
PARAMETERS: JSON 형식으로 생성된 전송 구성의 매개변수입니다. 예를 들면
--params='{"param":"param_value"}'
입니다. 다음은 PostgreSQL 전송의 매개변수입니다.networkAttachment
(선택사항): PostgreSQL 데이터베이스에 연결할 네트워크 연결의 이름입니다.connector.database
: PostgreSQL 데이터베이스의 이름입니다.connector.endpoint.host
: 데이터베이스의 호스트 이름 또는 IP 주소입니다.connector.endpoint.port
: 데이터베이스의 포트 번호입니다.connector.authentication.username
: 데이터베이스 사용자의 사용자 이름입니다.connector.authentication.password
: 데이터베이스 사용자의 비밀번호입니다.assets
: 전송의 일부로 PostgreSQL 데이터베이스에서 전송할 PostgreSQL 테이블 이름 목록입니다.
예를 들어 다음 명령어는 My Transfer
라는 PostgreSQL 전송을 만듭니다.
bq mk \ --transfer_config \ --target_dataset=mydataset \ --data_source=postgresql \ --display_name='My Transfer' \ --params='{"assets":["DB1/PUBLIC/DEPARTMENT","DB1/PUBLIC/EMPLOYEES"], \ "connector.authentication.username": "User1", \ "connector.authentication.password":"ABC12345", \ "connector.database":"DB1", \ "Connector.endpoint.host":"192.168.0.1", \ "Connector.endpoint.port":"1520"}'
API
projects.locations.transferConfigs.create
메서드를 사용하고 TransferConfig
리소스의 인스턴스를 제공합니다.
데이터 유형 매핑
다음 표는 PostgreSQL 데이터 유형을 상응하는 BigQuery 데이터 유형에 매핑합니다.
PostgreSQL 데이터 유형 | BigQuery 데이터 유형 |
---|---|
bigint |
INTEGER |
bigserial |
INTEGER |
bit(n) |
STRING |
bit varying(n) |
STRING |
boolean |
BOOLEAN |
bytea |
BYTES |
character |
STRING |
character varying |
STRING |
double precision |
FLOAT |
integer |
INTEGER |
numeric(precision, scale)/decimal(precision, scale) |
NUMERIC |
real |
FLOAT |
smallint |
INTEGER |
smallserial |
INTEGER |
serial |
INTEGER |
text |
INTEGER |
date |
DATE |
time [ (p) ] [ without timezone ] |
TIMESTAMP |
time [ (p) ] with time zone |
TIMESTAMP |
timestamp [ (p) ] [ without timezone ] |
TIMESTAMP |
timestamp [ (p) ] with time zone |
TIMESPAMP |
xml |
STRING |
tsquery |
STRING |
tsvector |
STRING |
uuid |
STRING |
box |
STRING |
cidr |
STRING |
circle |
STRING |
inet |
STRING |
interval |
STRING |
json |
STRING |
jsonb |
STRING |
line |
STRING |
lseg |
STRING |
macaddr |
STRING |
macaddr8 |
STRING |
money |
STRING |
path |
STRING |
point |
STRING |
polygon |
STRING |
문제 해결
데이터 전송을 설정하는 데 문제가 있으면 PostgreSQL 전송 문제를 참고하세요.
다음 단계
- BigQuery Data Transfer Service 개요는 BigQuery Data Transfer Service란 무엇인가요?를 참고하세요.
- 전송 구성 정보 가져오기, 전송 구성 나열, 전송 실행 기록 보기를 포함한 전송 사용에 대한 정보는 전송 관리를 참조하세요.
- 교차 클라우드 작업으로 데이터를 로드하는 방법을 알아보세요.