이 문서에서는 Dataform의 저장소 개념과 새 저장소를 만드는 방법을 이해하는 데 도움이 됩니다.
Dataform 저장소 정보
각 Dataform 저장소에는 워크플로를 구성하는 SQLX 및 JavaScript 파일 모음과 Dataform 구성 파일 및 패키지가 포함되어 있습니다. 개발 작업공간에서 저장소 콘텐츠와 상호작용합니다.
Dataform은 저장소 ID의 알파벳 순서로 Dataform 페이지에 저장소를 표시합니다. 이를 정렬하고 필터링할 수 있습니다.
저장소를 보려면 Google Cloud 콘솔에서 Dataform 페이지로 이동합니다.
각 Dataform 저장소는 서비스 계정에 연결됩니다. 저장소를 만들 때 서비스 계정을 선택하거나 나중에 서비스 계정을 수정할 수 있습니다.
기본적으로 Dataform은 프로젝트 번호에서 파생된 서비스 계정을 다음과 같은 형식으로 사용합니다.
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform은 Git를 사용해서 변경사항을 기록하고 파일 버전을 관리합니다. 각 Dataform 저장소는 Git 저장소에 해당합니다. Dataform 저장소를 만든 후에는 원격 GitHub, GitLab 또는 Bitbucket 저장소에 연결할 수 있습니다.
Dataform 저장소에서 Dataform이 저장소 코드를 저장합니다. 연결된 저장소에서 제3자 저장소는 저장소 코드를 저장합니다. Dataform은 제3자 저장소와 상호작용하여 Dataform 개발 작업공간에서 콘텐츠를 수정하고 실행할 수 있습니다.
Dataform 저장소 페이지는 다음 구성요소로 구성됩니다.
- 개발 작업공간 탭
- 저장소에 생성된 개발 작업공간을 표시합니다.
- 출시 구성 탭
- 출시를 검사, 생성, 수정, 삭제할 수 있습니다.
- 워크플로 실행 로그 탭
- Dataform 워크플로 실행 로그를 표시합니다.
- 워크플로 구성 탭
- 워크플로 구성을 검사, 생성, 수정, 삭제할 수 있습니다.
- 설정 탭
- 저장소의 이름과 위치를 표시합니다. 서드 파티 Git 저장소에 연결된 저장소의 경우 서드 파티 저장소 소스, 기본 브랜치 이름, 보안 비밀 토큰을 표시합니다. 제3자 Git 저장소에 저장소를 연결하고 Git 연결을 수정하는 버튼을 표시합니다.
- 개발 작업공간 만들기 버튼
- 개발 작업공간을 만들 수 있습니다.
개발 작업공간을 만들고 초기화한 후 워크플로 설정 파일을 편집하여 저장소의 다음 Dataform 설정을 구성할 수 있습니다.
- 기본 데이터베이스 (Google Cloud 프로젝트 ID)입니다.
- 기본 스키마(BigQuery 데이터 세트 ID)입니다.
- 기본 BigQuery 위치입니다.
- 어설션의 기본 스키마(BigQuery 데이터 세트 ID)입니다.
- 창고이며
bigquery
로 설정해야 합니다. - 컴파일 중에 프로젝트 코드에서 사용할 수 있는 사용자 정의 변수입니다.
Dataform 저장소 설정에 대한 자세한 내용은 Dataform Core 참조의 IProjectConfig를 참조하세요.
저장소 설정
Dataform 저장소를 만들 때 다음 저장소 설정을 지정해야 합니다.
- 저장소 ID
- 저장소의 고유 ID입니다. ID에는 숫자, 문자, 하이픈, 밑줄만 포함할 수 있습니다.
- 지역
저장소 및 콘텐츠를 저장할 Dataform 리전입니다.
이 저장소 리전은 Dataform에서 코드를 처리하고 실행 출력을 저장하는 처리 리전과 다를 수 있습니다. 기본적으로 처리 리전은 기본 BigQuery 데이터 세트 리전으로 설정됩니다. 저장소를 만든 후 워크플로 설정 파일에서 처리 리전을 수정할 수 있습니다. 자세한 내용은 Dataform 설정 구성을 참조하세요.
- 서비스 계정
저장소와 연결된 서비스 계정입니다. 기본 Dataform 서비스 계정, Google Cloud 프로젝트와 연결된 서비스 계정 또는 다른 서비스 계정을 직접 입력할 수 있습니다. 기본적으로 Dataform은 프로젝트 번호에서 파생된 서비스 계정을 다음과 같은 형식으로 사용합니다.
service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform은 모든 저장소 작업에 기본 서비스 계정을 사용합니다. 다른 서비스 계정을 사용하여 저장소에서 워크플로를 실행할 수 있지만 그래도 기본 서비스 계정이 다른 모든 저장소 작업에 사용됩니다.
- 암호화
저장소의 암호화 방법입니다. 기본 암호화, 고유한 고객 관리 Cloud KMS 암호화 키 또는 기본 Dataform CMEK 키를 사용할 수 있습니다. Dataform에서 고객 관리 암호화 키(CMEK)를 사용하는 방법에 대한 자세한 내용은 고객 관리 암호화 키 사용을 참조하세요.
저장소를 만든 후 GitHub 또는 GitLab에 연결할 수 있습니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
- 저장소에 CMEK 암호화를 사용하려면 Dataform 저장소의 CMEK 암호화를 사용 설정합니다.
필요한 역할
저장소를 만들고 삭제하는 데 필요한 권한을 얻으려면 관리자에게 저장소의 Dataform 관리자(roles/dataform.admin
) IAM 역할을 부여해 달라고 요청하세요.
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
기본 Dataform 서비스 계정 이외의 서비스 계정을 사용하려면 커스텀 서비스 계정에 액세스 권한을 부여합니다.
Dataform 저장소를 만들면 Dataform에서 해당 저장소에 대한 Dataform 관리자 역할을 자동으로 부여합니다.
저장소 만들기
Dataform 저장소를 만들려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 Dataform 페이지로 이동합니다.
저장소 만들기를 클릭합니다.
저장소 만들기 페이지의 저장소 ID 필드에 고유한 ID를 입력합니다.
ID에는 숫자, 문자, 하이픈, 밑줄만 포함할 수 있습니다.
리전 드롭다운 목록에서 저장소 및 콘텐츠를 저장할 Dataform 리전을 선택합니다. 현재 위치에서 가장 가까운 Dataform 리전을 선택하세요.
이용 가능한 Dataform 리전의 목록은 위치를 참조하세요. 저장소 리전은 BigQuery 데이터 세트의 위치와 일치하지 않아도 됩니다.
workflow_settings.yaml
파일에서 Dataform이 코드를 처리하고 실행 출력을 저장하는 처리 리전을 설정할 수 있습니다. 처리 리전은 BigQuery 데이터 세트의 위치와 일치해야 하지만 저장소 리전과는 일치하지 않아도 됩니다. 자세한 내용은 Dataform 설정 구성을 참조하세요.서비스 계정 드롭다운에서 저장소에 대한 서비스 계정을 선택합니다.
드롭다운에서 기본 Dataform 서비스 계정 또는 액세스 권한이 있는 Google Cloud 프로젝트와 연결된 서비스 계정을 선택할 수 있습니다. 커스텀 서비스 계정은 워크플로 실행에만 사용된다는 점에 유의하세요. 다른 모든 저장소 작업은 기본 Dataform 서비스 계정으로 계속 수행됩니다.
- (선택사항) 드롭다운에 표시되지 않은 서비스 계정을 선택하려면 수동으로 입력을 클릭하고 서비스 계정 ID를 입력합니다.
저장소에 선택한 암호화 메커니즘을 구성합니다.
기본 CMEK 키
Dataform은 기본 KMS 키 사용 체크박스를 표시하고 기본적으로 선택합니다.
- 기본 Dataform CMEK 키로 저장소를 암호화하려면 기본 KMS 키 사용 체크박스를 선택한 상태로 둡니다.
고유한 CMEK 키
고유한 CMEK 키로 저장소를 암호화하려면 다음 단계를 따르세요.
- 기본 KMS 키 사용 체크박스가 기본적으로 선택되어 있으면 체크박스를 선택 해제합니다.
- 암호화 섹션에서 고객 관리 암호화 키 (CMEK) 옵션을 선택합니다.
- 고객 관리 키 선택 드롭다운에서 고유한 CMEK 키를 선택합니다.
저장 데이터 암호화
- 기본 암호화를 사용하려면 암호화 섹션에서 Google-managed encryption key 옵션을 선택합니다.
만들기를 클릭한 후 완료를 클릭합니다.
서비스 계정 수정
워크플로 실행을 위해 커스텀 서비스 계정을 Dataform 저장소에 연결할 수 있습니다. 다른 모든 저장소 작업은 기본 Dataform 서비스 계정으로 계속 수행됩니다.
Dataform 저장소의 서비스 계정을 수정하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 Dataform 페이지로 이동합니다.
저장소를 선택한 후 설정을 클릭합니다.
서비스 계정 필드 옆에 있는
서비스 계정 수정을 클릭합니다.서비스 계정 드롭다운에서 저장소에 대한 서비스 계정을 선택합니다.
드롭다운에서 기본 Dataform 서비스 계정 또는 액세스 권한이 있는 Google Cloud 프로젝트와 연결된 서비스 계정을 선택할 수 있습니다.
- (선택사항) 드롭다운에 표시되지 않은 서비스 계정을 선택하려면 수동으로 입력을 클릭하고 서비스 계정 ID를 입력합니다.
저장을 클릭합니다.
저장소 삭제
저장소 및 저장소의 모든 콘텐츠를 삭제하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 Dataform 페이지로 이동합니다.
삭제하려는 저장소 옆의
더보기 메뉴를 클릭한 다음 삭제를 선택합니다.저장소 삭제 창에서 저장소 이름을 입력하여 삭제를 확인합니다.
삭제를 클릭합니다.
다음 단계
- Dataform 저장소를 서드 파티 Git 저장소에 연결하는 방법은 서드 파티 Git 저장소에 연결을 참고하세요.
- 저장소 크기가 Dataform의 개발에 미치는 영향을 알아보려면 저장소 크기 개요를 참고하세요.
- Dataform에서 저장소를 분할하는 방법에 대해 자세히 알아보려면 저장소 분할 소개를 참조하세요.
- Dataform 처리 설정을 구성하는 방법을 알아보려면 Dataform 설정 구성을 참고하세요.
- 작업공간을 만들고 초기화하는 방법은 작업공간 만들기를 참조하세요.