이 페이지에서는 Dataproc Metastore에서 메타데이터를 내보내는 방법을 설명합니다.
메타데이터 내보내기 기능을 사용하면 메타데이터를 포팅 가능한 스토리지 형식으로 저장할 수 있습니다.
데이터를 내보낸 후 또 다른 Dataproc Metastore 서비스 또는 자체 관리형 Hive Metastore(HMS)로 메타데이터를 가져올 수 있습니다.
메타데이터 내보내기 정보
Dataproc Metastore에서 메타데이터를 내보내면 서비스가 다음 파일 형식 중 하나로 데이터를 저장합니다.
- 폴더에 저장된 Avro 파일 집합
- Cloud Storage 폴더에 저장된 단일 MySQL 덤프 파일
Avro
Avro 기반 내보내기는 Hive 버전 2.3.6 및 3.1.2에서만 지원됩니다. Avro 파일을 내보내면 Dataproc Metastore가 데이터베이스의 각 테이블에 대해 <table-name>.avro
파일을 만듭니다.
Avro 파일을 내보내기 위해 Dataproc Metastore 서비스에서 MySQL 또는 Spanner 데이터베이스 유형을 사용할 수 있습니다.
MySQL
MySQL 기반 내보내기는 모든 Hive 버전에 지원됩니다. MySQL 파일을 내보내면 Dataproc Metastore가 모든 테이블 정보가 포함된 단일 SQL 파일을 만듭니다.
MySQL 파일을 내보내려면 Dataproc Metastore 서비스에서 MySQL 데이터베이스 유형을 사용해야 합니다. Spanner 데이터베이스 유형은 MySQL 가져오기를 지원하지 않습니다.
시작하기 전에
- 프로젝트에서 Dataproc Metastore를 사용 설정합니다.
- 프로젝트별 네트워킹 요구사항을 파악합니다.
- Dataproc Metastore 서비스를 만듭니다.
필요한 역할
Dataproc Metastore로 메타데이터를 내보내기 위해 필요한 권한을 얻으려면 관리자에게 다음 IAM 역할을 부여해 달라고 요청하세요.
-
메타데이터를 내보내려면 다음 중 하나가 필요합니다.
-
Dataproc Metastore 서비스에 대한 Dataproc Metastore 편집자 역할(
roles/metastore.editor
) -
Dataproc Metastore 서비스에 대한 Dataproc Metastore 관리자 역할(
roles/metastore.admin
) -
Dataproc Metastore 서비스에 대한 Dataproc Metastore 메타데이터 연산자 역할(
roles/metastore.metadataOperator
)
-
Dataproc Metastore 서비스에 대한 Dataproc Metastore 편집자 역할(
- MySQL 및 Avro의 경우 내보내기에 Cloud Storage 객체를 사용하려면 사용자 계정 및 Dataproc Metastore 서비스 에이전트에 Cloud Storage 버킷에 대한 스토리지 생성자 역할(
roles/storage.objectCreator
)을 부여합니다.
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이러한 사전 정의된 역할에는 메타데이터를 Dataproc Metastore로 내보내는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
Dataproc Metastore로 메타데이터를 내보내려면 다음 권한이 필요합니다.
-
메타데이터를 내보내려면 메타스토어 서비스에 대한
metastore.services.export
권한이 필요합니다. -
MySQL 및 Avro의 경우 내보내기를 위해 Cloud Storage 객체를 사용하려면 사용자 계정 및 Dataproc Metastore 서비스 에이전트에 Cloud Storage 버킷에 대한
storage.objects.create
권한을 부여합니다.
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
특정 Dataproc Metastore 역할 및 권한에 대한 자세한 내용은 Dataproc Metastore IAM 개요를 참조하세요.메타데이터 내보내기
메타데이터를 내보내기 전에 다음 고려사항을 참조하세요.
- 내보내기를 실행하는 동안에는 구성 설정 변경과 같이 Dataproc Metastore 서비스를 업데이트할 수 없습니다. 그러나 연결된 Dataproc 또는 자체 관리형 클러스터에서 메타데이터에 액세스할 때와 같이 여전히 일반적인 작업에 사용할 수 있습니다.
- 메타데이터 내보내기 기능은 메타데이터만 내보냅니다. 내부 테이블의 Apache Hive에서 생성된 데이터는 내보내기를 수행할 때 복제되지 않습니다.
Dataproc Metastore 서비스에서 메타데이터를 내보내려면 다음 단계를 수행합니다.
콘솔
Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.
Dataproc Metastore 페이지에서 메타데이터를 내보내려는 서비스의 이름을 클릭합니다.
서비스 세부정보 페이지가 열립니다.
탐색 메뉴에서 내보내기를 클릭합니다.
메타데이터 내보내기 페이지가 열립니다.
대상 섹션에서 MySQL 또는 Avro를 선택합니다.
대상 URI 필드에서 찾아보기를 클릭하고 파일을 내보내려는 Cloud Storage URI를 클릭합니다.
또한 제공된 텍스트 필드에 버킷 위치를 입력할 수도 있습니다.
bucket/object
또는bucket/folder/object
형식을 사용하세요.내보내기를 시작하려면 제출을 클릭합니다.
완료되면 가져오기/내보내기 탭의 서비스 세부정보 페이지에 있는 테이블에 내보내기가 표시됩니다.
내보내기가 완료되면 내보내기 성공 여부에 관계없이 Dataproc Metastore가 자동으로 활성 상태로 돌아갑니다.
gcloud CLI
서비스에서 메타데이터를 내보내려면 다음
gcloud metastore services export gcs
명령어를 실행합니다.gcloud metastore services export gcs SERVICE \ --location=LOCATION \ --destination-folder=gs://bucket-name/path/to/folder \ --dump-type=DUMP_TYPE
다음을 바꿉니다.
SERVICE
: Dataproc Metastore 서비스 이름입니다.LOCATION
: Dataproc Metastore 서비스가 있는 Google Cloud 리전입니다.bucket-name/path/to/folder
: 내보내기를 저장할 Cloud Storage 대상 폴더입니다.DUMP_TYPE
: 내보내기로 생성할 데이터베이스 덤프 유형입니다. 허용되는 값은mysql
및avro
입니다. 기본값은mysql
입니다.
내보내기가 성공했는지 확인합니다.
내보내기가 완료되면 내보내기 성공 여부에 관계없이 Dataproc Metastore가 자동으로 활성 상태로 돌아갑니다.
REST
API 안내에 따라 API 탐색기를 사용하여 서비스로 메타데이터 내보내기를 수행합니다.
내보내기가 완료되면 성공 여부에 관계없이 서비스가 자동으로 활성 상태로 돌아갑니다.
내보내기 기록 보기
Google Cloud 콘솔에서 Dataproc Metastore 서비스의 내보내기 기록을 보려면 다음 단계를 완료합니다.
- Google Cloud 콘솔에서 Dataproc Metastore 페이지를 엽니다.
탐색 메뉴에서 가져오기/내보내기를 클릭합니다.
내보내기 기록이 내보내기 기록 테이블에 표시됩니다.
기록에는 내보내기가 최대 25개까지 표시됩니다.
Dataproc Metastore 서비스를 삭제하면 연관된 모든 내보내기 기록도 삭제됩니다.
일반적인 문제 해결
일반적인 문제에는 다음이 포함됩니다.
일반적인 문제 해결을 위한 도움이 필요하면 가져오기 및 내보내기 오류 시나리오를 참조하세요.