민감한 데이터를 보호하고 무단 액세스를 방지하려면 Dataproc 환경을 보호하는 것이 중요합니다. 이 문서에서는 네트워크 보안, Identity and Access Management, 암호화, 클러스터 구성 보호에 대한 권장사항을 포함하여 Dataproc 보안 상황을 개선하기 위한 주요 권장사항을 설명합니다.
네트워크 보안
비공개 VPC에 Dataproc 배포 Dataproc 클러스터 전용 가상 프라이빗 클라우드를 만들어 다른 네트워크 및 공용 인터넷과 격리합니다.
비공개 IP를 사용합니다. Dataproc 클러스터가 공개 인터넷에 노출되지 않도록 보호하려면 비공개 IP 주소를 사용하여 보안 및 격리를 강화하세요.
방화벽 규칙 구성 엄격한 방화벽 규칙을 구현하여 Dataproc 클러스터와 주고받는 트래픽을 제어합니다. 필요한 포트와 프로토콜만 허용합니다.
네트워크 피어링 사용 격리 수준을 강화하기 위해 Dataproc VPC와 다른 민감한 VPC 사이에 VPC 네트워크 피어링을 설정하여 통신을 제어합니다.
구성요소 게이트웨이를 사용 설정합니다. 클러스터를 만들 때 방화벽 포트를 여는 대신 YARN, HDFS 또는 Spark 서버 UI와 같은 Hadoop 생태계 UI에 안전하게 액세스하도록 클러스터를 만들 때 Dataproc 구성요소 게이트웨이를 사용 설정합니다.
Identity and Access Management
권한 격리 클러스터마다 서로 다른 데이터 영역 서비스 계정을 사용합니다. 서비스 계정에 클러스터가 워크로드를 실행하는 데 필요한 권한만 할당합니다.
Google Compute Engine(GCE) 기본 서비스 계정을 사용하지 않습니다. 클러스터에 기본 서비스 계정을 사용하지 않습니다.
최소 권한의 원칙을 준수합니다. Dataproc 서비스 계정 및 사용자에게 최소 필요 권한만 부여합니다.
역할 기반 액세스 제어(RBAC)를 적용합니다. 클러스터별 IAM 권한 설정을 고려합니다.
커스텀 역할을 사용합니다. Dataproc 환경 내에서 특정 직무에 맞게 세분화된 커스텀 IAM 역할을 만듭니다.
정기적으로 검토합니다. IAM 권한과 역할을 정기적으로 감사하여 과도하거나 사용되지 않는 권한을 식별하고 삭제합니다.
암호화
저장 데이터 암호화합니다. 저장 데이터 암호화의 경우 Cloud Key Management Service(KMS) 또는 고객 관리 암호화 키(CMEK)를 사용합니다. 또한 조직 정책을 사용하여 클러스터 생성의 저장 데이터 암호화를 시행합니다.
전송 중 데이터를 암호화합니다. Dataproc 구성요소(Hadoop 보안 모드 사용 설정)와 외부 서비스 간의 통신에 SSL/TLS를 사용 설정합니다. 이렇게 하면 이동 중인 데이터가 보호됩니다.
민감한 정보에 주의합니다. PII 또는 비밀번호와 같은 민감한 정보를 저장하고 전달할 때 주의합니다. 필요한 경우 암호화 및 비밀 관리 솔루션을 사용하세요.
클러스터 구성 보호
Kerberos를 사용하여 인증합니다. 클러스터 리소스에 대한 무단 액세스를 방지하려면 Kerberos 인증을 사용하여 Hadoop 보안 모드를 구현하세요. 자세한 내용은 Kerberos를 통한 멀티테넌시 보호를 참고하세요.
강력한 루트 주 구성원 비밀번호와 안전한 KMS 기반 스토리지를 사용합니다. Kerberos를 사용하는 클러스터의 경우 Dataproc는 클러스터에서 실행되는 모든 오픈소스 구성요소에 대해 보안 강화 기능을 자동으로 구성합니다.
OS 로그인을 사용 설정합니다. SSH를 사용하여 클러스터 노드를 관리할 때 보안을 강화하려면 OS 로그인을 사용 설정하세요.
Google Cloud Storage(GCS)에서 스테이징 및 임시 버킷을 분리합니다. 권한 격리를 보장하려면 각 Dataproc 클러스터의 스테이징 및 임시 버킷을 분리합니다.
Secret Manager를 사용하여 사용자 인증 정보를 저장합니다. Secret Manager는 API 키, 비밀번호, 인증서와 같은 민감한 정보를 보호할 수 있습니다. 이를 사용하여 Google Cloud에서 보안 비밀을 관리하고 액세스하고 감사합니다.
커스텀 조직별 제약조건을 사용합니다. 커스텀 조직 정책을 사용하여 Dataproc 클러스터에 대해 특정 작업을 허용 또는 거부할 수 있습니다. 예를 들어 클러스터 만들기나 업데이트 요청이 조직 정책에 설정된 대로 커스텀 제약조건 검증을 충족하지 못하면 요청이 실패하고 호출자에게 오류가 반환됩니다.
다음 단계
다른 Dataproc 보안 기능에 대해 자세히 알아보세요.