Puedes instalar componentes adicionales, como Apache Pig, al crear un clúster de Dataproc mediante la función Componentes opcionales. En esta página se describe el componente Pig, una plataforma de código abierto para analizar grandes conjuntos de datos.
Instalar el componente
Instala el componente al crear un clúster de Dataproc.
Apache Pig es un componente opcional de Dataproc 2.3
y versiones posteriores.
Consulta las versiones de Dataproc compatibles para ver las versiones de los componentes incluidas en las últimas versiones de la imagen de Dataproc.
gcloud
Para crear un clúster de Dataproc que incluya el componente Pig, usa el comando
gcloud dataproc clusters create CLUSTER_NAME
con la marca --optional-components
(con la versión de imagen
2.3 o posterior).
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
API REST
El componente Pig se puede especificar a través de la API Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.
Consola
Habilita el componente:
- En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. Se selecciona el panel Configurar clúster.
- En la sección Componentes, en Componentes opcionales, selecciona Pig y otros componentes opcionales para instalarlos en el clúster.