En esta guía, se muestra cómo crear un lake de Dataplex mediante Google Cloud Console, gcloud CLI o el método de la API lakes.create
.
Puedes crear tu lake en cualquiera de las regiones que admitan Dataplex.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery y Cloud Storage. .
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery y Cloud Storage. .
Control de acceso
Asegúrate de tener los roles predefinidos
roles/dataplex.admin
oroles/dataplex.editor
que se te otorgaron para que puedas crear y administrar tu lake. Sigue los pasos que se indican en la documentación de IAM para otorgar funciones.Para adjuntar un bucket de Cloud Storage de otro proyecto a tu lake, otórgale a la siguiente cuenta de servicio de Dataplex un rol de administrador en el bucket mediante la ejecución del siguiente comando:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un almacén de metadatos
Puedes acceder a los metadatos de Dataplex con Hive Metastore en Spark queries si asocias una instancia de servicio de Dataproc Metastore con tu lake de Dataplex. Debes tener un Dataproc Metastore habilitado (gRPC 3.1.2 o una versión posterior) asociado con el data Lake de Dataplex.
Crea un servicio de Dataproc Metastore.
Configura la instancia de servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta la siguiente solicitud a la API de actualización:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Visualiza el extremo de gRPC. Ejecuta el siguiente comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake de Dataplex.
En los siguientes pasos, se muestra cómo crear un lake de Dataplex.
Consola
Ve a Dataplex en Google Cloud Console.
Ir a Dataplex
Navega a la vista Administrar.
Haga clic en
Crear.Ingresa un nombre visible.
El ID del lake se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta convención de asignación de nombres de recursos.
Ingresa una Descripción (opcional).
Especifica la región en la que se creará el lake.
En el caso de los lakes creados en una región determinada (por ejemplo,
us-central1
), se pueden conectar datos de una sola región (us-central1
) y multirregionales (us multi-region
) según la configuración de la zona.Opcional: Agrega etiquetas a tu lake.
Opcional: En la sección Metastore, haz clic en el menú desplegable Metastore y selecciona el servicio que creaste en la sección Antes de comenzar.
Haz clic en Crear.
gcloud
Usa el siguiente comando de gcloud preview dataplex lake create
para crear un lake:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Reemplaza lo siguiente:
LAKE
: Es el nombre del lake nuevo.LOCATION
: Se refiere a una región de Google Cloud.k1=v1,k2=v2,k3=v3
: Son las etiquetas utilizadas (si las hubiera).METASTORE_SERVICE
: El servicio de Dataproc Metastore, si se creó uno.
REST
Sigue las instrucciones de la API para crear un lake con el Explorador de API.
Próximos pasos
- Aprende a organizar tus datos en lakes y zonas.
- Agrega zonas a tu lake.
- Adjunta recursos a tus zonas.
- Aprende a proteger tu lake.
- Aprende a administrar tu lake.