Crea un lake

En esta guía, se muestra cómo crear un lake de Dataplex con la consola de Google Cloud, gcloud CLI o el método de la API de lakes.create.

Puedes crear tu lake en cualquiera de las regiones que admitan Dataplex.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery y Cloud Storage. .

    Habilita las API

  5. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  7. Habilita las API de Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery y Cloud Storage. .

    Habilita las API

Control de acceso

  1. Asegúrate de tener las funciones predefinidas roles/dataplex.admin o roles/dataplex.editor para que puedas crear y administrar tu lake. Sigue los pasos en la documentación de IAM para otorgar funciones.

  2. Para adjuntar un bucket de Cloud Storage de otro proyecto a tu lake, otorga a la siguiente cuenta de servicio de Dataplex un rol de administrador en el bucket mediante la ejecución del siguiente comando:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un almacén de metadatos

Puedes acceder a los metadatos de Dataplex mediante Hive Metastore en las consultas de Spark si asocias una instancia de servicio de Dataproc Metastore con tu lake de Dataplex. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex.

  1. Crea un servicio de Dataproc Metastore.

  2. Configura la instancia de servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta la siguiente solicitud de actualización a la API:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Visualiza el extremo de gRPC. Ejecuta el siguiente comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake de Dataplex.

En los siguientes pasos, se muestra cómo crear un lake de Dataplex.

Console

  1. Ve a Dataplex en la consola de Google Cloud.

    Ir a Dataplex

  2. Navega hasta la vista Administrar.

  3. Haga clic en Crear.

  4. Ingresa un Nombre visible.

  5. El ID del lake se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta Convención de nomenclatura de recursos.

  6. Ingresa una Descripción (opcional).

  7. Especifica la región en la que se creará el lake.

    En el caso de los lakes creados en una región determinada (por ejemplo, us-central1), se pueden adjuntar los datos de una sola región (us-central1) y los de varias regiones (us multi-region), según la configuración de la zona.

  8. Opcional: Agrega etiquetas a tu lake.

  9. Opcional: En la sección Metastore, haz clic en el menú desplegable Servicio de Metastore y selecciona el servicio que creaste en la sección Antes de comenzar.

  10. Haz clic en Crear.

gcloud

Usa el siguiente comando de gcloud preview dataplex lake create para crear un lago:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Reemplaza lo siguiente:

  • LAKE: Es el nombre del lake nuevo.
  • LOCATION: Se refiere a una región de Google Cloud.
  • k1=v1,k2=v2,k3=v3: Son las etiquetas que se usan (si las hubiera).
  • METASTORE_SERVICE: El servicio de Dataproc Metastore, si se creó uno.

REST

Sigue las instrucciones de la API para crear un lake mediante el Explorador de API.

Próximos pasos