Crea un lake

En esta guía, se muestra cómo crear un lago de Dataplex con la console de Google Cloud, gcloud CLI o el método de la API de lakes.create.

Puedes crear tu lake en cualquiera de las regiones que a Dataplex.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Control de acceso

  1. Asegúrate de tener los roles predefinidos roles/dataplex.admin o roles/dataplex.editor para poder crear y administrar tu lago. Sigue los pasos de la documentación de IAM para otorgar roles.

  2. Para conectar un bucket de Cloud Storage de otro proyecto a tu lago, ejecuta el siguiente comando para otorgar a la siguiente cuenta de servicio de Dataplex un rol de administrador en el bucket:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un almacén de metadatos

Puedes acceder a los metadatos de Dataplex con Hive Metastore en Spark las consultas mediante la asociación de instancia de servicio de Dataproc Metastore con tu Lake de Dataplex. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex.

  1. Crea un servicio de Dataproc Metastore.

  2. Configura la instancia del servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta el siguiente solicitud de actualización a la API:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Visualiza el extremo de gRPC. Ejecuta el siguiente comando:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake de Dataplex.

En los siguientes pasos, se muestra cómo crear un lago de Dataplex.

Console

  1. Ve a Dataplex en la consola de Google Cloud.

    Ve a Dataplex.

  2. Ve a la vista Administrar.

  3. Haga clic en Crear.

  4. Ingresa un Nombre visible.

  5. El ID del lake se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta Convención de nombres de recursos.

  6. Ingresa una Descripción (opcional).

  7. Especifica la región en la que se creará el lake.

    En el caso de los lakes creados en una región determinada (por ejemplo, us-central1), ambas Datos de una sola región (us-central1) y datos multirregionales (us multi-region) según la configuración de la zona.

  8. Opcional: Agrega etiquetas a tu lake.

  9. Opcional: En la sección Metastore, haz clic en el servicio de Metastore. y selecciona el servicio que creaste en la sección Antes de comenzar sección.

  10. Haz clic en Crear.

gcloud

Usa el siguiente comando de gcloud preview dataplex lake create para crear un lago:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Reemplaza lo siguiente:

  • LAKE: Es el nombre del nuevo lake.
  • LOCATION: Se refiere a una región de Google Cloud.
  • k1=v1,k2=v2,k3=v3: Son las etiquetas usadas (si las hay).
  • METASTORE_SERVICE: Es el servicio de Dataproc Metastore, si se creó uno.

REST

Sigue las instrucciones de la API para crear un lake con el Explorador de APIs.

Próximos pasos