En esta guía, se muestra cómo crear un lago de Dataplex con la
console de Google Cloud, gcloud CLI o el método de la API de lakes.create
.
Puedes crear tu lake en cualquiera de las regiones que a Dataplex.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Control de acceso
Asegúrate de tener los roles predefinidos
roles/dataplex.admin
oroles/dataplex.editor
para poder crear y administrar tu lago. Sigue los pasos de la documentación de IAM para otorgar roles.Para conectar un bucket de Cloud Storage de otro proyecto a tu lago, ejecuta el siguiente comando para otorgar a la siguiente cuenta de servicio de Dataplex un rol de administrador en el bucket:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un almacén de metadatos
Puedes acceder a los metadatos de Dataplex con Hive Metastore en Spark las consultas mediante la asociación de instancia de servicio de Dataproc Metastore con tu Lake de Dataplex. Debes tener un Dataproc Metastore habilitado para gRPC (versión 3.1.2 o posterior) asociado con el lake de Dataplex.
Crea un servicio de Dataproc Metastore.
Configura la instancia del servicio de Dataproc Metastore para exponer un extremo de gRPC (en lugar del extremo predeterminado de Thrift Metastore). Ejecuta el siguiente solicitud de actualización a la API:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Visualiza el extremo de gRPC. Ejecuta el siguiente comando:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake de Dataplex.
En los siguientes pasos, se muestra cómo crear un lago de Dataplex.
Console
Ve a Dataplex en la consola de Google Cloud.
Ve a Dataplex.
Ve a la vista Administrar.
Haga clic en
Crear.Ingresa un Nombre visible.
El ID del lake se genera automáticamente. Si lo prefieres, puedes proporcionar tu propio ID. Consulta Convención de nombres de recursos.
Ingresa una Descripción (opcional).
Especifica la región en la que se creará el lake.
En el caso de los lakes creados en una región determinada (por ejemplo,
us-central1
), ambas Datos de una sola región (us-central1
) y datos multirregionales (us multi-region
) según la configuración de la zona.Opcional: Agrega etiquetas a tu lake.
Opcional: En la sección Metastore, haz clic en el servicio de Metastore. y selecciona el servicio que creaste en la sección Antes de comenzar sección.
Haz clic en Crear.
gcloud
Usa el siguiente comando de gcloud preview dataplex lake create
para crear un lago:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Reemplaza lo siguiente:
LAKE
: Es el nombre del nuevo lake.LOCATION
: Se refiere a una región de Google Cloud.k1=v1,k2=v2,k3=v3
: Son las etiquetas usadas (si las hay).METASTORE_SERVICE
: Es el servicio de Dataproc Metastore, si se creó uno.
REST
Sigue las instrucciones de la API para crear un lake con el Explorador de APIs.
Próximos pasos
- Obtén más información sobre cómo organizar tus datos.
en lakes y zonas.
- Agrega zonas a tu lake.
- Conecta recursos a tus zonas.
- Obtén más información para proteger tu lake.
- Obtén información para administrar tu lago.