Puedes usar Dataplex Universal Catalog para crear una arquitectura de malla de datos. En esta guía de inicio rápido se explica cómo utilizar funciones de Dataplex Universal Catalog, como los lagos, las zonas y los recursos, para crear una malla de datos.
Una malla de datos es un enfoque organizativo y técnico que descentraliza la propiedad de los datos entre los propietarios de los datos del dominio. Estos propietarios proporcionan los datos como un producto de forma estándar y facilitan la comunicación entre las distintas partes de la organización para distribuir los conjuntos de datos en diferentes ubicaciones. Más información sobre las arquitecturas de malla de datos
Objetivos
En esta guía, usarás las entidades de Dataplex Universal Catalog para crear una arquitectura de malla de datos:
- Crea un lago de Dataplex Universal Catalog que actúe como dominio de tu malla de datos.
- Añade zonas a tu lake que representen a equipos concretos de cada dominio y proporciona contratos de datos gestionados.
- Adjunta recursos que se correspondan con los datos almacenados en Cloud Storage.
Costes
En este documento, se utilizan los siguientes componentes facturables de Google Cloud:
Para generar una estimación de costes basada en el uso previsto,
utiliza la calculadora de precios.
Cuando termines las tareas que se describen en este documento, puedes evitar que se te siga facturando eliminando los recursos que has creado. Para obtener más información, consulta la sección Limpiar.
Antes de empezar
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles.
Crea un segmento de Cloud Storage
Necesitarás un segmento de Cloud Storage para almacenar los recursos de datos de tu malla de datos.
Para crear un segmento de Cloud Storage, sigue las instrucciones de Crear un segmento de Cloud Storage. Cuando lo hagas, ten en cuenta lo siguiente:
- Asigna un nombre al segmento.
- En Tipo de ubicación, elige Región y, en el menú, selecciona us-central1 (Iowa).
Crear un dominio
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en Crear para crear un lago, que actuará como tu malla de datos.
En el campo Nombre visible, introduce
My data mesh
.En Región, selecciona
us-central1
.Selecciona el servicio de Dataproc Metastore que has creado y configurado anteriormente como metastore asociado.
Haz clic en Crear.
Crear zonas en un lago
Después de crear un dominio creando un lago de Universal Catalog de Dataplex, puedes alojar contratos de datos gestionados y equipos individuales en el dominio mediante zonas. Hay dos tipos de zonas:
Las zonas sin procesar se suelen usar para almacenar datos en cualquier formato de fuentes externas en Cloud Storage. Las zonas sin procesar son útiles para los datos que requieren un procesamiento adicional antes de que estén listos para su consumo.
Las zonas de curación se usan para datos estructurados de Cloud Storage que deben cumplir determinados formatos de archivo y se organizan en un diseño de directorio compatible con Hive. Son más útiles para los datos que están listos para el consumo y el análisis.
Cada dominio (por ejemplo, sales
, customers
y products
) debe tener al menos una zona sin procesar y una zona seleccionada.
Las zonas adicionales se usan para gestionar contratos de datos entre equipos o para proporcionar un desglose más detallado de los equipos de un dominio concreto. Por ejemplo, la gestión del inventario en el dominio del producto. Los propietarios de los datos pueden gestionar los datos de su dominio y acceder a ellos.
En la Google Cloud consola, ve a la vista Gestionar de Dataplex Universal Catalog.
Haz clic en el nombre del lago (
My data mesh
) al que quieras añadir una zona.En la pestaña Zonas, haz clic en
Añadir zona.En el campo Nombre visible, introduce
My sub domain
. Dataplex Universal Catalog genera automáticamente un ID para tu zona.En Type (Tipo), selecciona Raw zone (Zona sin procesar).
Haz clic en Crear.
Adjuntar recursos a tus zonas
Adjunta recursos de datos a tu zona. Un recurso de datos, que son los recursos de almacenamiento que contienen tus datos, puede ser un segmento de Cloud Storage o un conjunto de datos de BigQuery. Este es el último paso para crear tu arquitectura de malla de datos.
En la vista Gestionar de Dataplex Universal Catalog, haz clic en el lago que has creado (
My data mesh
).En la pestaña Zonas, haga clic en la zona (
My sub domain
) a la que quiera añadir el recurso.En la pestaña Recursos, haga clic en
Añadir recursos.Haz clic en Añadir un recurso.
En Type (Tipo), selecciona Cloud Storage bucket (Segmento de Cloud Storage).
En el campo Nombre visible , introduce
Data mesh asset
. Dataplex Universal Catalog genera automáticamente un ID de recurso.En el campo Bucket (Contenedor), haz clic en Browse (Explorar).
- Selecciona tu contenedor en la lista.
- Haz clic en Seleccionar.
Haz clic en Hecho y, a continuación, en Continuar.
Haz clic en Continuar para aceptar la Configuración avanzada predeterminada.
Haz clic en Enviar.
Limpieza
Para evitar que los recursos utilizados en este tutorial se cobren en tu cuenta de Google Cloud, elimina el proyecto que contiene los recursos o conserva el proyecto y elimina los recursos.
Eliminar el proyecto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Eliminar tu arquitectura de malla de datos
En la Google Cloud consola, ve a la vista Gestionar de Dataplex Universal Catalog.
En el lago que quieras eliminar, haz clic en
Ver más y, a continuación, en Eliminar.Para confirmar la acción, introduce
delete
y haz clic en Eliminar lago.
Siguientes pasos
- Información sobre las tareas de tratamiento de datos
- Consulta información sobre el descubrimiento de datos.
- Consulta cómo usar tareas de calidad de los datos.