Compila una malla de datos


Puedes usar Dataplex para compilar una arquitectura de malla de datos. En esta guía, se muestra cómo usar las funciones de Dataplex, como un lake, zonas y recursos, para compilar una malla de datos.

Una malla de datos es un enfoque organizativo y técnico que descentraliza la propiedad de los datos entre los propietarios de datos de dominio. Estos propietarios proporcionan los datos como un producto de manera estándar y facilitan la comunicación entre diferentes partes de la organización para distribuir conjuntos de datos en diferentes ubicaciones. Obtén más información sobre las arquitecturas de la malla de datos.

Objetivos

En esta guía, usarás las entidades de Dataplex para compilar una arquitectura de malla de datos:

  • Crea un lake de Dataplex que actúe como el dominio de tu malla de datos.
  • Agrega zonas a tu lake que representen a equipos individuales dentro de cada dominio y proporcionan contratos de datos administrados.
  • Adjunta recursos que se asignen a datos almacenados en Cloud Storage.

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Cuando finalices las tareas que se describen en este documento, puedes borrar los recursos que creaste para evitar que continúe la facturación. Para obtener más información, consulta Cómo realizar una limpieza.

Antes de comenzar

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Habilita la API de Dataplex.

    Habilita la API de Dataplex

  4. Crea un servicio de Dataproc Metastore.

Crea un bucket de Cloud Storage

Necesitas un bucket de Cloud Storage para almacenar los recursos de datos de tu malla de datos.

Sigue los pasos para crear un bucket de Cloud Storage y:

  • Asígnale un nombre al bucket.
  • En Tipo de ubicación, elige Región y selecciona us-central1 (Iowa) en el menú desplegable.

Crea un dominio

  1. En la consola de Google Cloud, ve a la página de Dataplex:

    Ir a Dataplex

  2. Navega hasta la vista Administrar.

  3. Haz clic en Crear para crear un lake nuevo, que actuará como tu malla de datos.

  4. En el campo Nombre visible, ingresa My data mesh.

  5. En Región, selecciona us-central1.

  6. Selecciona el servicio de Dataproc Metastore que creaste y configuraste como el almacén de metadatos asociado.

  7. Haz clic en Crear.

Crea zonas en tu lake

Después de crear un dominio mediante la creación de un lake de Dataplex, puedes alojar contratos de datos administrados y equipos individuales dentro del dominio mediante zonas. Hay dos tipos de zonas:

  • Por lo general, las zonas sin procesar se usan para almacenar datos en cualquier formato desde fuentes externas en Cloud Storage. Las zonas sin procesar son útiles en el caso de los datos que requieren un procesamiento adicional antes de que estén listos para el consumo.

  • Las zonas seleccionadas se usan para los datos estructurados en Cloud Storage que deben cumplir con ciertos formatos de archivo y están organizadas en un diseño de directorio compatible con Hive. Son más útiles para los datos que están listos para consumo y análisis.

Cada dominio (por ejemplo, sales, customers y products) debe tener, al menos, una zona sin procesar y una seleccionada.

Las zonas adicionales se usan para administrar los contratos de datos entre equipos o proporcionar un desglose más detallado de los equipos dentro de un dominio determinado. Por ejemplo, la administración de inventario dentro del dominio del producto. Los propietarios pueden administrar los datos dentro de su dominio y acceder a ellos.

  1. En Dataplex, en la consola de Google Cloud, navega a la vista Administrar.

  2. Haz clic en el nombre del lake (My data mesh) al que deseas agregar una zona.

  3. En la pestaña Zonas, haz clic en Agregar zona.

  4. En el campo Nombre visible, ingresa My sub domain. Dataplex genera un ID para tu zona de forma automática.

    NOTA: El nombre de la zona se convierte en el nombre de un conjunto de datos de BigQuery. Por lo tanto, todas las zonas alojadas en el mismo proyecto de Google Cloud deben tener un ID único, incluso si existen en diferentes lakes.

  5. En Tipo, selecciona Zona sin procesar.

  6. Haz clic en Crear.

Adjunta recursos a tus zonas

Adjunta recursos de datos a tu zona. Un recurso de datos, los recursos de almacenamiento que contienen tus datos, pueden ser un bucket de Cloud Storage o un conjunto de datos de BigQuery. Este es el último paso para crear la arquitectura de la malla de datos.

  1. En la vista Administrar de Dataplex, haz clic en el lake que creaste (My data mesh).

  2. En la pestaña Zonas, haz clic en la zona (My sub domain) en la que quieres agregar el recurso.

  3. En la pestaña Assets, haz clic en Add assets

  4. Haz clic en Add an Asset.

  5. En Tipo, selecciona Bucket de Cloud Storage.

  6. En el campo Nombre visible , ingresa Data mesh asset. Dataplex genera automáticamente un ID de recurso por ti.

  7. En el campo Bucket, haz clic en Explorar.

    1. Selecciona tu bucket de la lista.
    2. Haz clic en Seleccionar.
  8. Haz clic en Listo y, luego, en Continuar.

  9. Haz clic en Continuar para aceptar la Configuración avanzada predeterminada.

  10. Haz clic en Enviar para agregar el bucket de Cloud Storage como un recurso de datos a tu zona.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Borra la arquitectura de la malla de datos

  1. En Dataplex, en la consola de Google Cloud, navega a la vista Administrar.

  2. En el lake que deseas borrar, haz clic en Ver más y, luego, en Borrar.

  3. Para confirmar la acción, ingresa delete y haz clic en Delete lake.

¿Qué sigue?