Descubre y consume productos de datos en una malla de datos

Last reviewed 2022-10-06 UTC

Te recomendamos que diseñes la malla de datos a fin de admitir una amplia variedad de casos prácticos para el consumo de datos. En este documento, se describen los casos prácticos de consumo de datos más comunes en una organización. En el documento, también se analiza qué información deben tener en cuenta los consumidores a la hora de determinar el producto de datos correcto para su caso de uso y cómo descubren y usan los productos de datos. Comprender estos factores puede ayudar a las organizaciones a garantizar que tengan la orientación y las herramientas adecuadas para brindar asistencia a los consumidores de datos.

Este documento forma parte de una serie en la que se describe cómo implementar una malla de datos en Google Cloud. Se supone que leíste y que estás familiarizado con los conceptos descritos en Arquitectura y funciones en una malla de datos y Compila una malla de datos moderna y distribuida con Google Cloud.

La serie tiene las siguientes partes:

El diseño de una capa de consumo de datos, en particular, cómo los consumidores basados en dominios de datos usan productos de datos, depende de los requisitos del consumidor de datos. Como requisito previo, se supone que los consumidores tienen un caso de uso en mente. Se supone que identificaron los datos que requieren y que pueden buscar en el catálogo de productos de datos centrales para encontrarlos. Si esos datos no están en el catálogo o no están en el estado deseado (por ejemplo, si la interfaz no es apropiada o los ANS no son suficientes), el consumidor debe comunicarse con el productor de datos.

Como alternativa, el consumidor puede comunicarse con el centro de excelencia (COE) a fin de obtener la malla de datos para obtener consejos sobre qué dominio es más adecuado para producir ese producto de datos. Los consumidores de datos también pueden preguntar cómo realizar su solicitud. Si tu organización es grande, debería haber un proceso para mostrar las solicitudes de productos de datos de forma automática.

Los consumidores de datos usan productos de datos a través de las aplicaciones que ejecutan. El tipo de estadística necesario impulsa la elección del diseño de la aplicación que consume datos. Cuando desarrolla el diseño de la aplicación, el consumidor de datos también identifica su uso preferido de productos de datos en la aplicación. Establecen la confianza que necesitan en la confiabilidad de esos datos. Luego, los consumidores de datos pueden establecer una vista en las interfaces del producto de datos y los ANS que requiere la aplicación.

Casos de uso del consumo de datos

Para que los consumidores de datos creen aplicaciones de datos, las fuentes pueden ser uno o más productos de datos y, quizás, los datos del propio dominio del consumidor de datos. Como se describe en Compila productos de datos en una malla de datos, los productos de datos estadísticos podrían crearse a partir de productos de datos que se basan en varios repositorios de datos físicos.

Aunque el consumo de datos puede ocurrir dentro del mismo dominio, los patrones de consumo más comunes son los que buscan el producto de datos correcto, sin importar el dominio, como la fuente de la aplicación. Cuando el producto de datos correcto existe en otro dominio, el patrón de consumo requiere que configures el mecanismo posterior para el acceso y uso de los datos en los dominios. El consumo de productos de datos creados en dominios distintos del dominio de consumo se analiza en Pasos de consumo de datos.

Arquitectura

En el siguiente diagrama, se muestra una situación de ejemplo en la que los consumidores usan productos de datos a través de una variedad de interfaces, incluidos los conjuntos de datos autorizados y las API.

Situaciones de consumo de datos, que se explican en el siguiente texto

Como se muestra en el diagrama anterior, el productor de datos expuso cuatro interfaces de productos de datos: dos conjuntos de datos autorizados de BigQuery, un conjunto de datos de BigQuery expuesto por la API de lectura de almacenamiento de BigQuery y las API de acceso a los datos alojados en Google Kubernetes Engine. En el uso de los productos de datos, los consumidores de datos usan un rango de aplicaciones que consultan o acceden directamente a los recursos de datos dentro de los productos de datos. Para esta situación, los consumidores de datos acceden a los recursos de datos de una de dos maneras diferentes según sus requisitos de acceso a datos específicos. En primer lugar, Looker usa BigQuery SQL para consultar un conjunto de datos autorizado. En la segunda, Dataproc accede directamente a un conjunto de datos a través de la API de BigQuery y, luego, procesa esos datos transferidos para entrenar un modelo de aprendizaje automático (AA).

El uso de una aplicación de consumo de datos no siempre puede dar como resultado un informe de inteligencia empresarial (IE) o un panel de IE. El consumo de datos desde un dominio también puede dar como resultado modelos de AA que enriquecen aún más los productos analíticos, se usan en el análisis de datos o son parte de procesos operativos, por ejemplo, la detección de fraude.

Estos son algunos casos típicos de uso de productos de consumo de datos:

  • Informes de BI y análisis de datos: En este caso, las aplicaciones de datos están compiladas para consumir datos de varios productos de datos. Por ejemplo, los consumidores de datos del equipo de administración de relaciones con clientes (CRM) necesitan acceso a los datos de varios dominios, como ventas, clientes y finanzas. La aplicación de CRM que se desarrolla por estos consumidores de datos puede necesitar consultar una vista autorizada de BigQuery en un dominio y extraer datos de una API de lectura de Cloud Storage en otro dominio. Para los consumidores de datos, los factores de optimización que influyen en su interfaz de consumo preferida son los costos de procesamiento y cualquier procesamiento de datos adicional que se requiera después de consultar el producto de datos. En casos prácticos de análisis de datos y BI, es probable que las vistas autorizadas de BigQuery se usen con mayor frecuencia.
  • Casos prácticos de ciencia de datos y entrenamiento de modelos: En este caso, el equipo de consumo de datos usa los productos de datos de otros dominios para enriquecer sus propios productos de datos analíticos, como un modelo de AA. Mediante Dataproc sin servidores para Spark, Google Cloud proporciona capacidades de procesamiento previo de datos y de ingeniería de atributos para habilitar el enriquecimiento de datos antes de ejecutar tareas de AA. La consideración clave es la disponibilidad de suficientes cantidades de datos de entrenamiento a un precio razonable y la confianza en que los datos de entrenamiento son adecuados. Para mantener los costos bajos, es probable que las interfaces de consumo preferidas sean API de lectura directa. Es posible que un equipo de consumo de datos compile un modelo de AA como un producto de datos y, a su vez, ese equipo de consumo de datos también se convierte en un nuevo equipo de producción de datos.
  • Procesos de operador: El consumo es parte del proceso operativo dentro del dominio del consumo de datos. Por ejemplo, un consumidor de datos en un equipo que trabaja con fraude podría estar usando datos de transacción provenientes de fuentes de datos operativas en el dominio del comercio. Mediante un método de integración de datos, como la captura de datos modificados, estos datos de transacción se interceptan casi en tiempo real. Luego, puedes usar Pub/Sub para definir un esquema de estos datos y exponer esa información como eventos. En este caso, las interfaces adecuadas serían los datos expuestos como temas de Pub/Sub.

Pasos para el consumo de datos

Los productores de datos documentan su producto de datos en el catálogo central, incluida la guía sobre cómo consumir los datos. Para una organización con varios dominios, este enfoque de documentación crea una arquitectura diferente de la canalización ELT/ETL tradicionalmente compilada, en la que los procesadores crean resultados sin el límite de los dominios empresariales. Los consumidores de datos en una malla de datos deben tener una capa de descubrimiento y consumo bien diseñada para crear un ciclo de vida de consumo de datos. La capa debe incluir lo siguiente:

Paso 1: Descubre productos de datos mediante la búsqueda declarativa y la exploración de especificaciones de productos de datos: Los consumidores de datos pueden buscar cualquier producto de datos que los productores de datos hayan registrado en el catálogo central. Para todos los productos de datos, la etiqueta de producto de datos especifica cómo realizar solicitudes de acceso a los datos y el modo de consumo de datos desde la interfaz de producto de datos requerida. Los campos de las etiquetas de productos de datos se pueden buscar mediante una aplicación de búsqueda. Las interfaces de los productos de datos implementan URI de datos, lo que significa que no es necesario mover los datos a una zona de consumo independiente para los consumidores de servicios. En situaciones en las que no se necesitan datos en tiempo real, los consumidores consultan productos de datos y crean informes con los resultados que se generan.

Paso 2: Explora datos a través del acceso interactivo a los datos y prototipado: los consumidores de datos usan herramientas interactivas como el lugar de trabajo de BigQuery SQL y los notebooks de Jupyter para interpretar y experimentar con los datos a fin de definir mejor los datos consultas que necesitan para su uso en producción. Las consultas interactivas permiten que los consumidores de datos exploren dimensiones más nuevas de datos y mejoren la precisión de las estadísticas generadas en situaciones de producción.

Paso 3: Consume productos de datos a través de una aplicación con acceso programático y producción:

  • Informes de IE. Los paneles y los informes por lotes y en tiempo real son el grupo más común de casos de uso de estadísticas que requieren los consumidores de datos. Los informes pueden requerir el acceso de productos a varios datos para ayudar a facilitar la toma de decisiones. Por ejemplo, una plataforma de datos de clientes requiere consultar de manera programática pedidos y datos de productos de CRM de manera programada. Los resultados de este enfoque proporcionan una vista integral del cliente a los usuarios empresariales que consumen los datos.
  • Modelo de IA/AA para predicción por lotes y en tiempo real. Los científicos de datos usan principios comunes de MLOps para compilar y entregar modelos de AA que consumen productos de datos puestos a disposición de los equipos de productos de datos. Los modelos de AA proporcionan capacidades de inferencia en tiempo real para casos prácticos transaccionales como la detección de fraudes. Del mismo modo, con el análisis de datos exploratorio, los consumidores de datos pueden enriquecer los datos de origen. Por ejemplo, el análisis exploratorio de datos sobre las campañas de marketing y ventas muestra los segmentos demográficos de los clientes en los que se espera que las ventas sean más altas y, por lo tanto, dónde se deben ejecutar las campañas.

¿Qué sigue?