Desarrollar y poner en marcha flujos de procesamiento de transformaciones de datos escalables en BigQuery mediante SQL.
Desarrollar tablas seleccionadas, actualizadas, fiables y documentadas en BigQuery
Permite a los analistas e ingenieros de datos colaborar en el mismo repositorio de código
Crear flujos de procesamiento de datos escalables en BigQuery con SQL
Integración con GitHub y GitLab
Desarrollar flujos de procesamiento de datos directamente en BigQuery Studio
Ventajas
Simplificar la arquitectura de tratamiento de datos
Desarrolla y usa flujos de procesamiento de datos escalables en BigQuery con SQL desde un solo entorno, incluidas las funciones de flujos de procesamiento de datos y preparación de datos de BigQuery Studio.
Colaborar mediante prácticas de desarrollo de software
Con Dataform, los equipos de datos gestionan las definiciones de recursos de datos y su código SQL siguiendo las prácticas recomendadas de ingeniería de software, como el control de versiones, los entornos, las pruebas y la documentación.
Crea flujos de procesamiento de SQL de producción
Dataform abstrae la complejidad de crear flujos de procesamiento de SQL. Los analistas de datos pueden gestionar dependencias, configurar pruebas de calidad de datos y orquestar flujos de procesamiento complejos con SQL.
Características principales
Dataform Core permite a los ingenieros y analistas de datos crear de forma centralizada definiciones de tablas, configurar dependencias, añadir descripciones a las columnas y hacer afirmaciones de calidad de los datos en un único repositorio mediante SQL.
Las funciones de Dataform Core se pueden adoptar de forma incremental y aditiva sin modificar el código.
Dataform Core es de código abierto y se puede usar de forma local. De este modo, los usuarios no tendrán dependencia de nadie en ningún caso y podrán seguir usándolas de forma más avanzada.
Dataform gestiona la infraestructura operativa para actualizar tus tablas siguiendo las dependencias entre ellas y usando la última versión de tu código. Puedes hacer un seguimiento de la información sobre el linaje y los datos fácilmente gracias a las integraciones con Dataform. Activa los flujos de trabajo de SQL manualmente o prográmalos a través de Managed Service for Apache Airflow, Workflows, los flujos de procesamiento de datos de BigQuery Studio o servicios de terceros.
Define tablas, corrige problemas con mensajes de error en tiempo real, visualiza dependencias, acepta los cambios en Git y programa flujos de procesamiento en cuestión de minutos desde una única interfaz, sin salir de tu navegador web.
Conecta tu repositorio con proveedores externos, como GitHub y GitLab. Comprométete con los cambios y envía o abre revisiones de código desde tu navegador web.
Documentación
Empieza a crear en Google Cloud con 300 USD en crédito de regalo y más de 20 productos que siempre se ofrecen sin coste económico.