Guía de confiabilidad de Dataflow

Last reviewed 2023-08-07 UTC

Dataflow es un servicio de procesamiento de datos completamente administrado que permite el desarrollo rápido y simplificado de canalizaciones de transmisión de datos mediante bibliotecas de código abierto de Apache Beam. Dataflow minimiza la latencia, el tiempo de procesamiento y el costo mediante el ajuste de escala automático y el procesamiento por lotes.

prácticas recomendadas

Compila canalizaciones de datos listas para la producción mediante Dataflow: una serie de documentos sobre el uso de Dataflow, que incluye la planificación, el desarrollo, la implementación y la supervisión de canalizaciones de Dataflow.

  • Descripción general: Introducción a las canalizaciones de Dataflow.
  • Planificación: medir los SLO, comprender el impacto de las fuentes de datos y los receptores en la escalabilidad y el rendimiento de la canalización, y tener en cuenta la alta disponibilidad, la recuperación ante desastres y el rendimiento de la red cuando se especifican regiones para ejecutar los trabajos de Dataflow
  • Desarrollo y pruebas: Configura entornos de implementación, evita la pérdida de datos mediante colas de mensajes no entregados para el manejo de errores y reduce la latencia y los costos, ya que minimiza las operaciones costosas por elemento. Además, usa el procesamiento por lotes para reducir la sobrecarga del rendimiento sin sobrecargar los servicios externos, la fusión de pasos fusionados de forma inadecuada a fin de que los pasos se separen para un mejor rendimiento y la ejecución de pruebas de extremo a extremo en la producción previa para garantizar que la canalización cumpla con tus SLO y otra producción.
  • Implementación: Integración continua (CI) y, también, implementación continua (CD), con consideraciones especiales para implementar versiones nuevas de canalizaciones de transmisión. Además, un ejemplo de canalización de CI/CD y algunas funciones para optimizar el uso de recursos. Por último, un análisis de la alta disponibilidad, la redundancia geográfica y las prácticas recomendadas para la confiabilidad de las canalizaciones, que incluyen el aislamiento regional, el uso de instantáneas, el manejo de errores de envío de trabajos y la recuperación de errores y las interrupciones que afectan a las canalizaciones en ejecución.
  • Supervisión: Observa los indicadores de nivel de servicio (SLI) que son indicadores importantes del rendimiento de la canalización, y define y mide los objetivos de nivel de servicio (SLO)./