
Ejecuta tus cargas de trabajo de Spark y de código abierto más exigentes de forma más sencilla con un servicio gestionado, más inteligente con Gemini y más rápida con Lightning Engine.
Apache Spark es una marca de The Apache Software Foundation.
Lightning Engine para un rendimiento de Spark más de 4,3 veces más rápido y crear lakehouses abiertos
Preparado para la IA y el aprendizaje automático empresariales con compatibilidad con GPU e integración con Vertex AI
Seguridad y gobernanza empresariales para cargas de trabajo esenciales
Características
Acelera tus tareas de Spark más exigentes con Lightning Engine. Nuestro motor de nueva generación ofrece un rendimiento más de 4,3 veces más rápido con optimización gestionada, lo que reduce el TCO y el ajuste manual. Ya está disponible en vista previa para Dataproc.
Agiliza todo tu flujo de trabajo con Gemini. Recibe asistencia basada en IA para escribir y depurar código de PySpark, y usa Gemini Cloud Assist para obtener análisis automatizados de la causa raíz de las tareas fallidas o lentas, lo que reduce drásticamente el tiempo de solución de problemas\
Crea y pon en funcionamiento todo tu ciclo de vida de aprendizaje automático. Acelera el entrenamiento y la inferencia de los modelos con la compatibilidad con GPUs, la tecnología de NVIDIA RAPIDS™ y los entornos de ejecución de aprendizaje automático preconfigurados. Después, intégralos con el ecosistema de IA de Google Cloud para orquestar MLOps de principio a fin con Vertex AI Pipelines.
Conéctate de forma nativa a una arquitectura de lakehouse abierta. Procesa datos directamente desde BigQuery, orquesta MLOps con Vertex AI Pipelines y unifica la gobernanza de tus datos abiertos con BigLake y Dataplex Universal Catalog.
Adapta cada clúster de Dataproc a tus necesidades concretas. Desarrolla en Python, Scala o Java, elige entre una amplia gama de tipos de máquinas, usa acciones de inicialización para instalar software personalizado y trae tus propias imágenes de contenedor para disfrutar de la máxima portabilidad.
Evita depender de proveedores. Aunque Dataproc está optimizado para Apache Spark, admite más de 30 herramientas de código abierto, como Apache Hadoop, Flink, Trino y Presto. Se integra a la perfección con orquestadores populares como Airflow y se puede ampliar con Kubernetes y Docker para ofrecer la máxima flexibilidad.
Integración perfecta con tu posición de seguridad. Aprovecha la gestión de identidades y accesos para definir permisos granulares, Controles de Servicio de VPC para proteger la red y Kerberos para reforzar la autenticación en tu clúster de Spark.
Usos habituales
Migra fácilmente cargas de trabajo de Apache Hadoop y Spark on-premise. También es la ruta ideal para pasar de una solución de Spark autogestionada a un servicio totalmente gestionado. La compatibilidad de Dataproc con una amplia gama de versiones de Spark, incluidas las antiguas 2.x, simplifica la migración al reducir la necesidad de refactorizar el código de forma inmediata. Esto te permite aprovechar las competencias de software libre que ya tiene tu equipo para migrar a la nube más rápido.
Migra fácilmente cargas de trabajo de Apache Hadoop y Spark on-premise. También es la ruta ideal para pasar de una solución de Spark autogestionada a un servicio totalmente gestionado. La compatibilidad de Dataproc con una amplia gama de versiones de Spark, incluidas las antiguas 2.x, simplifica la migración al reducir la necesidad de refactorizar el código de forma inmediata. Esto te permite aprovechar las competencias de software libre que ya tiene tu equipo para migrar a la nube más rápido.
Usa Dataproc como motor de procesamiento de código abierto potente para tu lakehouse de datos moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos y los costosos movimientos de datos. Se integra a la perfección con BigQuery y el catálogo universal de Dataplex para ofrecer una plataforma de analíticas y gobierno de datos unificada y con varios motores.
Usa Dataproc como motor de procesamiento de código abierto potente para tu lakehouse de datos moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos y los costosos movimientos de datos. Se integra a la perfección con BigQuery y el catálogo universal de Dataplex para ofrecer una plataforma de analíticas y gobierno de datos unificada y con varios motores.
Crea y orquesta flujos de procesamiento de ETL de Spark complejos y de larga duración con fiabilidad y escalabilidad de nivel empresarial. Aprovecha funciones potentes como el autoescalado para optimizar los costes y el rendimiento, y usa plantillas de flujo de trabajo para automatizar y gestionar tus tareas más importantes de principio a fin.
Crea y orquesta flujos de procesamiento de ETL de Spark complejos y de larga duración con fiabilidad y escalabilidad de nivel empresarial. Aprovecha funciones potentes como el autoescalado para optimizar los costes y el rendimiento, y usa plantillas de flujo de trabajo para automatizar y gestionar tus tareas más importantes de principio a fin.
Proporciona a los equipos de ciencia de datos entornos de clúster de Spark potentes y personalizables para el entrenamiento de modelos a gran escala y la inferencia por lotes. Con los entornos de ejecución de aprendizaje automático preconfigurados y la compatibilidad con GPUs, puedes acelerar todo el ciclo de vida del aprendizaje automático e integrarlo con Vertex AI para crear y poner en funcionamiento flujos de procesamiento de MLOps integrales.
Proporciona a los equipos de ciencia de datos entornos de clúster de Spark potentes y personalizables para el entrenamiento de modelos a gran escala y la inferencia por lotes. Con los entornos de ejecución de aprendizaje automático preconfigurados y la compatibilidad con GPUs, puedes acelerar todo el ciclo de vida del aprendizaje automático e integrarlo con Vertex AI para crear y poner en funcionamiento flujos de procesamiento de MLOps integrales.
Ve más allá de Spark y Hadoop sin añadir sobrecarga operativa. Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de streaming o cualquier otro motor de código abierto especializado. Dataproc proporciona un plano de control unificado para gestionar este ecosistema diverso con la sencillez de un servicio gestionado.
Ve más allá de Spark y Hadoop sin añadir sobrecarga operativa. Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de streaming o cualquier otro motor de código abierto especializado. Dataproc proporciona un plano de control unificado para gestionar este ecosistema diverso con la sencillez de un servicio gestionado.
Precios
| Clústeres gestionados de Dataproc | Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. |
|---|---|
Componentes clave |
|
Ejemplo | Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD |
Clústeres gestionados de Dataproc
Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles.
Componentes clave
Ejemplo
Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD
Caso de negocio
Elabora el caso práctico de tu empresa para Google Dataproc
Las ventajas económicas de Google Cloud Dataproc y Serverless Spark frente a otras soluciones
Descubre cómo ofrece Dataproc un ahorro significativo en el coste total de propiedad y valor empresarial en comparación con las soluciones on-premise y otras soluciones en la nube.
En el informe:
Descubre cómo Dataproc y Serverless para Apache Spark pueden ofrecer un ahorro de costes de entre el 18% y el 60% en comparación con otras alternativas de Spark basadas en la nube.
Descubre cómo Google Cloud Serverless para Apache Spark puede ofrecer una relación calidad‑precio entre un 21% y un 55% mejor que otras ofertas de Spark sin servidor.
Descubre cómo Dataproc y Google Cloud Serverless para Apache Spark simplifican las implementaciones de Spark y ayudan a reducir la complejidad operativa.
Preguntas frecuentes
Elige Dataproc si necesitas un control preciso sobre tu entorno de clúster, vas a migrar cargas de trabajo de Hadoop o Spark, o necesitas un clúster persistente con un conjunto diverso de herramientas de código abierto. Consulta un desglose detallado de las diferencias en los modelos de gestión, las cargas de trabajo ideales y las estructuras de costes.
Sí. Dataproc es una plataforma unificada para la pila de datos moderna de código abierto. Admite más de 30 componentes, lo que te permite ejecutar clústeres dedicados para herramientas como Flink para el procesamiento de streaming o Trino para SQL interactivo, todo ello en un único servicio gestionado.
Tienes un alto grado de control. Dataproc te permite personalizar los tipos de máquinas, los tamaños de los discos y las configuraciones de red. También puedes usar acciones de inicialización para instalar software personalizado, usar tus propias imágenes de contenedor y aprovechar las VMs de acceso puntual para optimizar los costes.