Logotipo de Dataproc

Dataproc

Apache Spark y Hadoop gestionados con Google Dataproc

Ejecuta tus cargas de trabajo de Spark y de código abierto más exigentes de forma más sencilla con un servicio gestionado, más inteligente con Gemini y más rápida con Lightning Engine.

Apache Spark es una marca de The Apache Software Foundation.

Características

Rendimiento líder en el sector

Acelera tus tareas de Spark más exigentes con Lightning Engine. Nuestro motor de nueva generación ofrece un rendimiento más de 4,3 veces más rápido con optimización gestionada, lo que reduce el TCO y el ajuste manual. Ya está disponible en vista previa para Dataproc. 

Desarrollo y operaciones basados en IA

Agiliza todo tu flujo de trabajo con Gemini. Recibe asistencia basada en IA para escribir y depurar código de PySpark, y usa Gemini Cloud Assist para obtener análisis automatizados de la causa raíz de las tareas fallidas o lentas, lo que reduce drásticamente el tiempo de solución de problemas\

Preparado para la IA y el aprendizaje automático empresariales

Crea y pon en funcionamiento todo tu ciclo de vida de aprendizaje automático. Acelera el entrenamiento y la inferencia de los modelos con la compatibilidad con GPUs, la tecnología de NVIDIA RAPIDS™ y los entornos de ejecución de aprendizaje automático preconfigurados. Después, intégralos con el ecosistema de IA de Google Cloud para orquestar MLOps de principio a fin con Vertex AI Pipelines.

Integraciones de lakehouse potentes

Conéctate de forma nativa a una arquitectura de lakehouse abierta. Procesa datos directamente desde BigQuery, orquesta MLOps con Vertex AI Pipelines y unifica la gobernanza de tus datos abiertos con BigLake y Dataplex Universal Catalog.

Control y personalización inigualables

Adapta cada clúster de Dataproc a tus necesidades concretas. Desarrolla en Python, Scala o Java, elige entre una amplia gama de tipos de máquinas, usa acciones de inicialización para instalar software personalizado y trae tus propias imágenes de contenedor para disfrutar de la máxima portabilidad.

Diseñado para la pila de datos de código abierto moderna

Evita depender de proveedores. Aunque Dataproc está optimizado para Apache Spark, admite más de 30 herramientas de código abierto, como Apache Hadoop, Flink, Trino y Presto. Se integra a la perfección con orquestadores populares como Airflow y se puede ampliar con Kubernetes y Docker para ofrecer la máxima flexibilidad.

Seguridad de nivel empresarial

Integración perfecta con tu posición de seguridad. Aprovecha la gestión de identidades y accesos para definir permisos granulares, Controles de Servicio de VPC para proteger la red y Kerberos para reforzar la autenticación en tu clúster de Spark.

Cómo funciona

Configura clústeres personalizados y envía tareas de Spark para procesar datos de BigQuery y Cloud Storage. Gestiona el rendimiento y la gobernanza con monitorización y seguridad integradas.

Usos habituales

Migración a la nube

Migra fácilmente cargas de trabajo de Apache Hadoop y Spark on-premise. También es la ruta ideal para pasar de una solución de Spark autogestionada a un servicio totalmente gestionado. La compatibilidad de Dataproc con una amplia gama de versiones de Spark, incluidas las antiguas 2.x, simplifica la migración al reducir la necesidad de refactorizar el código de forma inmediata. Esto te permite aprovechar las competencias de software libre que ya tiene tu equipo para migrar a la nube más rápido.

    Migración a la nube

    Migra fácilmente cargas de trabajo de Apache Hadoop y Spark on-premise. También es la ruta ideal para pasar de una solución de Spark autogestionada a un servicio totalmente gestionado. La compatibilidad de Dataproc con una amplia gama de versiones de Spark, incluidas las antiguas 2.x, simplifica la migración al reducir la necesidad de refactorizar el código de forma inmediata. Esto te permite aprovechar las competencias de software libre que ya tiene tu equipo para migrar a la nube más rápido.

      Modernización de lakehouse

      Usa Dataproc como motor de procesamiento de código abierto potente para tu lakehouse de datos moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos y los costosos movimientos de datos. Se integra a la perfección con BigQuery y el catálogo universal de Dataplex para ofrecer una plataforma de analíticas y gobierno de datos unificada y con varios motores.

        Modernización de lakehouse

        Usa Dataproc como motor de procesamiento de código abierto potente para tu lakehouse de datos moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos y los costosos movimientos de datos. Se integra a la perfección con BigQuery y el catálogo universal de Dataplex para ofrecer una plataforma de analíticas y gobierno de datos unificada y con varios motores.

          Ingeniería de datos

          Crea y orquesta flujos de procesamiento de ETL de Spark complejos y de larga duración con fiabilidad y escalabilidad de nivel empresarial. Aprovecha funciones potentes como el autoescalado para optimizar los costes y el rendimiento, y usa plantillas de flujo de trabajo para automatizar y gestionar tus tareas más importantes de principio a fin.

          Snap quote

          Ingeniería de datos

          Crea y orquesta flujos de procesamiento de ETL de Spark complejos y de larga duración con fiabilidad y escalabilidad de nivel empresarial. Aprovecha funciones potentes como el autoescalado para optimizar los costes y el rendimiento, y usa plantillas de flujo de trabajo para automatizar y gestionar tus tareas más importantes de principio a fin.

          Snap quote

          Ciencia de datos a gran escala

          Proporciona a los equipos de ciencia de datos entornos de clúster de Spark potentes y personalizables para el entrenamiento de modelos a gran escala y la inferencia por lotes. Con los entornos de ejecución de aprendizaje automático preconfigurados y la compatibilidad con GPUs, puedes acelerar todo el ciclo de vida del aprendizaje automático e integrarlo con Vertex AI para crear y poner en funcionamiento flujos de procesamiento de MLOps integrales.

          Aspectos destacados de los cuadernos de Spark

          Ciencia de datos a gran escala

          Proporciona a los equipos de ciencia de datos entornos de clúster de Spark potentes y personalizables para el entrenamiento de modelos a gran escala y la inferencia por lotes. Con los entornos de ejecución de aprendizaje automático preconfigurados y la compatibilidad con GPUs, puedes acelerar todo el ciclo de vida del aprendizaje automático e integrarlo con Vertex AI para crear y poner en funcionamiento flujos de procesamiento de MLOps integrales.

          Aspectos destacados de los cuadernos de Spark

          Motores de analíticas de OSS flexibles

          Ve más allá de Spark y Hadoop sin añadir sobrecarga operativa. Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de streaming o cualquier otro motor de código abierto especializado. Dataproc proporciona un plano de control unificado para gestionar este ecosistema diverso con la sencillez de un servicio gestionado.

          Compatibilidad con OSS

            Motores de analíticas de OSS flexibles

            Ve más allá de Spark y Hadoop sin añadir sobrecarga operativa. Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de streaming o cualquier otro motor de código abierto especializado. Dataproc proporciona un plano de control unificado para gestionar este ecosistema diverso con la sencillez de un servicio gestionado.

            Compatibilidad con OSS

              Precios

              Clústeres gestionados de DataprocDataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles.

              Componentes clave

              • Instancias de Compute Engine (vCPU y memoria)
              • Tarifa del servicio Dataproc (por hora de vCPU)
              • Discos persistentes


              Ejemplo

              Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

              Clústeres gestionados de Dataproc

              Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles.

              Componentes clave

              • Instancias de Compute Engine (vCPU y memoria)
              • Tarifa del servicio Dataproc (por hora de vCPU)
              • Discos persistentes


              Ejemplo

              Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

              Calculadora de precios

              Calcula tus costes mensuales de Dataproc, incluidos los precios y las tarifas específicas de cada región.

              Presupuesto personalizado

              Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

              Empieza tu prueba de concepto

              300 USD en crédito para los nuevos clientes

              ¿Tienes un proyecto de gran envergadura?

              Envía una tarea de Spark usando una plantilla

              Tutorial: Conector de Dataproc Spark a BigQuery

              Consulta la documentación de Dataproc para obtener información detallada

              Caso de negocio

               Elabora el caso práctico de tu empresa para Google Dataproc


              Las ventajas económicas de Google Cloud Dataproc y Serverless Spark frente a otras soluciones

              Descubre cómo ofrece Dataproc un ahorro significativo en el coste total de propiedad y valor empresarial en comparación con las soluciones on-premise y otras soluciones en la nube.

              En el informe:

              Descubre cómo Dataproc y Serverless para Apache Spark pueden ofrecer un ahorro de costes de entre el 18% y el 60% en comparación con otras alternativas de Spark basadas en la nube.

              Descubre cómo Google Cloud Serverless para Apache Spark puede ofrecer una relación calidad‑precio entre un 21% y un 55% mejor que otras ofertas de Spark sin servidor.

              Descubre cómo Dataproc y Google Cloud Serverless para Apache Spark simplifican las implementaciones de Spark y ayudan a reducir la complejidad operativa.

              Preguntas frecuentes

              ¿Cuándo debo elegir Dataproc en lugar de Google Cloud Serverless para Apache Spark?

              Elige Dataproc si necesitas un control preciso sobre tu entorno de clúster, vas a migrar cargas de trabajo de Hadoop o Spark, o necesitas un clúster persistente con un conjunto diverso de herramientas de código abierto. Consulta un desglose detallado de las diferencias en los modelos de gestión, las cargas de trabajo ideales y las estructuras de costes.

              Consulta nuestra guía completa.

              Sí. Dataproc es una plataforma unificada para la pila de datos moderna de código abierto. Admite más de 30 componentes, lo que te permite ejecutar clústeres dedicados para herramientas como Flink para el procesamiento de streaming o Trino para SQL interactivo, todo ello en un único servicio gestionado.

              Ver todos los componentes opcionales.

               Tienes un alto grado de control. Dataproc te permite personalizar los tipos de máquinas, los tamaños de los discos y las configuraciones de red. También puedes usar acciones de inicialización para instalar software personalizado, usar tus propias imágenes de contenedor y aprovechar las VMs de acceso puntual para optimizar los costes.

              Consulta cómo personalizar clústeres.

              Dataproc
              Google Cloud