Google Cloud Dataproc puede ofrecer un ahorro de costos de entre el 18% y el 60% en comparación con otras alternativas de Hadoop y Spark basadas en la nube. Obtén el informe ESG.

Dataproc

Una plataforma administrada para Spark, Hadoop y estadísticas de código abierto

Ejecuta clústeres de frameworks de código abierto y Apache Spark, Hadoop y más de 30 frameworks de código abierto con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine y se integra en el lakehouse abierto de Google Cloud.

Spark es una marca comercial de The Apache Software Foundation.

Funciones

Compatibilidad sólida con el ecosistema de Hadoop

Además de Spark, Dataproc proporciona servicios completamente administrados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), además de Flink, Trino, Hive y más de 30 herramientas de código abierto. Para admitirlos, Dataproc se integra en Dataproc Metastore, un servicio de Hive Metastore completamente administrado que simplifica la administración de metadatos para los componentes tradicionales de los data lakes. Moderniza las cargas de trabajo de los data lakes tradicionales o crea aplicaciones nuevas con los motores que prefieras.

Spark administrado con Lightning Engine

Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc administrado, ahora potenciado con una velocidad de consulta 4.3 veces mayor* por Lightning Engine,** en versión preliminar. Experimenta ganancias de rendimiento significativas para las operaciones de Spark SQL y DataFrame. Configura los entornos de Spark de forma precisa según tus necesidades, eligiendo versiones y bibliotecas.

* Las consultas se derivan del estándar TPC-DS y del estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS ni del estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

** Disponible para Dataproc en el nivel premium de Compute Engine.

Configuración y administración flexibles de clústeres

Personaliza los clústeres de Dataproc con una amplia variedad de tipos de máquinas (incluidas las GPU), VMs interrumpibles, opciones de disco, políticas de ajuste de escala automático, acciones de inicialización, contenedores o imágenes y componentes opcionales. Usa funciones como plantillas de flujos de trabajo para organizar trabajos complejos y administrar clústeres a través de la consola, gcloud, la API o las bibliotecas cliente. Obtén una visibilidad profunda del rendimiento y el estado del clúster a través de la integración con Cloud Monitoring, que proporciona métricas, paneles y funciones de alertas integrales.

Conectividad de lakehouse abierta

Los clústeres de Dataproc se integran de forma nativa en el almacenamiento de metadatos de BigLake, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, existe una integración continua con el servicio administrado Dataproc Metastore. Aprovecha Dataplex Universal Catalog para un descubrimiento, un linaje y una administración unificados en todos tus recursos de lakehouse. Conecta Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para ampliar tus aplicaciones de datos y crear soluciones potentes de extremo a extremo.

Protege el procesamiento de tus datos de código abierto

Aprovecha la seguridad sólida de Google Cloud. Configura Kerberos, administra el acceso con IAM, aplica políticas de red con los Controles del servicio de VPC y usa CMEK. Integrarse en el catálogo universal de Dataplex para la administración centralizada de políticas y habilitar el control de acceso detallado con BigLake

Empodera a los ingenieros y científicos de datos

Usa herramientas e IDEs conocidas, como los IDE de Jupyter y VS Code que se ejecutan en las laptops para conectar los clústeres de Dataproc. Integra Dataproc en Vertex AI Workbench para el desarrollo interactivo de Spark en clústeres y compilar canalizaciones de IA/AA de extremo a extremo con Vertex AI.

Cómo funciona

Operaciones de clústeres simplificadas para obtener estadísticas potentes

Usos comunes

Modernización de data lakes y migración de Hadoop

Moderniza tu data lake

Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.

Instructivos, guías de inicio rápido y labs

Moderniza tu data lake

Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes empresarial

Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.

Instructivos, guías de inicio rápido y labs

Procesamiento por lotes empresarial

Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.

Entornos de AA y ciencia de datos configurables

Ciencia de datos personalizada a gran escala

Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.

Recetas de IA/AA para Dataproc

Instructivos, guías de inicio rápido y labs

Ciencia de datos personalizada a gran escala

Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.

Recetas de IA/AA para Dataproc

Ejecuta diversos motores de estadísticas de código abierto

OSS flexible

Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.

Dataproc se une a TensorFlow en YARN

Instructivos, guías de inicio rápido y labs

OSS flexible

Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.

Dataproc se une a TensorFlow en YARN

Genera una solución

¿Qué problema intentas resolver?

What you'll get:

Guía paso a paso

Arquitectura de referencia

Soluciones previamente compiladas disponibles

Este servicio se creó con Vertex AI. Debes ser mayor de 18 años para usarlo. No ingreses información sensible, confidencial ni personal.

Precios

Precios de Dataproc para clústeres administrados	Dataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine.
Componentes clave:	Instancias de Compute Engine (CPU virtual, memoria) Tarifa del servicio de Dataproc (por hora de CPU virtual) Discos persistentes
Ejemplo:	P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

Consultar los precios detallados de Dataproc

Precios de Dataproc para clústeres administrados

Dataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine.

Componentes clave:

Instancias de Compute Engine (CPU virtual, memoria)
Tarifa del servicio de Dataproc (por hora de CPU virtual)
Discos persistentes

Ejemplo:

P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

Consultar los precios detallados de Dataproc

Calculadora de precios

Calcula los costos mensuales de Firestore, incluidos los precios y las tarifas específicos de una región.

Presupuesto personalizado

Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para tu organización.

Dataproc

Una plataforma administrada para Spark, Hadoop y estadísticas de código abierto

Aspectos destacados del producto:

Compatibilidad sólida con el ecosistema de Hadoop

Spark administrado con Lightning Engine

Configuración y administración flexibles de clústeres

Conectividad de lakehouse abierta

Protege el procesamiento de tus datos de código abierto

Empodera a los ingenieros y científicos de datos

Operaciones de clústeres simplificadas para obtener estadísticas potentes

Modernización de data lakes y migración de Hadoop

Moderniza tu data lake

Instructivos, guías de inicio rápido y labs

Moderniza tu data lake

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes empresarial

Instructivos, guías de inicio rápido y labs

Procesamiento por lotes empresarial

Entornos de AA y ciencia de datos configurables

Ciencia de datos personalizada a gran escala

Instructivos, guías de inicio rápido y labs

Ciencia de datos personalizada a gran escala

Ejecuta diversos motores de estadísticas de código abierto

OSS flexible

Instructivos, guías de inicio rápido y labs

OSS flexible

Calculadora de precios

Presupuesto personalizado

Comience hoy mismo

$300 en créditos gratuitos para los clientes nuevos

¿Tienes un proyecto grande?

Crear un clúster de Dataproc mediante Cloud Console.

Usar el conector de Cloud Storage con Apache Spark

El Centro de arquitectura proporciona recursos de contenido en una amplia variedad de temas y situaciones de migración para ayudarte