Dataproc

Lanza una solución preconfigurada que unifique los data lakes y los almacenes de datos para almacenar, procesar y analizar datos estructurados y sin estructurar. Pruébalo gratis.

Ir a

Dataproc

Dataproc es un servicio totalmente gestionado y muy escalable para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de software libre. Gracias a Dataproc, puedes modernizar tus lagos, el proceso de extracción, transformación y carga (ETL) y ciencia de datos segura a escala mundial e integrarlos por completo con Google Cloud a un coste muy inferior.

Probar Dataproc gratis

Flexible: puedes usar clústeres sin servidor o gestionarlos en Google Compute y Kubernetes. Despliega una solución recomendada por Google que unifica los data lakes y almacenes de datos para almacenar, procesar y analizar datos estructurados y sin estructurar
Abierto: ejecuta analíticas de datos de código abierto a escala con seguridad de nivel empresarial
Inteligente: permite que los usuarios de datos se integren con Vertex AI, BigQuery y Dataplex
Seguridad: configura seguridad avanzada, como Kerberos, Apache Ranger y la autenticación personal.
Rentable: reduce el coste total de propiedad un 54 % en comparación con los lagos de datos on‐premise con precios por segundo

Icono de Dataproc en el centro de un anillo de logotipos: Apache Spark, Presto, Hive, Jupyter, Hadoop, Flink y Apache Pig

VÍDEO

Dataproc admite sistemas operativos populares, como Apache Spark, Presto, Flink y mucho más.

1:23

Ventajas

Moderniza el tratamiento de datos de código abierto

Un software libre y óptimo para la ciencia de datos

Permite que los científicos y analistas de datos realicen tareas de ciencia de datos de forma óptima gracias a las integraciones nativas con BigQuery, Dataplex, Vertex AI y blocs de notas de software libre como JupyterLab.

Seguridad empresarial integrada con Google Cloud

Funciones de seguridad como el encriptado en reposo de forma predeterminada, OS Login, Controles de Servicio de VPC y las claves de encriptado gestionadas por el cliente (CMEK). Habilita el modo seguro de Hadoop a través de Kerberos añadiendo una configuración de seguridad.

Características principales

Software libre de Big Data automatizado y totalmente gestionado

La monitorización, el almacenamiento de registros y el despliegue sin servidor te permiten centrarte en los datos y las analíticas y olvidarte de la infraestructura. Reduce el coste total de propiedad de la gestión de Apache Spark en hasta un 54 %. Gracias a la integración con Vertex AI Workbench, los científicos e ingenieros de datos pueden crear y entrenar modelos cinco veces más rápido que los cuadernos tradicionales. La API de tareas de Dataproc te permite incorporar fácilmente el procesamiento de Big Data en aplicaciones personalizadas. Por su parte, Dataproc Metastore te permite eliminar la necesidad de ejecutar tu propio almacén de metadatos o de catálogo de Hive.

Creación de tareas de Apache Spark en contenedores con Kubernetes

Crea tus tareas de Apache Spark con Dataproc en Kubernetes para poder usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad y aislamiento de las tareas.

Seguridad empresarial integrada en Google Cloud

Al crear un clúster de Dataproc, puedes habilitar el modo seguro de Hadoop a través de Kerberos añadiendo una configuración de seguridad. Además, algunas de las funciones de seguridad específicas de Google Cloud más utilizadas con Dataproc son el encriptado en reposo de forma predeterminada, OS Login, Controles de Servicio de VPC y las claves de encriptado gestionadas por el cliente (CMEK).

Lo mejor del software libre con lo mejor de Google Cloud

Dataproc te permite utilizar las herramientas de software libre, los algoritmos y los lenguajes de programación que utilizas actualmente, pero te permite aplicarlos fácilmente en conjuntos de datos a escala en la nube. Además, Dataproc se integra de forma inmediata con el resto de las analíticas, las bases de datos y el ecosistema de la inteligencia artificial de Google Cloud. Los científicos e ingenieros de datos pueden acceder rápidamente a los datos y crear aplicaciones de datos que conectan Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub o Data Fusion.

Ver todas las características

Miniatura de un edificio bancario con una hoja de cálculo a la izquierda y un teléfono móvil a la derecha

VÍDEO

Demostración: descubre cómo Dataproc y Cloud Storage pueden ayudarte a agilizar el procesamiento de préstamos

3:39

Clientes

Descubre cómo usan nuestros clientes Dataproc

Blog post

Broadcom moderniza su lago de datos con Dataproc y accede a una gestión de datos flexible

Lectura de 5 minutos

Case study

Dataproc ofrece un acceso de alto rendimiento y poco mantenimiento a los datos sin estructurar y a gran escala.

Lectura de 8 minutos

Video

Grupo Vodafone traslada a la nube 600 servidores de Apache Hadoop on‑premise.

47:17

Case study

Twitter traslada sus datos on‑premise de Hadoop a Google Cloud para almacenar y consultar datos de forma más económica.

49:57

Case study

Pandora migra a Google Cloud más de 7 PB de datos de Hadoop on-premise a Google Cloud para escalar sus sistemas y reducir los costes.

50:51

Case study

La posibilidad de activar y desactivar los clústeres de Dataproc ayuda a METRO a reducir los costes de la infraestructura entre un 30 y un 50 %.

Lectura de 5 minutos

Ver todos los clientes

Novedades

Spark sin servidor ya está disponible para todos los usuarios. Regístrate para obtener una vista previa de otros servicios de Spark en Google Cloud.

Blog post

Tareas de Spark sin servidor perfectas para todos los usuarios de datosMás información

Blog post

Arquitecturas convergentes: combina lagos y almacenes de datosLeer el blog

Marca de verificación de prácticas recomendadas

Blog post

Nueva guía de prácticas recomendadas de DataprocMás información

Blog post

Las nuevas funciones en fase GA de Dataproc amplían las capacidades de la ciencia de datos y el aprendizaje automáticoMás información

Documentación

Google Cloud Basics

Spark sin servidor

Envía tareas de Spark capaces de aprovisionarse y escalarse automáticamente. Consulta más detalles al respecto mediante el enlace de la guía de inicio rápido que aparece a continuación.

Más información

APIs & Libraries

Acciones de inicialización de Dataproc

Añade otros proyectos de software libre a tus clústeres de Dataproc con las acciones de inicialización predefinidas.

Más información

APIs & Libraries

Conectores de código abierto

Bibliotecas y herramientas de interoperabilidad con Apache Hadoop

Más información

APIs & Libraries

Plantillas de flujo de trabajo de Dataproc

La API WorkflowTemplates de Dataproc es un mecanismo flexible y fácil de usar para gestionar y ejecutar flujos de trabajo.

Más información

¿No encuentras lo que buscas?

Ver toda la documentación de producto

Notas de la versión

Consulta información sobre las últimas versiones de Dataproc.

Casos prácticos

Caso práctico

Traslada tus clústeres de Hadoop y Spark a la nube

Muchas empresas están migrando a Dataproc sus clústeres de Apache Hadoop y Spark on‑premise para gestionar los costes y aprovechar el potencial del escalado elástico. Gracias a Dataproc, estas empresas obtienen un clúster totalmente gestionado y diseñado para fines específicos que puede autoescalarse para adaptarse a cualquier tarea de procesamiento de datos o analíticas.

Best practice

Guía de migración de Apache Spark

No hace falta que vuelvas a escribir tu código de Spark en Google Cloud.

Más información

Best practice

Migración de datos de HDFS a Google Cloud

Descubre cuándo y cómo deberías migrar tus datos de HDFS on‑premise a Google Cloud Storage.

Más información

Best practice

Traslado de controles de seguridad on‑premise a Dataproc

Migra tus controles de seguridad a Dataproc para cumplir los estándares de la empresa y del sector.

Más información

Caso práctico

Ciencia de datos en Dataproc

Crea tu entorno de ciencia de datos ideal reactivando un clúster de Dataproc diseñado para fines específicos. Integra software libre, como Apache Spark, NVIDIA RAPIDS y los cuadernos de Jupyter, con los servicios de inteligencia artificial y las GPUs de Google Cloud para agilizar tu desarrollo de aprendizaje automático e inteligencia artificial.

Tutorial

Aprendizaje automático de Dataproc y Apache Spark

Integra Dataproc con otros servicios de Google Cloud para crear una experiencia de ciencia de datos completa.

Más información

Best practice

Ciencia de datos de código abierto controlado por el departamento de TI con Dataproc Hub

Descubre cómo Dataproc Hub puede proporcionar a tus científicos de datos todas las herramientas de código abierto que necesitan con control de costes y TI.

Más información

Tutorial

Dataproc y TensorFlow on YARN

Aprende a orquestar TensorFlow distribuido con TensorFlow on YARN (TonY).

Más información

Ver todas las guías técnicas

Todas las características

Spark sin servidor	Despliega aplicaciones y flujos de procesamiento de Spark que se escalan automáticamente sin tener que aprovisionar ni ajustar manualmente las infraestructuras.
Clústeres de tamaño ajustable	Crea y escala rápidamente clústeres con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Autoescalar clústeres	El autoescalado de Dataproc es un mecanismo de automatización de la gestión de los recursos de clústeres que permite que se añadan y quiten automáticamente trabajadores del clúster (es decir, nodos).
Integrado en la nube	La integración de Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging y Cloud Monitoring te ofrece una plataforma de datos más completa y sólida.
Configuración manual o automática	Dataproc configura automáticamente el hardware y el software, pero también te ofrece control manual.
Herramientas de desarrollo	Dispones de varios métodos para gestionar los clústeres, como una interfaz web intuitiva, el SDK de Google Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización	Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias cuando crees clústeres.
Componentes opcionales	Usa los componentes opcionales para instalar o configurar componentes adicionales en el clúster. Estos componentes opcionales están integrados con los componentes de Dataproc y ofrecen entornos plenamente configurados para Zeppelin, Presto y otros componentes de software libre relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Contenedores e imágenes personalizados	Spark sin servidor de Dataproc se puede aprovisionar con contenedores de Docker personalizados. Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya tus paquetes de sistema operativo Linux preinstalados.
Máquinas virtuales flexibles	Los clústeres pueden usar tipos de máquinas personalizadas y máquinas virtuales interrumpibles para que su tamaño se adapte a tus necesidades en todo momento.
Plantillas de flujo de trabajo	Las plantillas de flujo de trabajo de Dataproc son un mecanismo flexible y sencillo para gestionar y ejecutar flujos de trabajo. Estas plantillas son configuraciones de flujos de trabajo reutilizables que definen un gráfico de tareas con información sobre dónde ejecutar esas tareas.
Gestión automática de políticas	Estandariza las políticas de seguridad, costes e infraestructura en todos tus clústeres. Puedes crear políticas de gestión de recursos, de seguridad o de red a nivel de proyecto. También puedes hacer que a los usuarios les resulte fácil usar las imágenes, los componentes, el almacén de metadatos y otros servicios periféricos correctos, lo que te permite gestionar tu flota de clústeres y políticas de Spark sin servidor en el futuro.
Alertas inteligentes	Las alertas recomendadas de Dataproc permiten que los clientes ajusten los umbrales de las alertas preconfiguradas para recibir alertas de clústeres inactivos o fuera de control, de tareas, de clústeres con un uso excesivo, etc. Los clientes pueden personalizar estas alertas e incluso crear funciones avanzadas de gestión de tareas y clústeres. Estas funciones permiten que los clientes gestionen su flota a escala.
Dataproc en Google Distributed Cloud (GDC)	Dataproc on GDC te permite ejecutar Spark en el dispositivo GDC Edge en tu centro de datos. Ahora puedes usar las mismas aplicaciones de Spark en Google Cloud y en datos sensibles en tu centro de datos.
Almacén de metadatos multirregional de Dataproc	Dataproc Metastore es un almacén de metadatos de Hive (HMS) totalmente gestionado y de alta disponibilidad con controles de acceso pormenorizados. El almacén de metadatos multirregional de Dataproc proporciona una recuperación tras fallos activa, así como resiliencia ante interrupciones regionales.

Precios

Los precios de Dataproc se basan en el número de vCPUs y en el tiempo durante el que se ejecutan. Aunque los precios se indican con una tarifa por horas, la facturación se realiza por segundo para que pagues solo por lo que uses.

Por ejemplo, un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

Para obtener más información, consulta la página de precios.

Ver detalles de precios

Partners

Dataproc se integra con partners clave para complementar tus inversiones y conjuntos de habilidades.