Dataproc

Dataproc agiliza y facilita el procesamiento de datos de código abierto y analíticas de manera segura en la nube

Probar Dataproc gratis
  • action/check_circle_24px Creado con Sketch.

    Pon en marcha un clúster de autoescalado en máquinas personalizadas en tan solo 90 segundos.

  • action/check_circle_24px Creado con Sketch.

    Crea clústeres totalmente gestionados de Apache Spark, Apache Hadoop, Presto y de otro software libre.

  • action/check_circle_24px Creado con Sketch.

    Paga únicamente por los recursos que uses y reduce el coste total de propiedad del software libre.

  • action/check_circle_24px Creado con Sketch.

    Aprovecha el encriptado y la seguridad unificada que cada clúster tiene integrados.

  • action/check_circle_24px Creado con Sketch.

    Impulsa la ciencia de datos con clústeres diseñados para fines específicos.

Agilización del desarrollo de clústeres de software libre en máquinas personalizadas

Si necesitas más memoria para Presto o GPUs para el aprendizaje automático de Apache Spark, Dataproc puede agilizar el procesamiento de datos y analíticas poniendo en marcha un clúster diseñado para fines específicos en tan solo 90 segundos.

Gestión de clústeres fácil y rentable

Gracias al autoescalado, la eliminación de clústeres inactivos, la tarifación por segundo y mucho más, Dataproc ayuda a reducir el coste total de propiedad del software libre para que puedas emplear tu tiempo y tus recursos en otras tareas. 

Seguridad integrada de forma predeterminada

El encriptado de forma predeterminada garantiza la protección de todos los datos. Con la API Jobs y la pasarela de componentes, puedes definir los permisos de los clústeres de Cloud IAM sin tener que configurar nodos de red o pasarela. 

Características principales

Gestión automática de clústeres

Como el despliegue, el almacenamiento de registros y la monitorización son procesos gestionados, puedes centrarte en los datos en lugar de en los clústeres, que, con Dataproc, son estables, escalables y rápidos.

Creación de tareas de software libre en contenedores

Cuando creas tareas de software libre (por ejemplo, de Apache Spark) en Dataproc, puedes crearlas en contenedores rápidamente con Kubernetes y desplegarlas en cualquier ubicación donde haya un clúster de GKE. 

Seguridad empresarial

Al crear un clúster de Dataproc, puedes habilitar el modo seguro de Hadoop a través de Kerberos añadiendo una configuración de seguridad. Además, algunas de las funciones de seguridad específicas de Google Cloud más utilizadas con Dataproc son el encriptado en reposo de forma predeterminada, OS Login, Controles de Servicio de VPC y las claves de encriptado gestionadas por el cliente (CMEK).

Ver todas las características

Documentación

Usos

Uso
Traslada tus clústeres de Hadoop y Spark a la nube

Muchas empresas están migrando a Dataproc sus clústeres de Apache Hadoop y Spark on‑premise para gestionar los costes y aprovechar el potencial del escalado flexible. Gracias a Dataproc, estas empresas obtienen un clúster totalmente gestionado y diseñado para fines específicos que puede autoescalarse para adaptarse a cualquier tarea de procesamiento de datos o analíticas. 

Uso
Ciencia de datos en Dataproc

Crea tu entorno de ciencia de datos ideal poniendo en marcha un clúster de Dataproc diseñado para fines específicos. Integra software libre como Apache Spark, NVIDIA RAPIDS y los cuadernos de Jupyter con los servicios de inteligencia artificial y las GPU de Google Cloud para agilizar tu desarrollo de aprendizaje automático e inteligencia artificial. 

Todas las características

Clústeres de tamaño ajustable Crea y escala rápidamente clústeres con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Clústeres con autoescalado El autoescalado de Dataproc es un mecanismo de automatización de la gestión de los recursos de clústeres que permite que se añadan y quiten automáticamente trabajadores del clúster (es decir, nodos).
Integración en la nube Está integrado con Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring y AI Hub, por lo que disfrutas de una plataforma de datos completa y sólida.
Gestión de versiones La gestión de versiones en imágenes te permite cambiar entre varias versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad Ejecuta clústeres en el modo de alta disponibilidad con varios nodos maestros y configura tareas de reinicio en caso de fallo para que los clústeres y las tareas estén siempre disponibles.
Eliminación programada de clústeres Para evitar que se te cobre por clústeres inactivos, puedes usar la eliminación programada de Dataproc, que te permite deshacerte de clústeres cuando llevan un tiempo especificado inactivos, en un momento futuro o tras un periodo concreto.
Configuración manual o automática Dataproc configura automáticamente el hardware y el software, pero también te ofrece control manual.
Herramientas para desarrolladores Dispones de varios métodos para gestionar los clústeres, como una interfaz web intuitiva, el SDK de Google Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias cuando crees clústeres.
Componentes opcionales Instala o configura componentes opcionales en el clúster. Estos componentes están integrados con los de Dataproc y ofrecen entornos plenamente configurados para Zeppelin, Druid, Presto y otros componentes de software libre relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes personalizadas Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluye tus paquetes de sistema operativo Linux preinstalados.
Máquinas virtuales flexibles Los clústeres pueden usar tipos de máquinas personalizadas y máquinas virtuales interrumpibles para que su tamaño se adapte a tus necesidades en todo momento.
Pasarela de componentes y acceso a cuadernos La pasarela de componentes de Dataproc te otorga acceso seguro en un clic a las interfaces web de componentes opcionales y predeterminadas de Dataproc que se ejecutan en el clúster.
Plantillas de flujo de trabajo Las plantillas de flujo de trabajo de Dataproc son un mecanismo útil para gestionar y ejecutar flujos de trabajo. Estas plantillas son configuraciones de flujos de trabajo reutilizables que definen un gráfico de tareas con información sobre dónde ejecutar esas tareas.

Precios

Los precios de Dataproc se basan en el número de vCPU y en el tiempo durante el que se ejecutan. Aunque los precios se indican con una tarifa por horas, la facturación se realiza por segundo para que pagues solo por lo que uses. Para obtener más información, consulta la página de precios.

Partners

Dataproc se integra con partners clave para complementar tus inversiones y conjuntos de habilidades.