Conoce nuestras innovaciones más recientes en bases de datos, estadísticas y, también, IA en la Cumbre de datos de la nube. En vivo y on demand a partir del 26 de mayo.

Ir a

Dataproc

Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a escala mundial y completamente integrada a Google Cloud por una fracción del costo.

  • action/check_circle_24px Creado con Sketch.

    Abierto: Crea clústeres completamente administrados y de código abierto a pedido, integrados en el metastore de data lake

  • action/check_circle_24px Creado con Sketch.

    Flexible: Combina sistemas OSS y nativos de GCP con integraciones estrechas en toda la plataforma.

  • action/check_circle_24px Creado con Sketch.

    Administrado: Habilita la ciencia de datos de código abierto escalable, segura y con control de costos mediante Dataproc Hub

  • action/check_circle_24px Creado con Sketch.

    Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.

  • action/check_circle_24px Creado con Sketch.

    Rentable: Obtén un TCO un 57% más bajo en comparación con los data lakes locales con precios por segundo.

Ventajas

Moderniza el procesamiento de tus datos de código abierto

Ya sea que necesites VM o Kubernetes, memoria adicional para Presto o incluso GPU, Dataproc puede ayudarte a acelerar el procesamiento de estadísticas y datos mediante la inicialización de entornos para propósitos específicos a pedido.

OSS rentable y seguro para la ciencia de datos

Gracias a su ajuste de escala automático, eliminación de clústeres inactivos, modelo de precios por segundo, seguridad integrada y mucho más, Dataproc Hub puede escalar de forma rentable la ciencia de datos de código abierto y, al mismo tiempo, minimizar los costos de administración y riesgos de seguridad.

Seguridad, cumplimiento y administración avanzados

Administra y aplica la autorización y autenticación del usuario mediante las políticas existentes de Kerberos y Apache Ranger o la autenticación de clústeres personales. Define permisos sin tener que configurar un nodo de red.

Características clave

Características clave

Software de código abierto de macrodatos completamente administrado y automatizado

La implementación, los registros y la supervisión completamente administrados te permiten concentrarte en tus datos y estadísticas, no en tu infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 57%. Los científicos de datos y los ingenieros interactúan con Dataproc mediante herramientas conocidas, como notebooks de Jupyter y Zeppelin, que se pueden crear mediante plantillas en Dataproc Hub. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.

Aloja en contenedores los trabajos de Apache Spark con Kubernetes

Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.

Seguridad empresarial integrada con Google Cloud

Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.

Lo mejor del código abierto con lo mejor de Google Cloud

Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo con el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y los científicos de datos pueden acceder con rapidez a los datos y diseñar aplicaciones de datos que conecten Dataproc a BigQuery, AI Platform, Cloud Spanner, Pub/Sub o Data Fusion. 

Ver todas las características

Novedades

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con actualizaciones de productos, eventos, ofertas especiales y mucho más.

Documentación

Documentación

API y bibliotecas
Acciones de inicialización de Dataproc

Agrega otros proyectos de OSS a tus clústeres de Dataproc con las acciones de inicialización compiladas con anterioridad.

API y bibliotecas
Conectores de código abierto

Descubre bibliotecas y herramientas para la interoperabilidad de Apache Hadoop.

Casos de uso

Casos de uso

Caso de uso
Migra a la nube tus clústeres de Hadoop y Spark

Las empresas están migrando a Dataproc sus clústeres locales existentes de Apache Hadoop y Spark para administrar los costos y aprovechar la potencia del escalamiento elástico. Con Dataproc, las empresas obtienen un clúster completamente administrado y diseñado para propósitos específicos que puede realizar ajustes de escala automáticos a fin de respaldar cualquier trabajo de procesamiento de estadísticas o datos.

Caso de uso
Ciencia de datos en Dataproc

Crea tu entorno ideal de ciencia de datos mediante la inicialización de un clúster de Dataproc diseñado para propósitos específicos. Integra software de código abierto, como Apache Spark, RAPIDS de NVIDIA y los notebooks de Jupyter, con las GPU y los servicios de IA de Google Cloud para acelerar tu desarrollo de la IA y el aprendizaje automático. 

Todas las características

Todas las características

Clústeres con tamaños ajustables Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidades de nodos y opciones de herramientas de redes.
Clústeres con ajuste de escala automático El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática.
Integración en la nube Gracias a la integración incorporada en Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring y AI Hub, tendrás una plataforma de datos más sólida y completa.
Control de versiones El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad Ejecuta clústeres en modo de alta disponibilidad con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una alta disponibilidad.
Eliminación programada de clústeres Para evitar que se generen costos por un clúster inactivo, puedes usar la eliminación programada de Dataproc, que proporciona opciones para borrar un clúster después de un período de inactividad establecido, así como en momentos futuros o después de períodos determinados.
Configuración manual o automática Dataproc configura hardware y software de forma automática, pero también permite el control manual.
Herramientas para desarrolladores Hay distintas maneras de administrar un clúster, como utilizar una IU web fácil de usar, el SDK de Cloud, las API RESTful y el acceso mediante SSH.
Acciones de inicialización Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesites cuando se cree un clúster.
Componentes opcionales Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Druid, Presto y otros componentes de software de código abierto relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes personalizadas Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para adaptarse a tus necesidades a la perfección.
Puerta de enlace de componentes y acceso a notebooks La puerta de enlace de componentes de Dataproc permite acceder de forma segura y con un solo clic a las interfaces web de los componentes predeterminados y opcionales de Dataproc que se ejecutan en el clúster.
Plantillas de flujos de trabajo Las plantillas de flujos de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para administrar y ejecutar flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar.

Precios

Precios

Los precios de Dataproc se calculan según la cantidad de CPU virtuales y el tiempo por el que se ejecutan. Si bien los precios indican tarifas por hora, cobramos por segundo para que solo pagues por lo que usas.

Ej.: 6 clústeres (1 principal + 5 trabajadores) con 4 CPU cada uno que se ejecutaron durante 2 horas costarían $0.48. Cargo de Dataproc = Cantidad de CPU virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

Consulta la página de precios para obtener detalles.

Socios

Socios

Dataproc se integra a socios clave para complementar tus inversiones existentes y adaptarse a cualquier nivel de habilidad.