Dataproc

Dataproc permite que el procesamiento de estadísticas y datos de código abierto sea rápido, sencillo y más seguro en la nube.

Los clientes nuevos obtienen $300 en créditos gratuitos para gastar en Google Cloud durante los primeros 90 días. Todos los clientes pueden usar gratis (con límites mensuales) productos seleccionados, como BigQuery y muchos más.

Probar Dataproc gratis
  • action/check_circle_24pxCreado con Sketch.

    Inicia un clúster con ajuste de escala automático en 90 segundos en máquinas personalizadas.

  • action/check_circle_24pxCreado con Sketch.

    Compila clústeres completamente administrados de Apache Spark, Apache Hadoop, Presto y otro software de código libre (OSS).

  • action/check_circle_24pxCreado con Sketch.

    Paga solo por los recursos que uses y reduce el costo total de propiedad del OSS.

  • action/check_circle_24pxCreado con Sketch.

    Todos los clústeres cuentan con encriptación y seguridad unificada.

  • action/check_circle_24pxCreado con Sketch.

    Acelera la ciencia de datos con clústeres diseñados para propósitos específicos.

Ventajas

Compila clústeres personalizados de OSS en máquinas personalizadas con más rapidez

Ya sea que necesites memoria adicional para Presto o más GPU para el aprendizaje automático de Apache Spark, Dataproc puede ayudarte a acelerar el procesamiento de estadísticas y datos mediante la inicialización de un clúster diseñado para propósitos específicos en 90 segundos.

Administración de clústeres sencilla y asequible

Gracias a características como el ajuste de escala automático, la eliminación de clústeres inactivos y los precios por segundo, entre otras, Dataproc puede ayudarte a reducir el costo total de propiedad del OSS para que puedas dedicar tiempo y recursos a otros proyectos.

Seguridad integrada de forma predeterminada

La encriptación de forma predeterminada permite asegurar la protección de todos los datos. Con JobsAPI y la puerta de enlace de componentes, puedes definir los permisos de los clústeres de Cloud IAM sin tener que establecer nodos de puerta de enlace o de herramientas de redes.

Características clave

Características clave

Administración automática de clústeres

Los servicios administrados de implementación, registro y supervisión te permiten enfocarte en los datos en lugar de hacerlo en el clúster. Los clústeres de Dataproc son estables, escalables y rápidos.

Crea contenedores para los trabajos de OSS

Cuando compilas tus trabajos de OSS (p. ej., Apache Spark) en Dataproc, puedes crear contenedores para ellos rápidamente con Kubernetes e implementarlos dondequiera que se encuentre un clúster de GKE.

Seguridad empresarial

Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.

Ver todas las características

Clientes

Novedades

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.

Documentación

Documentación

API y bibliotecas
Acciones de inicialización de Dataproc

Agrega otros proyectos de OSS a tus clústeres de Dataproc con las acciones de inicialización compiladas con anterioridad.

API y bibliotecas
Conectores de código abierto

Descubre bibliotecas y herramientas para la interoperabilidad de Apache Hadoop.

Casos de uso

Casos de uso

Caso de uso
Migra a la nube tus clústeres de Hadoop y Spark

Las empresas están migrando a Dataproc sus clústeres locales existentes de Apache Hadoop y Spark para administrar los costos y aprovechar la potencia del escalamiento elástico. Con Dataproc, las empresas obtienen un clúster completamente administrado y diseñado para propósitos específicos que puede realizar ajustes de escala automáticos a fin de respaldar cualquier trabajo de procesamiento de estadísticas o datos.

Caso de uso
Ciencia de datos en Dataproc

Crea tu entorno ideal de ciencia de datos mediante la inicialización de un clúster de Dataproc diseñado para propósitos específicos. Integra software de código abierto, como Apache Spark, RAPIDS de NVIDIA y los notebooks de Jupyter, con las GPU y los servicios de IA de Google Cloud para acelerar tu desarrollo de la IA y el aprendizaje automático. 

Todas las características

Todas las características

Clústeres con tamaños ajustables Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidades de nodos y opciones de herramientas de redes.
Clústeres con ajuste de escala automático El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática.
Integración en Cloud Gracias a la integración incorporada en Cloud Storage, BigQuery, Cloud Bigtable, Cloud Logging, Cloud Monitoring y AI Hub, tendrás una plataforma de datos más sólida y completa.
Control de versiones El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad Ejecuta clústeres en modo de alta disponibilidad con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una alta disponibilidad.
Eliminación programada de clústeres Para evitar que se generen costos por un clúster inactivo, puedes usar la eliminación programada de Dataproc, que proporciona opciones para borrar un clúster después de un período de inactividad establecido, así como en momentos futuros o después de períodos determinados.
Configuración manual o automática Dataproc configura hardware y software de forma automática, pero también permite el control manual.
Herramientas para desarrolladores Hay distintas maneras de administrar un clúster, como usar una IU web fácil de usar, el SDK de Cloud, las API RESTful y el acceso mediante SSH.
Acciones de inicialización Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesites cuando se cree un clúster.
Componentes opcionales Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Druid, Presto y otros componentes de software de código abierto relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes personalizadas Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para ajustar el tamaño a tus necesidades a la perfección.
Puerta de enlace de componentes y acceso a notebooks La puerta de enlace de componentes de Dataproc permite acceder de forma segura y con un solo clic a las interfaces web de los componentes predeterminados y opcionales de Dataproc que se ejecutan en el clúster.
Plantillas de flujos de trabajo Las plantillas de flujos de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para administrar y ejecutar flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar.

Precios

Precios

Los precios de Dataproc se calculan según la cantidad de CPU virtuales y el tiempo por el que se ejecutan. Si bien los precios indican tarifas por hora, cobramos por segundo para que solo pagues por lo que usas. Consulta la página de precios para obtener información.

Socios

Socios

Dataproc se integra a socios clave para complementar tus inversiones existentes y adaptarse a cualquier nivel de habilidad.