Descubre cómo tu organización se puede preparar para la nueva economía de datos con el lakehouse de Analytics. Regístrate aquí.
Ir a

Dataproc

Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a gran escala y completamente integrada a Google Cloud por una fracción del costo.

  • Abierto: Ejecuta análisis de datos de código abierto a gran escala con seguridad de nivel empresarial

  • Flexible: Usa sin servidores o administra clústeres en Google Compute y Kubernetes

  • Inteligencia: Permite a los usuarios de datos mediante integraciones con Vertex AI, BigQuery y Dataplex

  • Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.

  • Rentable: Obtén un TCO un 54% más bajo en comparación con los data lakes locales con precios por segundo.

Ventajas

Moderniza el procesamiento de tus datos de código abierto

Ya sea que necesites VM o Kubernetes, memoria adicional para Presto o incluso GPU, Dataproc puede ayudarte a acelerar el procesamiento de estadísticas y datos a través de entornos sin servidores o diseñados según demanda.

OSS inteligente y sin interrupciones para la ciencia de datos

Permite que los analistas y científicos de datos realicen sin problemas trabajos de ciencia de datos mediante integraciones nativas en BigQuery, Dataplex y Vertex AI.

Seguridad, cumplimiento y administración avanzados

Aplica controles de acceso detallados a nivel de filas y columnas con Dataproc, BigLake y Dataplex. Administra y aplica la autenticación y autorización de usuarios mediante las políticas existentes de Kerberos y Apache Ranger

Características clave

Características clave

Software de código abierto de macrodatos completamente administrado y automatizado

La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%.Permite que los ingenieros y científicos de datos compilen y entrenen modelos 5 veces más rápido, en comparación con los notebooks tradicionales, mediante la integración con Vertex AI Workbench. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.

Aloja en contenedores los trabajos de Apache Spark con Kubernetes

Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.

Seguridad empresarial integrada en Google Cloud

Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.

Lo mejor del código abierto con lo mejor de Google Cloud

Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo en el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y científicos de datos pueden acceder con rapidez a los datos y compilar aplicaciones de datos que conectan Dataproc a BigQuery, Vertex AI, Cloud Spanner, Pub/Sub o Data Fusion

Ver todas las características

Novedades

Novedades

Spark sin servidores ahora tiene disponibilidad general. Regístrate para obtener una vista previa de otros servicios de Spark en Google Cloud. 

Documentación

Documentación

Conceptos básicos de Google Cloud
Spark sin servidores

Envía trabajos de Spark que se aprovisionan automáticamente y se escalan automáticamente. Obtén más detalles con el vínculo que aparece a continuación. 

API y bibliotecas
Acciones de inicialización de Dataproc

Agrega otros proyectos de OSS a tus clústeres de Dataproc con las acciones de inicialización compiladas con anterioridad.

API y bibliotecas
Conectores de código abierto

Descubre bibliotecas y herramientas para la interoperabilidad de Apache Hadoop.

API y bibliotecas
Plantillas de flujo de trabajo de Dataproc

La API de plantillas de flujo de trabajo de Dataproc proporciona un mecanismo fácil de usar y flexible para administrar y ejecutar flujos de trabajo.

Casos de uso

Casos de uso

Caso de uso
Migra a la nube tus clústeres de Hadoop y Spark

Las empresas están migrando a Dataproc sus clústeres locales existentes de Apache Hadoop y Spark para administrar los costos y aprovechar la potencia del escalamiento elástico. Con Dataproc, las empresas obtienen un clúster completamente administrado y diseñado para propósitos específicos que puede realizar ajustes de escala automáticos a fin de respaldar cualquier trabajo de procesamiento de estadísticas o datos.

Todas las funciones

Todas las funciones

Spark sin servidores Escribe aplicaciones y canalizaciones de Spark que se escalan de forma automática sin aprovisionamiento ni ajuste manual de infraestructura. 
Clústeres con tamaños ajustables Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidades de nodos y opciones de herramientas de redes.
Clústeres con ajuste de escala automático El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática.
Integración en la nube La integración incorporada en Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Cloud Bigtable, Cloud Logging y Cloud Monitoring te brinda datos más completos y sólidos.
Control de versiones El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Eliminación programada de clústeres Para evitar que se generen costos por un clúster inactivo, puedes usar la eliminación programada de Dataproc, que proporciona opciones para borrar un clúster después de un período de inactividad establecido, así como en momentos futuros o después de períodos determinados.
Configuración manual o automática Dataproc configura hardware y software de forma automática, pero también permite el control manual.
Herramientas para desarrolladores Hay distintas maneras de administrar un clúster, como utilizar una IU web fácil de usar, el SDK de Cloud, las API RESTful y el acceso mediante SSH.
Acciones de inicialización Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesites cuando se cree un clúster.
Componentes opcionales Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Presto y otros componentes de software de código abierto relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes y contenedores personalizados Spark sin servidores de Dataproc se puede aprovisionar con contenedores de Docker personalizados. Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para adaptarse a tus necesidades a la perfección.
Puerta de enlace de componentes y acceso a notebooks La puerta de enlace de componentes de Dataproc permite acceder de forma segura y con un solo clic a las interfaces web de los componentes predeterminados y opcionales de Dataproc que se ejecutan en el clúster.
Plantillas de flujos de trabajo Las plantillas de flujos de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para administrar y ejecutar flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar. 
Administración automatizada de políticas Estandariza las políticas de infraestructura, seguridad y costos en una flota de clústeres. Puedes crear políticas para la administración de recursos, la seguridad o la red a nivel de proyecto. También puedes facilitar a los usuarios el uso de las imágenes, los componentes, el almacén de metadatos y otros servicios periféricos correctos, lo que te permite administrar tu flota de clústeres y políticas de Spark sin servidores en el futuro. 
Alertas inteligentes Las alertas recomendadas de Dataproc permiten a los clientes ajustar los umbrales de las alertas preconfiguradas para recibir avisos sobre clústeres inactivos, descontrolados, trabajos, clústeres sobreutilizados. y más. Los clientes pueden personalizar aún más estas alertas y hasta crear funciones avanzadas de administración de trabajos y clústeres. Estas funciones les permiten a los clientes administrar su flota a gran escala.
Dataproc Metastore Hive Metastore (HMS) completamente administrado y con alta disponibilidad con integración y control de acceso detallado en BigQuery Metastore, Dataplex y Data Catalog.

Precios

Precios

Los precios de Dataproc se calculan según la cantidad de CPU virtuales y el tiempo por el que se ejecutan. Si bien los precios indican tarifas por hora, cobramos por segundo para que solo pagues por lo que usas.

Ej.: 6 clústeres (1 principal + 5 trabajadores) con 4 CPU cada uno que se ejecutaron durante 2 horas costarían $0.48. Cargo de Dataproc = Cantidad de CPU virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

Consulta la página de precios para obtener detalles.

Socios

Socios

Dataproc se integra a socios clave para complementar tus inversiones existentes y adaptarse a cualquier nivel de habilidad.