Dataproc
Dataproc es un servicio totalmente gestionado y muy escalable para ejecutar Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Gracias a Dataproc, puedes modernizar tus lagos, modernizar el proceso de extracción, transformación y carga (ETL) y ciencia de datos segura a escala mundial e integrarlos por completo con Google Cloud a un coste muy inferior.
-
Abierto: ejecuta analíticas de datos de código abierto a escala con seguridad de nivel empresarial
-
Flexible: puedes usar clústeres sin servidor o gestionarlos en Google Compute y Kubernetes
-
Inteligente: permite que los usuarios de datos se integren con Vertex AI, BigQuery y Dataplex
-
Seguridad: configura seguridad avanzada, como Kerberos, Apache Ranger y la autenticación personal.
-
Rentable: reduce el coste total de propiedad un 54 % en comparación con los lagos de datos on‐premise con precios por segundo
Ventajas
Moderniza el tratamiento de datos de código abierto
Si necesitas VMs o Kubernetes, más memoria para Press o incluso GPUs, Dataproc puede agilizar el procesamiento de datos y analíticas a través de entornos a la carta o sin servidor.
Seguridad, cumplimiento y gobernanza avanzados
Aplica controles detallados de filas y columnas a nivel de columna con Dataproc, BigLake y Dataplex. Gestiona y aplica la autorización y la autenticación de usuarios mediante las políticas de Kerberos y Apache Ranger.
Características principales
Funciones principales
Software libre de Big Data automatizado y totalmente gestionado
La monitorización, el almacenamiento de registros y el despliegue sin servidor te permiten centrarte en los datos y las analíticas y olvidarte de la infraestructura. Reduce el coste total de propiedad de la gestión de Apache Spark en hasta un 54 %. Gracias a la integración con Vertex AI Workbench, los científicos e ingenieros de datos pueden crear y entrenar modelos cinco veces más rápido que los cuadernos tradicionales. La API de tareas de Dataproc te permite incorporar fácilmente el procesamiento de Big Data en aplicaciones personalizadas. Por su parte, Dataproc Metastore te permite eliminar la necesidad de ejecutar tu propio almacén de metadatos o de catálogo de Hive.
Creación de tareas de Apache Spark en contenedores con Kubernetes
Crea tus tareas de Apache Spark con Dataproc en Kubernetes para poder usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad y aislamiento de las tareas.
Seguridad empresarial integrada en Google Cloud
Al crear un clúster de Dataproc, puedes habilitar el modo seguro de Hadoop a través de Kerberos añadiendo una configuración de seguridad. Además, algunas de las funciones de seguridad específicas de Google Cloud más utilizadas con Dataproc son el encriptado en reposo de forma predeterminada, OS Login, Controles de Servicio de VPC y las claves de encriptado gestionadas por el cliente (CMEK).
Lo mejor del software libre con lo mejor de Google Cloud
Dataproc te permite utilizar las herramientas de código abierto, los algoritmos y los lenguajes de programación que utilizas actualmente, pero te permite aplicarlos fácilmente en conjuntos de datos a escala en la nube. Además, Dataproc se integra de forma inmediata con el resto de las analíticas, las bases de datos y el ecosistema de la inteligencia artificial de Google Cloud. Los científicos e ingenieros de datos pueden acceder rápidamente a los datos y crear aplicaciones de datos que conectan Dataproc con BigQuery, Vertex AI, Cloud Spanner, Pub/Sub o Data Fusion.
Novedades
Novedades
Spark sin servidor ya está disponible para todos los usuarios. Regístrate para obtener una vista previa de otros servicios de Spark en Google Cloud.
Documentación
Documentación
Spark sin servidor
Envía tareas de Spark capaces de aprovisionarse y escalarse automáticamente. Consulta más detalles al respecto mediante el enlace de la guía de inicio rápido que aparece a continuación.
Acciones de inicialización de Dataproc
Añade otros proyectos de software libre a tus clústeres de Dataproc con las acciones de inicialización predefinidas.
Conectores de código abierto
Bibliotecas y herramientas de interoperabilidad con Apache Hadoop.
Plantillas de flujo de trabajo de Dataproc
La API WorkflowTemplates de Dataproc es un mecanismo flexible y fácil de usar para gestionar y ejecutar flujos de trabajo.
Usos
Usos
Muchas empresas están migrando a Dataproc sus clústeres de Apache Hadoop y Spark on‑premise para gestionar los costes y aprovechar el potencial del escalado flexible. Gracias a Dataproc, estas empresas obtienen un clúster totalmente gestionado y diseñado para fines específicos que puede autoescalarse para adaptarse a cualquier tarea de procesamiento de datos o analíticas.
Crea tu entorno de ciencia de datos ideal poniendo en marcha un clúster de Dataproc diseñado para fines específicos. Integra software libre como Apache Spark, NVIDIA RAPIDS y los cuadernos de Jupyter con los servicios de inteligencia artificial y las GPU de Google Cloud para agilizar tu desarrollo de aprendizaje automático e inteligencia artificial.
Todas las características
Todas las características
Spark sin servidor | Despliega aplicaciones y flujos de procesamiento de Spark que se escalan automáticamente sin tener que aprovisionar ni ajustar manualmente las infraestructuras. |
Clústeres de tamaño ajustable | Crea y escala rápidamente clústeres con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red. |
Clústeres con autoescalado | El autoescalado de Dataproc es un mecanismo de automatización de la gestión de los recursos de clústeres que permite que se añadan y quiten automáticamente trabajadores del clúster (es decir, nodos). |
Integración en la nube | La integración integrada de Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Cloud Bigtable, Cloud Logging y Cloud Monitoring te ofrece datos más completos y sólidos. |
Gestión de versiones | La gestión de versiones en imágenes te permite cambiar entre varias versiones de Apache Spark, Apache Hadoop y otras herramientas. |
Eliminación programada de clústeres | Para evitar que se te cobre por clústeres inactivos, puedes usar la eliminación programada de Dataproc, que te permite deshacerte de clústeres cuando llevan un tiempo especificado inactivos, en un momento futuro o tras un periodo concreto. |
Configuración manual o automática | Dataproc configura automáticamente el hardware y el software, pero también te ofrece control manual. |
Herramientas de desarrollo | Dispones de varios métodos para gestionar los clústeres, como una interfaz web intuitiva, el SDK de Google Cloud, las API RESTful y el acceso SSH. |
Acciones de inicialización | Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias cuando crees clústeres. |
Componentes opcionales | Instala o configura componentes opcionales en el clúster. Estos componentes están integrados con los de Dataproc y ofrecen entornos plenamente configurados para Zeppelin, Presto y otros componentes de software libre relacionados con el ecosistema de Apache Hadoop y Apache Spark. |
Contenedores e imágenes personalizados | Spark sin servidor de Dataproc se puede aprovisionar con contenedores de Docker personalizados. Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluye tus paquetes de sistema operativo Linux preinstalados. |
Máquinas virtuales flexibles | Los clústeres pueden usar tipos de máquinas personalizadas y máquinas virtuales interrumpibles para que su tamaño se adapte a tus necesidades en todo momento. |
Pasarela de componentes y acceso a cuadernos | La pasarela de componentes de Dataproc te otorga acceso seguro en un clic a las interfaces web de componentes opcionales y predeterminadas de Dataproc que se ejecutan en el clúster. |
Plantillas de flujo de trabajo | Las plantillas de flujo de trabajo de Dataproc son un mecanismo útil para gestionar y ejecutar flujos de trabajo. Estas plantillas son configuraciones de flujos de trabajo reutilizables que definen un gráfico de tareas con información sobre dónde ejecutar esas tareas. |
Gestión automática de políticas | Estandariza las políticas de seguridad, costes e infraestructura en todos tus clústeres. Puedes crear políticas de gestión de recursos, de seguridad o de red a nivel de proyecto. También puedes hacer que a los usuarios les resulte fácil usar las imágenes, los componentes, el almacén de datos y otros servicios periféricos correctos, lo que te permite gestionar tu flota de clústeres y políticas de Spark sin servidor en el futuro. |
Alertas inteligentes | Las alertas recomendadas de Dataproc permite que los clientes ajusten los umbrales de las alertas preconfiguradas para recibir alertas de clústeres inactivos, de tareas, de clústeres excesivos, etc. Los clientes pueden personalizar estas alertas e incluso crear funciones avanzadas de gestión de tareas y clústeres. Estas funciones permiten que los clientes gestionen sus dispositivos a escala. |
Dataproc Metastore | Hive Metastore (HMS) totalmente gestionado y de alta disponibilidad con control pormenorizado y una integración perfecta con el almacén de metadatos de BigQuery, Dataplex y Data Catalog. |
Precios
Precios
Los precios de Dataproc se basan en el número de vCPU y en el tiempo durante el que se ejecutan. Aunque los precios se indican con una tarifa por horas, la facturación se realiza por segundo para que pagues solo por lo que uses.
Por ejemplo, 6 clústeres (1 principal + 5 trabajadores) de 4 CPU que se ejecuten durante 2 horas tendrían un coste de 0,48 USD. Cargo de Dataproc = número de vCPU * horas * Precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD
Para obtener más información, consulta la página de precios.