Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a gran escala y completamente integrada a Google Cloud por una fracción del costo.
Abierto: Ejecuta análisis de datos de código abierto a gran escala con seguridad de nivel empresarial
Flexible: Usa sin servidores o administra clústeres en Google Compute y Kubernetes
Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.
Rentable: Obtén un TCO un 54% más bajo en comparación con los data lakes locales con precios por segundo.
Beneficios
Ya sea que necesites VM o Kubernetes, memoria adicional para Presto o incluso GPU, Dataproc puede ayudarte a acelerar el procesamiento de estadísticas y datos a través de entornos sin servidores o diseñados según demanda.
Aplica controles de acceso detallados a nivel de filas y columnas con Dataproc, BigLake y Dataplex. Administra y aplica la autenticación y autorización de usuarios mediante las políticas existentes de Kerberos y Apache Ranger.
Características clave
La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%.Permite que los ingenieros y científicos de datos compilen y entrenen modelos 5 veces más rápido, en comparación con los notebooks tradicionales, mediante la integración con Vertex AI Workbench. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.
Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.
Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.
Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo en el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y científicos de datos pueden acceder con rapidez a los datos y compilar aplicaciones de datos que conectan Dataproc a BigQuery, Vertex AI, Cloud Spanner, Pub/Sub o Data Fusion.
Clientes
Novedades
Spark sin servidores ahora tiene disponibilidad general. Regístrate para obtener una vista previa de otros servicios de Spark en Google Cloud.