Descubre cómo tu organización se puede preparar para la nueva economía de datos con el lakehouse de Analytics. Regístrate aquí.
Ir a
Dataproc

Dataproc

Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a gran escala y completamente integrada a Google Cloud por una fracción del costo.

  • Abierto: Ejecuta análisis de datos de código abierto a gran escala con seguridad de nivel empresarial

  • Flexible: Usa sin servidores o administra clústeres en Google Compute y Kubernetes

  • Inteligencia: Permite a los usuarios de datos mediante integraciones con Vertex AI, BigQuery y Dataplex

  • Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.

  • Rentable: Obtén un TCO un 54% más bajo en comparación con los data lakes locales con precios por segundo.

Beneficios

Moderniza el procesamiento de tus datos de código abierto

Ya sea que necesites VM o Kubernetes, memoria adicional para Presto o incluso GPU, Dataproc puede ayudarte a acelerar el procesamiento de estadísticas y datos a través de entornos sin servidores o diseñados según demanda.

OSS inteligente y sin interrupciones para la ciencia de datos

Permite que los analistas y científicos de datos realicen sin problemas trabajos de ciencia de datos mediante integraciones nativas en BigQuery, Dataplex y Vertex AI.

Seguridad, cumplimiento y administración avanzados

Aplica controles de acceso detallados a nivel de filas y columnas con Dataproc, BigLake y Dataplex. Administra y aplica la autenticación y autorización de usuarios mediante las políticas existentes de Kerberos y Apache Ranger.

Características clave

Características clave

Software de código abierto de macrodatos completamente administrado y automatizado

La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%.Permite que los ingenieros y científicos de datos compilen y entrenen modelos 5 veces más rápido, en comparación con los notebooks tradicionales, mediante la integración con Vertex AI Workbench. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.

Aloja en contenedores los trabajos de Apache Spark con Kubernetes

Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.

Seguridad empresarial integrada en Google Cloud

Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.

Lo mejor del código abierto con lo mejor de Google Cloud

Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo en el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y científicos de datos pueden acceder con rapidez a los datos y compilar aplicaciones de datos que conectan Dataproc a BigQuery, Vertex AI, Cloud Spanner, Pub/Sub o Data Fusion.

Ver todas las características