Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a gran escala y completamente integrada a Google Cloud por una fracción del costo.
Flexible: Usa sin servidores o administra clústeres en Google Compute y Kubernetes. Implementa una solución recomendada por Google que unifique los data lakes y los almacenes de datos para almacenar, procesar y analizar datos estructurados y no estructurados.
Abierto: Ejecuta análisis de datos de código abierto a gran escala con seguridad de nivel empresarial
Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.
Rentable: Obtén un TCO un 54% más bajo en comparación con los data lakes locales con precios por segundo.
Beneficios
La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%. Crea y entrena modelos 5 veces más rápido.
Funciones de seguridad como la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK) Agrega una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos.
Características clave
La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%.Permite que los ingenieros y científicos de datos compilen y entrenen modelos 5 veces más rápido, en comparación con los notebooks tradicionales, mediante la integración con Vertex AI Workbench. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.
Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.
Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.
Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo en el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y científicos de datos pueden acceder con rapidez a los datos y compilar aplicaciones de datos que conectan Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub o Data Fusion.
Clientes
Novedades
Spark sin servidores ahora tiene disponibilidad general. Regístrate para obtener una vista previa de otros servicios de Spark en Google Cloud.
Documentación
Casos de uso
Las empresas están migrando a Dataproc sus clústeres locales existentes de Apache Hadoop y Spark para administrar los costos y aprovechar la potencia del escalamiento elástico. Con Dataproc, las empresas obtienen un clúster completamente administrado y diseñado para propósitos específicos que puede realizar ajustes de escala automáticos a fin de respaldar cualquier trabajo de procesamiento de estadísticas o datos.
Crea tu entorno ideal de ciencia de datos mediante la inicialización de un clúster de Dataproc diseñado para propósitos específicos. Integra software de código abierto, como Apache Spark, RAPIDS de NVIDIA y los notebooks de Jupyter, con las GPU y los servicios de IA de Google Cloud para acelerar tu desarrollo de la IA y el aprendizaje automático.
Todas las características
Spark sin servidores | Escribe aplicaciones y canalizaciones de Spark que se escalan de forma automática sin aprovisionamiento ni ajuste manual de infraestructura. |
Clústeres con tamaños ajustables | Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidades de nodos y opciones de herramientas de redes. |
Ajuste de escala automático de clústeres | El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática. |
Integración en la nube | La integración incorporada en Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging y Cloud Monitoring te brinda datos más completos y sólidos. |
Configuración manual o automática | Dataproc configura hardware y software de forma automática, pero también permite el control manual. |
Herramientas para desarrolladores | Hay distintas maneras de administrar un clúster, como usar una IU web fácil de usar, el SDK de Cloud, las API RESTful y el acceso mediante SSH. |
Acciones de inicialización | Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas que necesite cuando se cree un clúster. |
Componentes opcionales | Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Presto y otros componentes de software de código abierto relacionados con el ecosistema de Apache Hadoop y Apache Spark. |
Imágenes y contenedores personalizados | Spark sin servidores de Dataproc se puede aprovisionar con contenedores de Docker personalizados. Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados. |
Máquinas virtuales flexibles | Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para ajustar el tamaño a tus necesidades a la perfección. |
Plantillas de flujos de trabajo | Las plantillas de flujos de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para administrar y ejecutar flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar. |
Administración automatizada de políticas | Estandariza las políticas de infraestructura, seguridad y costos en una flota de clústeres. Puedes crear políticas para la administración de recursos, la seguridad o la red a nivel de proyecto. También puedes facilitar a los usuarios el uso de las imágenes, los componentes, el almacén de metadatos y otros servicios periféricos correctos, lo que te permite administrar tu flota de clústeres y políticas de Spark sin servidores en el futuro. |
Alertas inteligentes | Las alertas recomendadas de Dataproc permiten a los clientes ajustar los umbrales de las alertas preconfiguradas para recibir avisos sobre clústeres inactivos, descontrolados, trabajos, clústeres sobreutilizados. y más. Los clientes pueden personalizar aún más estas alertas y hasta crear funciones avanzadas de administración de trabajos y clústeres. Estas funciones les permiten a los clientes administrar su flota a gran escala. |
Dataproc en Google Distributed Cloud (GDC) | Dataproc on GDC te permite ejecutar Spark en el dispositivo perimetral de GDC en tu centro de datos. Ahora puedes usar las mismas aplicaciones de Spark en Google Cloud y en los datos sensibles de tu centro de datos. |
Dataproc Metastore multirregional | Dataproc Metastore es un almacén de metadatos de Hive (HMS) completamente administrado y con alta disponibilidad que ofrece control de acceso detallado. Dataproc Metastore multirregional proporciona DR activa/activa y resiliencia frente a interrupciones regionales. |
Precios
Los precios de Dataproc se calculan según la cantidad de CPU virtuales y el tiempo por el que se ejecutan. Si bien los precios indican tarifas por hora, cobramos por segundo para que solo pagues por lo que usas.
P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48
Consulta la página de precios para obtener detalles.
Socios
Dataproc se integra a socios clave para complementar tus inversiones existentes y adaptarse a cualquier nivel de habilidad.
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.