Ir a
Dataproc

Dataproc

Dataproc es un servicio completamente administrado y con alto escalamiento para ejecutar Apache Hadoop, Apache Spark, Apache Flink, Presto y más de 30 herramientas y frameworks de código abierto. Usa Dataproc para la modernización del data lake, ETL y la ciencia de datos segura a gran escala y completamente integrada a Google Cloud por una fracción del costo.

  • Flexible: Usa sin servidores o administra clústeres en Google Compute y Kubernetes. Implementa una solución recomendada por Google que unifique los data lakes y los almacenes de datos para almacenar, procesar y analizar datos estructurados y no estructurados.

  • Abierto: Ejecuta análisis de datos de código abierto a gran escala con seguridad de nivel empresarial

  • Inteligencia: Permite a los usuarios de datos mediante integraciones con Vertex AI, BigQuery y Dataplex

  • Seguro: Configura la seguridad avanzada como Kerberos, Apache Ranger y la autenticación personal.

  • Rentable: Obtén un TCO un 54% más bajo en comparación con los data lakes locales con precios por segundo.

Beneficios

Moderniza el procesamiento de tus datos de código abierto

La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%. Crea y entrena modelos 5 veces más rápido.

OSS inteligente y sin interrupciones para la ciencia de datos

Permite que los científicos y analistas de datos realicen trabajos de ciencia de datos sin problemas a través de integraciones nativas con BigQuery, Dataplex, Vertex AI y notebooks de OSS como JupyterLab.

Seguridad empresarial integrada en Google Cloud

Funciones de seguridad como la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK) Agrega una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. 

Características clave

Características clave

Software de código abierto de macrodatos completamente administrado y automatizado

La implementación, el registro y la supervisión sin servidores te permiten enfocarte en los datos y las estadísticas, no en la infraestructura. Reduce el TCO de la administración de Apache Spark en hasta un 54%.Permite que los ingenieros y científicos de datos compilen y entrenen modelos 5 veces más rápido, en comparación con los notebooks tradicionales, mediante la integración con Vertex AI Workbench. La API de Dataproc Jobs facilita incorporar el procesamiento de macrodatos en aplicaciones personalizadas, mientras que Dataproc Metastore elimina la necesidad de ejecutar tu propio metastore o servicio de catálogo de Hive.

Aloja en contenedores los trabajos de Apache Spark con Kubernetes

Crea trabajos de Apache Spark con Dataproc en Kubernetes a fin de que puedas usar Dataproc con Google Kubernetes Engine (GKE) para proporcionar portabilidad a los trabajos y aislarlos.

Seguridad empresarial integrada en Google Cloud

Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, algunas de las funciones de seguridad específicas de Google Cloud que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, el Acceso al SO, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.

Lo mejor del código abierto con lo mejor de Google Cloud

Dataproc te permite aprovechar las herramientas de código abierto, los algoritmos y los lenguajes de programación que usas actualmente y te facilita aplicarlos a conjuntos de datos a escala de nube. Al mismo tiempo, Dataproc está listo para integrarlo en el resto del ecosistema de IA, base de datos y estadísticas de Google Cloud. Los ingenieros y científicos de datos pueden acceder con rapidez a los datos y compilar aplicaciones de datos que conectan Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub o Data Fusion.

Ver todas las características

Documentación

Documentación

Google Cloud Basics

Spark sin servidores

Envía trabajos de Spark que se aprovisionan automáticamente y se escalan automáticamente. Obtén más detalles con el vínculo que aparece a continuación.
APIs & Libraries

Acciones de inicialización de Dataproc

Agrega otros proyectos de OSS a tus clústeres de Dataproc con las acciones de inicialización compiladas con anterioridad.
APIs & Libraries

Conectores de código abierto

Descubre bibliotecas y herramientas para la interoperabilidad con Apache Hadoop.
APIs & Libraries

Plantillas de flujo de trabajo de Dataproc

La API de plantillas de flujo de trabajo de Dataproc proporciona un mecanismo fácil de usar y flexible para administrar y ejecutar flujos de trabajo.

¿No encuentras lo que buscas?

Casos de uso

Casos de uso

Caso de uso
Migra a la nube tus clústeres de Hadoop y Spark

Las empresas están migrando a Dataproc sus clústeres locales existentes de Apache Hadoop y Spark para administrar los costos y aprovechar la potencia del escalamiento elástico. Con Dataproc, las empresas obtienen un clúster completamente administrado y diseñado para propósitos específicos que puede realizar ajustes de escala automáticos a fin de respaldar cualquier trabajo de procesamiento de estadísticas o datos.

Todas las características

Todas las funciones

Spark sin servidores
Escribe aplicaciones y canalizaciones de Spark que se escalan de forma automática sin aprovisionamiento ni ajuste manual de infraestructura.
Clústeres con tamaños ajustables
Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidades de nodos y opciones de herramientas de redes.
Ajuste de escala automático de clústeres
El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática.
Integración en la nube
La integración incorporada en Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Bigtable, Cloud Logging y Cloud Monitoring te brinda datos más completos y sólidos.
Configuración manual o automática
Dataproc configura hardware y software de forma automática, pero también permite el control manual.
Herramientas para desarrolladores
Hay distintas maneras de administrar un clúster, como usar una IU web fácil de usar, el SDK de Cloud, las API RESTful y el acceso mediante SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas que necesite cuando se cree un clúster.
Componentes opcionales
Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Presto y otros componentes de software de código abierto relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes y contenedores personalizados
Spark sin servidores de Dataproc se puede aprovisionar con contenedores de Docker personalizados. Los clústeres de Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para ajustar el tamaño a tus necesidades a la perfección.
Plantillas de flujos de trabajo
Las plantillas de flujos de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para administrar y ejecutar flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar.
Administración automatizada de políticas
Estandariza las políticas de infraestructura, seguridad y costos en una flota de clústeres. Puedes crear políticas para la administración de recursos, la seguridad o la red a nivel de proyecto. También puedes facilitar a los usuarios el uso de las imágenes, los componentes, el almacén de metadatos y otros servicios periféricos correctos, lo que te permite administrar tu flota de clústeres y políticas de Spark sin servidores en el futuro.
Alertas inteligentes
Las alertas recomendadas de Dataproc permiten a los clientes ajustar los umbrales de las alertas preconfiguradas para recibir avisos sobre clústeres inactivos, descontrolados, trabajos, clústeres sobreutilizados. y más. Los clientes pueden personalizar aún más estas alertas y hasta crear funciones avanzadas de administración de trabajos y clústeres. Estas funciones les permiten a los clientes administrar su flota a gran escala.
Dataproc en Google Distributed Cloud (GDC)
Dataproc on GDC te permite ejecutar Spark en el dispositivo perimetral de GDC en tu centro de datos. Ahora puedes usar las mismas aplicaciones de Spark en Google Cloud y en los datos sensibles de tu centro de datos.
Dataproc Metastore multirregional
Dataproc Metastore es un almacén de metadatos de Hive (HMS) completamente administrado y con alta disponibilidad que ofrece control de acceso detallado. Dataproc Metastore multirregional proporciona DR activa/activa y resiliencia frente a interrupciones regionales.

Precios

Precios

Los precios de Dataproc se calculan según la cantidad de CPU virtuales y el tiempo por el que se ejecutan. Si bien los precios indican tarifas por hora, cobramos por segundo para que solo pagues por lo que usas.

P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48

Consulta la página de precios para obtener detalles.

Socios

Socios

Dataproc se integra a socios clave para complementar tus inversiones existentes y adaptarse a cualquier nivel de habilidad.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Consola
Google Cloud