Compilación de un data lake en Google Cloud Platform

Almacena, procesa y analiza grandes volúmenes de datos de manera ágil y rentable.

Descripción general de los data lake de Cloud

Un lugar para capturar y usar todos tus datos

Almacena tus datos sin procesar, estructurados o no, en Google Cloud Platform y sepáralos de los recursos de procesamiento. De esta manera, no tendrás que usar modelos de almacenamiento locales y costosos. Olvídate de tener que procesar previamente los datos y de tener que diseñar esquemas para administrar los tipos de datos nuevos. Aprovecha los servicios de vanguardia de aprendizaje automático, análisis y procesamiento de Google Cloud Platform a fin de implementar casos prácticos significativos para tu empresa. Utiliza la misma infraestructura con diseño de seguridad integral que usa Google para proteger las identidades, las aplicaciones y los dispositivos.

De la transferencia a las estadísticas

Datos en un data lake de GCP

Pasar los datos a tu data lake de GCP

De los lotes a la transferencia, Google Cloud Platform facilita el traspaso de tus datos sin importar su ubicación en la nube. Si necesitas migrar datos en tu red, con un dispositivo de transferencia sin conexión o mediante la captura de transmisiones en tiempo real, los productos y servicios de GCP se ajustarán a la escala de tus necesidades, sin complejidad.

Almacenar petabytes de datos

Almacenar petabytes de datos

Usa Cloud Storage como el concentrador central de tu data lake y disfruta los beneficios de su coherencia sólida, su diseño de alta durabilidad (para un 99.999999999% de disponibilidad) y su capacidad de almacenar datos en reposo (sin depender de los recursos de procesamiento, como con los modelos locales tradicionales). Además, las diversas clases de almacenamiento de Google Cloud Storage permiten optimizar el costo y la disponibilidad, a fin de crear data lakes rentables en la escala de petabytes. Y lo más importante es que los datos almacenados en Google Cloud Storage son de fácil acceso para muchos otros productos de Google Cloud Platform, por lo que es el centro de almacenamiento ideal para todo tipo de recurso de datos en cualquier caso práctico.

Procesamiento de datos

Procesa los datos como más te acomode

Con data lake en Cloud Storage, tienes la opción de procesar los datos como más le convenga a tu empresa. Usa Cloud Dataproc, el servicio de Hadoop y Spark completamente administrado de GCP, y aprovecha la experiencia de Hadoop en tu organización para crear clústeres según demanda. Además, solo tendrás que pagar por el tiempo que tarden los trabajos en ejecutarse. Tampoco te pierdas Cloud Dataflow, el servicio de Apache Beam completamente administrado de GCP, así podrás usar cargas de trabajo de transmisión y por lotes en una experiencia de procesamiento de datos sin servidores que quita la complejidad del aprovisionamiento y la administración.

Almacén de datos sin servidores

Almacenes de datos sin servidores para la obtención de estadísticas, además del data lake

Usa BigQuery, el almacén de datos sin servidores a escala de petabytes de GCP para realizar análisis de datos estructurados de tu data lake. Aprovecha sus altísimas velocidades de consulta de grandes volúmenes de datos que te permitirán apoyar las necesidades de generación de informes empresariales y de inteligencia comercial. Utiliza sus capacidades integradas de aprendizaje automático, a las que se puede acceder en un entorno SQL familiar, y promueve una cultura centrada en los datos dentro de tu empresa.

Estadísticas avanzadas con AA

Estadísticas avanzadas con el aprendizaje automático

Con tu data lake en GCP, podrás realizar experimentos de ciencia de datos y crear modelos de aprendizaje automático basados en los recursos de datos que se hayan almacenado en Cloud Storage. Usa las integraciones nativas junto con los productos de Cloud AI de vanguardia de Google para realizar todo tipo de tareas, desde obtener estadísticas de recursos de imágenes y videos hasta personalizar, implementar y escalar tus propios modelos de AA personalizados con Cloud Machine Learning Engine.

Mapea las cargas de trabajo del data lake de Hadoop local a los productos de GCP

Compilar un data lake en la nube en GCPSÍ NO Proceso datos de transmisión Usamos Apache Beam Usamos Apache Spark o Kafka Cloud Dataflow Cloud Dataproc Cloud Dataproc Realizo análisis de datos interactivos o consultas ad-hoc Usamos Apache Spark con notebook web interactivas ¿Te interesa mantener estas consultas de SQL tal como están?oCloud Dataproc en combinación con los componentes opcionales de Jupyter o Zeppelin Cloud Dataproc No, me interesa obtener más información sobre una solución sin servidoresSÍ NO No, me interesa obtener más información sobre una solución administrada.BigQuery Usamos SQL con Apache Hive, Apache Drill, Impala, Presto o productos similares Cloud Dataproc Cloud Dataproc Realizo procesamiento de ELT/ETL o por lotes Usamos MapReduce, Spark, Pig o Hive Usamos Oozie para organizar los flujos de trabajo Cloud Composer ¿Te interesa mantener estas tareas de flujo de trabajo tal como están?OAdmito cargas de trabajo NoSQL Usamos Apache Accumulo Cloud Dataproc SÍ NO ¿Necesitas usar coprocesadores o SQL con Apache Phoenix?Cloud Dataproc Cloud Bigtable Usamos Apache HBase Ejecuto un clúster de Apache Hadoop a nivel local

Recursos

Arquitecturas de data lake en Google Cloud Platform

Profundizar y llenar los data lakes (Cloud Next ’18)

Diez sugerencias para compilar clústeres de larga duración con Cloud Dataproc

Construye un almacén de datos de marketing

Migra la infraestructura local de Hadoop a Google Cloud Platform