Build a modern, unified analytics data platform with Google Cloud

Obtén información sobre los puntos de decisión necesarios para crear una plataforma de datos de estadísticas unificada y moderna compilada en Google Cloud.

Autores: Firat Tekiner y Susan Pierce

Descripción general

Hay una gran cantidad de datos que se están creando. La investigación de IDC indica que los datos mundiales alcanzarán los 175 zettabytes en 20251. El volumen de datos que se generan a diario es asombroso, y cada vez es más difícil para las empresas recopilarlos, almacenarlos y organizarlos de forma accesible y utilizable. De hecho, el 90% de los profesionales de datos dice que su trabajo se ve ralentizado por fuentes de datos poco confiables. Alrededor del 86% de los analistas de datos tiene dificultades con datos desactualizados, y más del 60% de los trabajadores de datos se ven afectados por tener que esperar en recursos de ingeniería todos los meses mientras se limpian y preparan sus datos2.

Las estructuras organizativas ineficientes y las decisiones arquitectónicas contribuyen a la brecha que las empresas tienen entre la agregación de datos y el hecho de que les sirva. Las empresas quieren migrar a la nube para modernizar sus sistemas de análisis de datos, pero eso por sí solo no resuelve los problemas subyacentes de fuentes de datos aisladas y canalizaciones de procesamiento frágiles. Las decisiones estratégicas en torno a la propiedad de los datos y las decisiones técnicas sobre los mecanismos de almacenamiento deben tomarse de manera holística para que una plataforma de datos sea más exitosa para su organización.

En este artículo, analizaremos los puntos de decisión necesarios para crear una plataforma de datos de estadísticas unificada y moderna compilada en Google Cloud.

Los macrodatos crearon oportunidades increíbles para las empresas en las últimas dos décadas. Sin embargo, es complicado para las organizaciones presentar a sus usuarios empresariales datos relevantes, prácticos y oportunos. Las investigaciones demuestran que el 86% de los analistas todavía tienen problemas con los datos desactualizados3 y solo el 32% de las empresas creen que obtienen un valor tangible de sus datos4. El primer problema es la actualización de los datos. El segundo problema surge de la dificultad de integrar sistemas heredados y distintos en silos. Las organizaciones están migrando a la nube, pero eso no resuelve el problema real de los sistemas heredados más antiguos que podrían haberse estructurado verticalmente para satisfacer las necesidades de una sola unidad de negocios.

imagen de los tipos de organizaciones que migran a Cloud

Cuando planificas las necesidades de datos organizacionales, es fácil generalizar demasiado y considerar una estructura única y simplificada en la que hay un conjunto de fuentes de datos coherentes, un almacén de datos empresarial, un conjunto de semántica y una herramienta para la inteligencia empresarial. Podría funcionar para una organización muy pequeña y altamente centralizada, y hasta para una sola unidad de negocios que tenga su propio equipo integrado de ingeniería de datos y TI. Sin embargo, en la práctica, ninguna organización es tan simple y siempre existen complejidades sorpresa en la transferencia, el procesamiento o el uso de datos que complican aún más el asunto.

Lo que observamos al hablar con cientos de clientes es la necesidad de un enfoque más integral de los datos y los análisis, una plataforma que pueda satisfacer las necesidades de múltiples unidades de negocios y arquetipos de usuarios, con la menor cantidad de pasos redundantes para procesar los datos. Esto se convierte en algo más que una nueva arquitectura o un conjunto de componentes de software para comprar, requiere que las empresas analicen su madurez general de datos y realicen cambios organizativos y sistémicos, además de actualizaciones técnicas.

Para finales de 2024, el 75% de las empresas pasarán de la prueba piloto a la puesta en funcionamiento de la IA, lo que generará un aumento 5 veces mayor en las infraestructuras de estadísticas y datos de transmisión5. Es lo suficientemente fácil como para poner a prueba la IA con un equipo de ciencia de datos de cuerpo entero que trabaje en un entorno aislado. Sin embargo, el desafío fundamental que impide que esas estadísticas se publiquen en los sistemas de producción es la fricción organizacional y de la arquitectura que mantiene segmentada la propiedad de los datos. Como resultado, la mayoría de los conocimientos que se incorporan a las operaciones comerciales de una organización son de naturaleza descriptiva, y el análisis predictivo se delega al dominio de un equipo de investigación.

imagen de la cita: “Google Cloud combina la forma en que las empresas piensan sobre los datos, ya que se enfoca no solo en la tecnología, sino también en los usuarios”.

Una plataforma para todos los usuarios a lo largo del ciclo de vida de los datos

El trabajo con los datos pocas veces lo realiza una sola persona; en una organización hay muchos usuarios relacionados con los datos que desempeñan roles importantes en el ciclo de vida de los datos. Cada uno tiene una perspectiva diferente en cuanto a la administración de datos, la actualidad, la visibilidad, los metadatos, los cronogramas de procesamiento, la capacidad de consulta y mucho más. En la mayoría de los casos, todos usan sistemas y software diferentes para operar con los mismos datos, en diferentes etapas del procesamiento.

Veamos, por ejemplo, el ciclo de vida del aprendizaje automático. Un ingeniero de datos puede ser responsable de garantizar que los datos actualizados estén disponibles para el equipo de ciencia de datos, con las restricciones de seguridad y privacidad adecuadas. Un científico de datos puede crear conjuntos de datos de entrenamiento y prueba basados en un conjunto dorado de fuentes de datos agregados previamente del ingeniero de datos, compilar y probar modelos y poner las estadísticas a disposición de otro equipo. Es posible que un ingeniero del AA sea responsable de empaquetar el modelo para implementarlo en los sistemas de producción, de una manera que no afecte otras canalizaciones de procesamiento de datos. Es posible que un gerente de producto o un analista de negocios esté consultando estadísticas derivadas con Data QnA (una interfaz de lenguaje natural para el análisis de datos de BigQuery), software de visualización o podría consultar el conjunto de resultados directamente a través de un IDE o una interfaz de línea de comandos. Existen innumerables usuarios con diferentes necesidades, y creamos una plataforma de compresión para satisfacerlos a todos. Google Cloud se adapta a las necesidades de los clientes conforme a su situación actual, con herramientas para satisfacer las necesidades de la empresa. 

imagen de varios tipos de usuarios y sus necesidades

La gran decisión de macrodatos: ¿almacén de datos o data lake?

Cuando hablamos con los clientes sobre sus necesidades de análisis de datos, con frecuencia escuchamos la pregunta “¿Qué necesito: un data lake o un almacén de datos?”. Dada la variedad de usuarios de datos y las necesidades dentro de una organización, esta puede ser una pregunta difícil de responder que depende del uso previsto, los tipos de datos y el personal.

  • Si sabes qué conjuntos de datos necesitas analizar, tienes una comprensión clara de su estructura y tienes un conjunto conocido de preguntas que necesitas que se respondan, es probable que estés consultando un almacén de datos
  • Por otro lado, si necesita visibilidad en varios tipos de datos, no estás seguro de qué tipos de análisis deberás ejecutar, buscas oportunidades para explorar en lugar de presentar estadísticas y tiene los recursos para administrar y explorar esto de manera eficaz. Es probable que un data lake se adapte mejor a tus necesidades.

Pero la decisión tiene mucho más que ver, así que hablemos sobre algunos de los desafíos organizacionales de cada uno. Los almacenes de datos suelen ser difíciles de administrar. Los sistemas heredados que funcionaron bien en los últimos 40 años demostraron ser muy costosos y plantean muchos desafíos en relación con la actualidad de los datos, el escalamiento y los altos costos. Además, no pueden proporcionar IA o capacidades en tiempo real con facilidad sin incorporar esa funcionalidad con posterioridad. Estos problemas no solo están presentes en los almacenes de datos heredados locales; con los almacenes de datos basados en la nube recientemente creados. A pesar de sus afirmaciones, muchos no ofrecen capacidades de IA integradas. Estos almacenes de datos nuevos son, en esencia, los mismos entornos heredados, pero se trasladaron a la nube. Los usuarios de almacenes de datos tienden a ser analistas y, con frecuencia, están incorporados dentro de una unidad de negocios específica. Pueden tener ideas sobre conjuntos de datos adicionales que serían útiles para profundizar su comprensión del negocio. Pueden tener ideas para mejorar el análisis, el procesamiento de datos y los requisitos de la funcionalidad de inteligencia empresarial. 

Sin embargo, en una organización tradicional, a menudo no tienen acceso directo a los propietarios de los datos ni pueden influir con facilidad en los encargados de tomar decisiones técnicas que deciden los conjuntos de datos y las herramientas. Además, debido a que se mantienen separados de los datos sin procesar, no pueden probar hipótesis o impulsar una comprensión más profunda de los datos subyacentes. Los data lakes tienen sus propios desafíos. En teoría, son de bajo costo y fáciles de escalar, pero muchos de nuestros clientes han visto una realidad diferente en sus data lakes locales. Planificar y aprovisionar suficiente almacenamiento puede ser costoso y difícil, especialmente para las organizaciones que producen cantidades de datos muy variables. Los data lakes locales pueden ser frágiles y el mantenimiento de los sistemas existentes lleva tiempo. En muchos casos, los ingenieros, que de otro modo estarían desarrollando nuevas funciones, deben dedicarse al cuidado y la alimentación de los clústeres de datos. Dicho de manera más directa, mantienen el valor en lugar de crear uno nuevo. En general, el costo total de propiedad es más alto de lo esperado para muchas empresas. No solo eso, la gobernanza no se resuelve fácilmente en todos los sistemas, en especial cuando diferentes partes de la organización usan modelos de seguridad distintos. Como resultado, los data lakes se separan y segmentan, lo que dificulta compartir datos y modelos entre equipos. 

Los usuarios de data lakes suelen estar más cerca de las fuentes de datos sin procesar y cuentan con herramientas y capacidades para explorar los datos. En las organizaciones tradicionales, estos usuarios tienden a centrarse en los datos en sí y, con frecuencia, se mantienen a poca distancia del resto de la empresa. Esta desconexión significa que las unidades de negocios pierden la oportunidad de encontrar estadísticas que impulsarían sus objetivos comerciales hacia mayores ingresos, costos más bajos, menos riesgo y nuevas oportunidades. Debido a estas compensaciones, muchas empresas terminan con un enfoque híbrido, en el que un data lake se configura para convertir algunos datos en un almacén de datos o un almacén de datos tiene un data lake lateral para pruebas y análisis adicionales. Sin embargo, con varios equipos que fabrican sus propias arquitecturas de datos para satisfacer sus necesidades individuales, el uso compartido de datos y la fidelidad se vuelven aún más complicados para un equipo central de TI. En lugar de tener equipos separados con objetivos distintos, donde uno explora el negocio y otro lo comprende, puedes unir estas funciones con sus sistemas de datos para crear un círculo virtuoso en el que una comprensión más profunda del negocio impulse la exploración directa y esa exploración una mejor comprensión del negocio.

imagen que compara los casos de uso del almacén de datos y data lake
Esto requiere convergencia tanto en la tecnología como en el enfoque para comprender y descubrir el valor de los datos.

Trata el almacenamiento del almacén de datos como un data lake

Puedes compilar un almacén de datos o un data lake por separado en Google Cloud, pero no es necesario que elijas uno o el otro. En muchos casos, los productos subyacentes que usan nuestros clientes son los mismos para ambos, y la única diferencia entre la implementación del data lake y el almacén de datos es la política de acceso a los datos que se emplea. De hecho, los dos términos están empezando a converger en un conjunto de funciones más unificado: una plataforma de datos analítica moderna. Veamos cómo funciona esto en Google Cloud.

imagen

La API de BigQuery Storage proporciona la capacidad de usar BigQuery Storage para otros sistemas, como Dataflow y Dataproc. Esto permite desglosar el muro de almacenamiento del almacén de datos y ejecutar marcos de datos de alto rendimiento en BigQuery. En otras palabras, la API de BigQuery Storage permite que tu almacén de datos de BigQuery actúe como un data lake. ¿Cuáles son algunos de sus usos prácticos? Por un lado, creamos una serie de conectores, por ejemplo, MapReduce, Hive, Spark, para que puedas ejecutar tus cargas de trabajo de Hadoop y Spark directamente en tus datos en BigQuery. Ya no necesitas un data lake además de tu almacén de datos. Dataflow es increíblemente potente para el procesamiento de transmisión y por lotes. En la actualidad, puedes ejecutar trabajos de Dataflow sobre los datos de BigQuery y enriquecerlos con datos de Pub/Sub, Spanner o cualquier otra fuente de datos.

BigQuery puede escalar de forma independiente el almacenamiento y el procesamiento, y cada uno funciona sin servidores, lo que permite un escalamiento ilimitado para satisfacer la demanda sin importar el uso de diferentes equipos, herramientas y patrones de acceso. Todas las aplicaciones anteriores pueden ejecutarse sin afectar el rendimiento de cualquier otro trabajo que acceda a BigQuery al mismo tiempo. Además, la API de BigQuery Storage proporciona una red a nivel de petabytes que traslada datos entre nodos para entregar una solicitud de consulta de manera eficaz, lo que genera un rendimiento similar al de una operación en la memoria. También permite federar directamente con los formatos de datos populares de Hadoop, como Parquet y ORC, así como bases de datos NoSQL y OLTP. Puedes ir un paso más allá con las funciones que proporciona Dataflow SQL, que está incorporada en BigQuery. Esto te permite unir las transmisiones con tablas o datos de BigQuery alojados en archivos, lo que crea una arquitectura lambda de forma eficaz, lo que te permite transferir grandes cantidades de datos por lotes y de transmisión, a la vez que proporciona una capa de servicio para responder a las consultas. BigQuery BI Engine y las vistas materializadas facilitan aún más el aumento de la eficiencia y el rendimiento en esta arquitectura de varios uso.

La plataforma de analítica inteligente de Google con la tecnología de BigQuery

Las soluciones de datos sin servidores son absolutamente necesarias para permitir que tu organización avance más allá de los silos de datos y vaya al dominio de las estadísticas y la acción. Todos nuestros servicios principales de análisis de datos son sin servidores y están estrechamente integrados.

imagen de los servicios principales de análisis de datos
Todos estos servicios se conectan de manera transparente entre sí debido a un diseño claro y una implementación sencilla.

La gestión de cambios suele ser uno de los aspectos más difíciles de incorporar tecnología nueva en una organización. Google Cloud busca satisfacer a nuestros clientes dondequiera que proporcionen herramientas, integraciones y plataformas conocidas tanto para desarrolladores como para usuarios empresariales. Nuestra misión es acelerar la capacidad de tu organización para reimaginar y transformar digitalmente tu negocio mediante la innovación impulsada por los datos, en conjunto. En lugar de depender de proveedores, Google Cloud ofrece a las empresas opciones para realizar integraciones sencillas y optimizadas con entornos on‐premise, otras soluciones en la nube e incluso el perímetro para formar una nube híbrida:

  • BigQuery Omni elimina la necesidad de transferir datos de un entorno a otro y, en cambio, lleva las estadísticas a los datos sin importar el entorno.
  • Apache Beam, el SDK que se aprovecha en Dataflow, proporciona transferibilidad y portabilidad a ejecutores como Apache Spark y Apache Flink
  • Para las organizaciones que buscan ejecutar Apache Spark o Apache Hadoop, Google Cloud ofrece Dataproc

A la mayoría de los usuarios de datos les importa qué datos tienen, no en qué sistema se encuentran. Tener acceso a los datos que necesitan cuando los necesitan es lo más importante. Así que, en general, el tipo de plataforma no importa para los usuarios, siempre y cuando puedan acceder a datos actualizados y utilizables con herramientas conocidas, ya estén explorando conjuntos de datos, gestionando fuentes entre almacenes de datos, ejecutando consultas ad hoc o desarrollando herramientas internas de inteligencia empresarial para partes interesadas ejecutivas.

Imagen de productos relevantes

Cómo abordar los problemas heredados

Si bien suena genial crear una plataforma de datos completamente nueva, entendemos que no todas las empresas estarán en posición de hacerlo. La mayoría se ocupa de sistemas heredados existentes que se deben migrar, portar o aplicar parches hasta que se puedan reemplazar. Trabajamos con los clientes en todas las etapas de su recorrido en la plataforma de datos y tenemos soluciones para satisfacer tu situación.

Por lo general, los clientes presentan tres categorías de migración: lift-and-shift, lift-and-shift y modernización total. Para la mayoría de las empresas, sugerimos comenzar con la efectividad y el cambio de plataforma, ya que ofrece una migración de alto impacto con la menor cantidad posible de interrupciones y riesgo. Con esta estrategia, migras tus datos a BigQuery o Dataproc desde tus almacenes de datos heredados y clústeres de Hadoop. Una vez que se transfieren los datos, puedes optimizar las canalizaciones de datos y las consultas para mejorar el rendimiento. Con una estrategia de migración lift-and-shift, puedes hacerlo en fases, según la complejidad de tus cargas de trabajo. Dada su complejidad, recomendamos este enfoque para clientes empresariales grandes que tengan una TI centralizada y varias unidades de negocios.

La segunda estrategia de migración que vemos con mayor frecuencia es una modernización completa como primer paso. Esto proporciona un descanso limpio del pasado porque se está ampliando con un enfoque nativo de la nube. Se compila de forma nativa en Google Cloud, pero, como cambias todo de una sola vez, la migración puede ser más lenta si tienes varios entornos heredados grandes. 

imagen que resume las opciones heredadas

Una interrupción heredada limpia requiere volver a escribir los trabajos y cambiar aplicaciones diferentes. Sin embargo, también proporciona una mayor velocidad y agilidad, además del menor costo total de propiedad a largo plazo en comparación con otros enfoques. Esto se debe a dos motivos principales: tus aplicaciones ya están optimizadas y no necesitan ser actualizadas. Además, una vez que migres las fuentes de datos, no será necesario que administres dos entornos al mismo tiempo. Este enfoque es más adecuado para organizaciones centradas en ingeniería o nativas digitales con pocos entornos heredados.

Por último, el enfoque más conservador es usar lift-and-shift, que recomendamos como una solución táctica a corto plazo para trasladar tu patrimonio de datos a la nube. Puedes migrar tus plataformas existentes con la modalidad lift-and-shift y seguir usándolas como antes, pero en el entorno de Google Cloud. Esto se aplica a entornos como Teradata y Databricks, por ejemplo, para reducir el riesgo inicial y permitir que se ejecuten las aplicaciones. Sin embargo, esto trae el entorno aislado existente a la nube en lugar de transformarlo, por lo que no te beneficiarás del rendimiento de una plataforma compilada de forma nativa en Google Cloud. Sin embargo, podemos ayudarte con una migración completa a los productos nativos de Google Cloud para que puedas aprovechar la interoperabilidad y crear una plataforma de datos de estadísticas completamente moderna en Google Cloud.

¿Táctica o estratégica?

Creemos que los diferenciadores clave de una plataforma de datos de estadísticas compilada en Google Cloud son que es abierta, inteligente, flexible y está estrechamente integrada. Hay muchas soluciones en el mercado que ofrecen soluciones tácticas que pueden resultar cómodas y familiares. Sin embargo, estos suelen proporcionar una solución a corto plazo y solo acumulan problemas técnicos y de organización con el tiempo.

imagen para la toma de decisiones táctica o estratégica

Google Cloud simplifica en gran medida el análisis de datos. Puedes liberar el potencial oculto en tus datos con un enfoque sin servidores y nativo de la nube que separa el almacenamiento del procesamiento y te permite analizar gigabytes y petabytes de datos en minutos. Esto te permite quitar las restricciones tradicionales de escala, rendimiento y costo para formular preguntas sobre los datos y resolver problemas empresariales. Como resultado, es más fácil poner en funcionamiento estadísticas en toda la empresa con un tejido de datos único y confiable. 

¿Cuáles son los beneficios?

  • Mantiene tu enfoque exclusivamente en el análisis en lugar de la infraestructura.
  • Resuelve cada etapa del ciclo de vida del análisis de datos, desde la transferencia hasta la transformación y el análisis, la inteligencia empresarial y mucho más
  • Crea una base de datos sólida para poner en funcionamiento el aprendizaje automático.
  • Permite aprovechar las mejores tecnologías de código abierto para tu organización.
  • Escala para satisfacer las necesidades de tu empresa, en especial a medida que aumentas el uso de los datos para impulsar tu negocio y la transformación digital

Una plataforma de datos de estadísticas unificada y moderna compilada en Google Cloud te brinda las mejores capacidades de un data lake y un almacén de datos, pero con una integración más estrecha en la plataforma de IA. Puedes procesar automáticamente datos en tiempo real de miles de millones de eventos de transmisión y entregar estadísticas en hasta milisegundos para responder a las necesidades cambiantes de los clientes. Nuestros servicios de IA líderes en la industria pueden optimizar la toma de decisiones de tu organización y las experiencias de los clientes, lo que te ayuda a cerrar la brecha entre las estadísticas descriptivas y prescriptivas sin tener que contratar un nuevo equipo. Puedes mejorar tus habilidades existentes para escalar el impacto de la IA con inteligencia integrada y automatizada.

Da el siguiente paso

¿Te interesa obtener más información sobre cómo la plataforma de datos de Google puede transformar la forma en que tu empresa maneja los datos? Comunícate con nosotros para comenzar.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Consola
Google Cloud