El futuro de los datos será unificado, flexible y accesible

Los negocios y empresas emergentes del sector tecnológico están aprendiendo que, para tener éxito:

- Los datos deben estar unificados para toda la empresa, incluso para los proveedores y partners. Esto implica desbloquear datos no estructurados y acabar con los silos de organización y tecnología.

- Su pila tecnológica debe ser lo suficientemente flexible como para admitir casos prácticos, como el análisis de datos offline o el aprendizaje automático en tiempo real.

- La pila también debe ser accesible desde cualquier lugar. Debe ser compatible con diferentes plataformas, lenguajes de programación, herramientas y estándares abiertos.

Por qué sacar el máximo partido a los datos puede ser una ventaja competitiva

Todos sabemos que los datos son importantes, pero hay muy pocas empresas que pueden extraer información valiosa e innovadora de sus negocios y de sus clientes. ¿Qué significa sacar el máximo partido a tus datos? ¿Por qué supone un desafío?

Aprovechar al máximo los datos significa que puedes tomar decisiones relativas a tus productos y operaciones usando los datos. Así que hazte algunas preguntas. ¿Sabes cómo están cambiando las expectativas de tus clientes? ¿Usas datos para mejorar la experiencia de los clientes? En lo que al desafío se refiere, pregúntate a qué están dedicando su tiempo hoy tus ingenieros y científicos de datos.

Los datos son fundamentales a la hora de impulsar la innovación de los productos y de la experiencia de usuario, junto con decisiones generales de comercialización. Si aprovechas tus datos correctamente, puedes disfrutar de una ventaja competitiva significativa. Por eso, la mayoría de los negocios y empresas emergentes del sector tecnológico están sometidos a una enorme presión para ir un paso más allá, modernizarse y operar a una escala cada vez mayor, justificar los costes de datos actuales y futuros y mejorar la madurez y la toma de decisiones de su empresa.

Sin embargo, existen desafíos en cuanto al acceso, al almacenamiento, a las herramientas incoherentes, al cumplimiento y a la seguridad que dificultan la tarea de profundizar y extraer información valiosa de tus datos.

Es posible que hayas heredado sistemas antiguos que estás intentando combinar con otros nuevos. ¿Deberían estar todos tus datos en una misma nube? ¿O deberían distribuirse entre varias nubes? ¿Cómo modernizas las pilas de analíticas (que siempre se han integrado en vertical) para que funcionen con plataformas que se puedan escalar horizontalmente?

También puede que estés agregando o agrupando tus datos por lotes en lugar de procesarlos en tiempo real. El sistema de orquestación y la programación resultantes añaden complejidad a tu arquitectura y requieren mantenimiento en torno a la contención y la resiliencia. Las operaciones que conllevan la gestión y el mantenimiento de la arquitectura por lotes son caras, y sigues teniendo que ceder en cuanto a latencia de los datos.

Al no contar con acceso sencillo a todos tus datos y no tener la capacidad de procesarlos y analizarlos cuando los recibes, estás en desventaja. La pila tecnológica moderna debe ser una pila de streaming que se ajuste a la escala de tus datos, utilice los datos disponibles más recientes e incorpore e interprete datos no estructurados. Además, los equipos de analíticas más avanzados han pasado de centrarse en la operación a pasar a la acción usando la IA y el aprendizaje automático para experimentar e implementar procesos.

Cómo hacer que tus datos trabajen para ti para poder centrarte en la innovación

¿Qué significa que tus datos trabajen para ti? Significa mejorar la experiencia que ofreces a tus clientes, llegar a otros nuevos y lograr mejores resultados. Básicamente, se trata de ser capaz de innovar. Te recomendamos dos principios para elegir una plataforma de datos que te ayude a conseguir estos resultados

Principio 1: Simplicidad y escalabilidad

Es probable que ahora mismo tengas muchos datos a tu disposición. Puede que estén creciendo exponencialmente y que quieras conservar o aumentar tu retorno de la inversión mientras mantienes el volumen. Quizás estés anticipando cuántos datos tendrás en el futuro (por ejemplo, un terabyte) y diseñando tus sistemas para procesar esa cantidad sabiendo que, si el crecimiento supera las expectativas, necesitarás una migración del sistema a gran escala. O tal vez hayas elegido un almacén de datos que se puede escalar hasta el crecimiento esperado, pero el aumento de las necesidades de procesamiento está dificultando su gestión.

Los sistemas más pequeños suelen ser más sencillos. Sin embargo, ya no tienes que elegir entre un sistema fácil de usar y uno muy escalable. La arquitectura sin servidor acaba con la necesidad de gestionar clústeres y te permite controlar recursos de computación y almacenamiento a gran escala para que no tengas que preocuparte más por que el tamaño de los datos supere tu capacidad técnica.

Por simplicidad y escalabilidad, recomendamos una plataforma de datos sin servidor. Te recomendamos que descartes todas las opciones que requieran instalar software, gestionar clústeres o ajustar consultas.

Principio 2: Agilidad y reducción de costes

Cualquier sistema de gestión de datos que combine la computación y el almacenamiento te obligará a escalar la computación para gestionar el aumento del volumen de datos, aunque no lo necesites. Esto puede resultar caro, y es posible que tengas que hacer concesiones, como almacenar solo los datos de los últimos doce meses en tu almacén de analíticas. También es posible que decidas no incluir datos porque no tienes ningún caso práctico inmediato, y más adelante te des cuenta de que no puedes probar una hipótesis porque no hay datos y necesitarías un nuevo flujo de procesamiento para empezar.

Otros sistemas te dejan a medio camino: te permiten escalar y pagar por los recursos de computación y almacenamiento de forma independiente, pero con una configuración, escalabilidad y optimización manuales de los clústeres. Si quieres reducir la gestión de la infraestructura al máximo, te recomendamos un almacén de datos multinube sin servidor que ofrezca mayor fiabilidad, rendimiento y protección de datos integrada (como BigQuery).

Además de los costes y la gestión, también deberías tener en cuenta la agilidad. Cuando cambian tus datos, ¿cuánto tardas en detectarlo y reaccionar? Cuando hay una nueva versión de un software o de una herramienta que usas, ¿cuánto tiempo tardas en adoptar sus nuevas funciones? El camino hacia una mayor agilidad consiste en elegir herramientas flexibles que requieran menos manipulación y que se puedan aplicar a una amplia variedad de cargas de trabajo.

Las consultas en sistemas como Redshift deben optimizarse para que sean eficientes. Esto limita la cantidad de experimentos que puedes realizar, por lo que quizá solo extraigas o introduzcas datos cuando sospeches que hay un problema. Las concesiones que haces debido a la falta de separación entre recursos de computación y almacenamiento, así como la necesidad de optimizar el almacén de datos, te dejan con poco margen de maniobra.

Con una herramienta como BigQuery, no tendrás que planificar consultas con antelación ni indexar tus conjuntos de datos. El almacenamiento y la computación separados te permiten acceder a los datos sin tener que preocuparte de que aumente el coste de las consultas. Además, los científicos de datos pueden experimentar sin tener que preocuparse por los clústeres ni por el tamaño de sus almacenes de datos para probar nuevas ideas con consultas ad hoc.

Hemos visto cómo una plataforma sencilla, escalable, flexible y rentable te sitúa en la posición adecuada para innovar. Ahora, hablaremos de cómo pueden ayudarte tus datos a hacerlo posible.

Tomar decisiones basadas en datos en tiempo real

El ritmo al que el negocio se desarrolla no deja de acelerarse. Las expectativas de los clientes también han cambiado. Mientras que antes era posible conciliar una transacción o aprobar una devolución en un plazo de tres días, ahora tienes que responder inmediatamente. El aumento de la rapidez e inmediatez de la toma de decisiones supone una mayor necesidad de streaming.

Quieres poder obtener datos en tiempo real y ponerlos a disposición de los equipos de tu empresa para consultas con baja latencia. También quieres asegurarte de que tus flujos de procesamiento de streaming sean escalables y resilientes, y tengan un bajo coste de gestión. Es la única forma que tiene tu equipo de reaccionar en tiempo real a la velocidad de tu empresa. No es de extrañar que BigQuery ofrezca compatibilidad nativa con la ingestión de datos de streaming y los ponga a disposición de los usuarios de forma inmediata para analizarlos mediante SQL. Además de la sencilla API de Streaming de BigQuery, en Dataflow puedes gestionar tus cargas de trabajo estacionales y con picos sin gastar más de la cuenta.

Acabar con los silos de datos

Algunas empresas acaban creando silos porque almacenan datos por separado en diferentes departamentos y unidades de negocio, de forma que cada equipo posee sus propios datos. Esto significa que, cuando quieras hacer análisis que abarquen varios departamentos, tienes que encontrar la manera de eliminar esos silos, probablemente ejecutando flujos de procesamiento de extracción (ETL) para obtener datos y transferirlos a tu almacén de datos. No obstante, los departamentos que poseen los datos suelen tener muy pocos incentivos para mantener sus flujos de procesamiento; con el tiempo, esos flujos quedan obsoletos y los datos obtenidos acaban desfasados y son menos útiles.

Más allá de los silos organizativos, muchas empresas han adoptado una estrategia multinube basada en las preferencias de los departamentos, la adaptación de las capacidades y la presión normativa. A menudo, estas empresas también se topan con la realidad de los lagos de datos antiguos y de las inversiones en almacenes de datos on-premise. La realidad híbrida y multinube de hoy en día requiere otro nivel de sofisticación a la hora de gestionar y acceder a datos aislados.

Al migrar a un almacén distribuido con un panel de control común, a veces denominado "tejido de datos" o "malla de datos", aumenta la capacidad de acceder a datos de alta calidad en departamentos, nubes y sistemas on‐premise. De este modo, puedes solucionar problemas empresariales, como el rendimiento de los productos o el comportamiento de los clientes, y consultar datos sobre la marcha.

BigQuery proporciona las herramientas tecnológicas que requiere esa malla de datos: los usuarios de tu empresa pueden gestionar, proteger y compartir información valiosa y recursos de datos, así como acceder a ellos, independientemente de quién sea su propietario. Por ejemplo, puedes acceder a todos tus datos en BigQuery y proporcionar funciones reutilizables, vistas materializadas e incluso la capacidad de entrenar modelos de aprendizaje automático sin transferencia de datos. Esto significa que incluso los usuarios que no tengan conocimientos técnicos (y los partners y proveedores que tengan permiso) pueden acceder a SQL y usarlo fácilmente para consultar los datos mediante herramientas populares, como hojas de cálculo y paneles.

Aquí cabe mencionar la analogía del eje los radios. BigQuery es el eje que contiene tus datos. Los radios son herramientas de creación de informes, paneles de control, modelos de aprendizaje automático, aplicaciones web, sistemas de recomendación y mucho más. Todos ellos leen los datos en tiempo real de BigQuery sin tener que copiarlos. Por ejemplo, Looker te ayuda a visualizar tus datos e integrarlos en los flujos de trabajo diarios de los usuarios. Este método te permite mejorar la usabilidad, la seguridad y la calidad de tus datos al mismo tiempo.

Simplificar el acceso a todos tus datos

Históricamente, los lagos de datos suministraban mejor los datos no estructurados y semiestructurados, mientras que los datos estructurados encajaban mejor en los almacenes de datos. Esta separación creaba silos tecnológicos que dificultaban los procesos de tender puentes entre los formatos. Todos los datos se almacenaban en un lago de datos porque era más económico y fácil de gestionar, y luego se transferían a un almacén de datos para que pudieras usar herramientas de analíticas para extraer información valiosa.

La "casa en el lago", un concepto cada vez más popular, combina estos dos mundos en un entorno unificado para todo tipo de datos. Puedes usar BigQuery como almacén de datos y como data lake. La API Storage de BigQuery permite acceder al almacenamiento directamente para ejecutar cargas de trabajo que suelen estar asociadas a los lagos de datos. Como los datos pueden almacenarse en BigQuery como una única fuente de información veraz, es necesario crear y mantener menos copias. En cambio, puedes llevar a cabo procesamientos posteriores mediante transformaciones de SQL que se almacenan en vistas lógicas sin tener que mover los datos.

La facilidad de uso es importante: si puedes obtener resultados de consultas en 30 segundos en lugar de en 30 minutos o 3 horas, es probable que hagas un mayor uso de los datos a la hora de tomar decisiones.

Usar la inteligencia artificial y el aprendizaje automático para experimentar más rápido y poner en marcha cargas de trabajo

¿Con qué velocidad pueden experimentar tus científicos de datos? Es probable que necesiten detener el desarrollo y utilizar sus modelos para evaluar los experimentos con usuarios reales. Desarrollan e iteran en un modelo usando datos históricos antes de entregar el modelo a los ingenieros, que a menudo lo reescriben por completo para incorporarlo en el sistema de producción y hacen pruebas A/B. Luego esperan, hacen iteraciones en el modelo y se encargan de que vuelva a ser productivo. Este ciclo requiere numerosas interrupciones y reescrituras de código, y todos los equipos deben coordinarse entre sí, lo que genera errores. Los científicos de datos no experimentan tanto como podrían, ya que este tipo de experimentación puede requerir mucho tiempo. Esto hace que sea difícil prever cuánto tiempo durará un proyecto y si tendrá éxito, por no decir cuánto tiempo tardará en aplicarse al uso rutinario. Para superar este reto, debes proporcionar a los científicos de datos herramientas potentes, pero que ya conozcan. Gracias a Vertex AI Workbench, los científicos de datos pueden trabajar de manera eficaz en los cuadernos de Jupyter, pero con entrenamiento optimizado, experimentación rápida y despliegue a gran velocidad.

Si realmente quieres marcar la diferencia con los datos, debes extraer el máximo valor que puedas de los datos que recopiles. Para ello, los equipos de ciencia de datos deben ser lo más productivos posible y no deben perder oportunidades de crear modelos porque incluso los elementos sencillos tardan demasiado o son demasiado difíciles.

La calidad de los modelos predefinidos y de código bajo es fundamental. En la solución AutoML de Vertex AI, los mejores modelos de IA están disponibles en un entorno sin código, lo que te permite agilizar las comparativas y la asignación de prioridades. Tener modelos predefinidos, como Entity Extraction o Vertex AI Matching Engine, en tus propios datos acelera significativamente la creación de valor a partir de datos; ya no tienes que limitarte únicamente a la clasificación o la regresión.

La clave para mantener la agilidad de tus datos es hacer experimentos integrales tempranos y frecuentes. Vertex AI Pipelines proporciona un historial de los experimentos que te permite retroceder, comparar con puntos de referencia y endpoints, y hacer pruebas A/B con modelos prototipo. Como el código está en contenedores, se puede usar el mismo código entre los sistemas de desarrollo y de producción. Los científicos de datos trabajan en Python y los ingenieros de producción obtienen contenedores que están encapsulados por completo. Ambos equipos pueden estandarizar implementando los modelos con Vertex AI Prediction, lo que te permite avanzar rápidamente.

Los expertos en un tema suelen usar BigQuery ML para probar la viabilidad de las ideas entrenando modelos personalizados y usando únicamente SQL, sin necesidad de tener experiencia adicional con herramientas tradicionales de ciencia de datos. Esto significa que puedes experimentar en un sistema similar al de producción y realizar estudios de viabilidad en cuestión de días en lugar de meses. El modelo de aprendizaje automático de BigQuery se puede desplegar en Vertex AI para disfrutar de todas las ventajas que acabamos de mencionar. Puedes usar Looker para crear modelos de datos coherentes a partir de todos tus datos y LookML para consultar datos, lo que significa que todos los miembros de la empresa pueden crear informes y paneles de control fáciles de leer para examinar los patrones de los datos.

Para generar valor real en la producción, los sistemas deben ser capaces de ingerir, procesar y suministrar datos, y el aprendizaje automático debe ofrecer servicios personalizados en tiempo real en función del contexto del cliente. No obstante, una aplicación de producción en ejecución requiere que los modelos se vuelvan a entrenar, desplegar y comprobar de forma constante para garantizar la seguridad. Los datos entrantes requieren un preprocesamiento y validación para asegurarse de que no haya problemas de calidad, seguidos de la ingeniería de funciones y el entrenamiento de modelos con el ajuste de hiperparámetros.

Integrar la ciencia de datos y el aprendizaje automático es esencial para orquestar y gestionar fácilmente estos flujos de trabajo de aprendizaje automático multifase y ejecutarlos de forma fiable y repetida. Las herramientas de MLOps y los flujos de trabajo automatizados permiten una entrega continua y rápida y una gestión más sencilla de los modelos para la producción. Todos nuestros productos de inteligencia artificial tienen un flujo de trabajo y un vocabulario sencillos, independientemente del nivel de abstracción. Además, puedes intercambiar fácilmente modelos personalizados y de AutoML, ya que utilizan el mismo formato y la misma base técnica.

Por ejemplo, ¿qué ocurre si quieres aplicar la detección de anomalías a flujos de datos en directo y sin límites para combatir el fraude? Con la metodología correcta, generarías un flujo de datos de muestra para simular el tráfico de red común e ingerirlo en Pub/Sub; a continuación, crearías y entrenarías un modelo de detección de anomalías en BigQuery mediante la agrupación en clúster de K-medias de BigQuery ML después de enmascarar la información personal identificable con DLP. A continuación, aplicarías el modelo a los datos en tiempo real para una detección en tiempo real con Dataflow, y después usarías Looker para crear un panel de control, alertas y acciones para gestionar los eventos identificados.

Por qué es importante elegir un almacén de datos completo

Hemos hablado de BigQuery y de Redshift, pero estas no son las únicas opciones de almacenamiento de datos disponibles. Hay otros productos de analítica de datos, como Snowflake y Databricks, que funcionan en las tres nubes principales. Por lo tanto, si escoges BigQuery, ¿la dependencia de la nube supone un problema?

Lo primero que debes tener en cuenta es que con BigQuery no solo analizas los datos almacenados en Google Cloud. BigQuery Omni te permite consultar tus datos de forma sencilla en Amazon S3 y Azure Blob Storage desde la consola de Google Cloud.

Sin embargo, la realidad es que, si usas Snowflake o Databricks, el coste de migrar de AWS a Google Cloud o viceversa puede ser inferior. Pero ¿cuál es el coste de migrar a otro almacén de datos? ¿Y si quieres migrar de Snowflake a BigQuery, o de Databricks a EMR? Sigue habiendo un coste de cambio, pero la situación es diferente.

Como el coste de migrar existe en cualquier situación, la opción es elegir la herramienta o la plataforma que puede funcionar a largo plazo. Estás tomando una decisión en función de las características diferenciadoras de una plataforma concreta, el coste actual y la frecuencia con la que se añadirá innovación en el futuro. Al elegir Snowflake, estás apostando por que una empresa centrada en el almacenamiento de datos te ofrecerá una innovación más rápida en ese ámbito. Cuando eliges BigQuery, cuentas con una empresa conocida por inventar numerosas tecnologías de datos e inteligencia artificial para seguir innovando en toda la plataforma.

Creemos que una plataforma innovadora y bien integrada impulsa mejor el proceso de innovación. Cuando un servicio gestionado, como Google Kubernetes Engine (GKE), agiliza las cargas de imágenes de contenedor, ayuda a que Spark sin servidor funcione mejor y, dado que Spark sin servidor puede funcionar con datos de BigQuery, este te ofrece un mayor valor. La rueda gira más rápidamente cuando apuestas por una plataforma en lugar de por productos individuales.

Cómo planificar tu migración de datos con confianza

¿Cuánto tiempo tarda la migración de datos? ¿Seis meses? ¿Dos años? ¿Cuánto esfuerzo supone eso? Y ¿merece la pena?

Si vas a migrar de una nube a otra, es probable que te resulte más sencillo que migrar de un sistema on‐premise a la nube, ya que es probable que cuentes con muchos más dispositivos tecnológicos on‐premise; céntrate en tu objetivo, que suele ser algo parecido a "¿A qué velocidad puedo innovar?"

Piensa en todas las cosas innovadoras que quieres hacer y que no estás haciendo hoy en día; a continuación, configura proyectos nuevos y transfiere los datos que necesitas para llevarlos a cabo. Podemos ayudarte a crear estos nuevos casos prácticos y a replicar las fuentes de datos que necesitarás. Durante un tiempo, te encontrarás en un entorno híbrido en el que muchos casos prácticos se ejecutan on-premise, pero se basan en datos que se replican en tiempo real o por lotes desde tu entorno on-premise o tu otro proveedor de servicios en la nube.

El segundo factor es el coste. Observa las costosas instancias de Teradata que estás ejecutando. Los clientes reducen sus costes a la mitad al cambiar a BigQuery, y esas migraciones son mucho más fáciles de lo que eran debido a herramientas de evaluación automatizadas y transpiladores SQL automatizados que convierten la gran mayoría de tus secuencias de comandos. Contamos con maneras de virtualizar las cosas para que tus clientes piensen que están hablando con Teradata cuando, en realidad, hablan con BigQuery. Hay muchas formas en las que podemos ayudarte a migrar sin tener que interrumpirlo todo. Con estas herramientas de migración, podrás deshacerte de tus costosas cargas de trabajo de Teradata y Hadoop.

También debes tener en cuenta los sistemas de planificación de recursos empresariales, como los sistemas SAP, Salesforce y Oracle. Si quieres optimizar la cadena de suministro, disponer de una puntuación de clientes potenciales o detectar fraudes, es importante que puedas conectar tus cargas de trabajo de analíticas con tus sistemas de planificación de recursos empresariales. Existen conectores de terceros que podemos usar para obtener datos de esos sistemas, que luego podemos utilizar para crear casos prácticos modernos basados en IA en relación con esos datos en la nube.

El orden en que hagas estas cosas depende de tu situación. Si tienes una empresa emergente, puedes empezar con la innovación, pasar a la optimización de costes y, por último, aprovechar las ventajas de los flujos de procesamiento y conectores disponibles. Si tu empresa depende en gran medida de las cadenas de suministro, puedes empezar por los conectores de planificación de recursos empresariales. Independientemente del orden en que realices los tres pasos, observarás que has transferido una cantidad considerable de tu valiosa infraestructura de datos a la nube. Ahora, echa un vistazo a lo que queda y plantéate si merece la pena migrarlo. A menudo, la respuesta es no. Una vez que has trasladado el 70 u 80 % de las cargas de trabajo que son realmente necesarias, es hora de empezar a tomar decisiones difíciles. ¿Merece la pena migrar el 20 o 30 % restante, o deberías plantearte reescribir o hacer la tarea de otra manera? No te recomendamos migrar todo a la nube tal como está, ya que acabarás con la misma deuda tecnológica que tenías on‐premise en tu nuevo entorno de nube en lugar de centrarte en el valor de los datos.

Más información

Hemos hablado mucho sobre cómo sacar el máximo partido a tus datos y qué significa esto para ti, junto con algunas cuestiones que te pueden surgir al migrar a un almacén de datos en la nube.

Para obtener más información sobre cómo puede ayudarte Google Cloud a extraer información valiosa para obtener una ventaja significativa, ayudar a tu empresa a reducir costes y aumentar la productividad optimizando el uso que haces de los datos y de la inteligencia artificial, ponte en contacto con nosotros.

Otros recursos

¿Todo listo para dar los siguientes pasos?

Obtén más información sobre cómo puede ayudarte Google Cloud a optimizar el uso que haces de los datos y de la IA.
Google Cloud Next '21: La nube de datos: transforma tu negocio con una plataforma de datos universal.

Rellena el formulario y nos pondremos en contacto contigo. Ver formulario

Google Cloud