Las empresas y startups de tecnología están aprendiendo algunas condiciones necesarias para alcanzar el éxito:
- Los datos se deben unificar en toda la empresa y en todos los proveedores y socios. Esto implica desbloquear los datos no estructurados y desglosar entornos aislados de organización y tecnología.
- Su pila tecnológica debe ser lo suficientemente flexible como para admitir casos de uso que van desde el análisis de datos sin conexión hasta el aprendizaje automático en tiempo real.
- La pila también debe ser accesible en cualquier momento y lugar. Debe ser compatible con diferentes plataformas, lenguajes de programación, herramientas y estándares abiertos.
Todos reconocen que los datos son importantes, pero muy pocas empresas pueden extraer estadísticas empresariales y de clientes innovadoras de sus datos. ¿Qué significa aprovechar al máximo los datos? y ¿por qué es un desafío?
Si aprovechas al máximo tus datos, significa que puedes tomar decisiones sobre productos y operaciones con datos. Así que pregúntate lo siguiente. ¿Sabes cómo están cambiando las expectativas de los clientes? ¿Cómo usas tus datos para mejorar la experiencia del cliente? En términos del desafío, pregúntate en qué invierten su tiempo tus ingenieros y científicos de datos hoy en día.
Los datos son fundamentales para impulsar una dirección de producto innovadora y experiencias de usuarios, junto con decisiones de lanzamiento al mercado amplias. Si aprovechas tus datos correctamente, obtendrás una ventaja competitiva importante. Es por eso que la mayoría de las empresas y startups de tecnología están bajo una gran presión para hacer más, como modernizar y operar a escalas cada vez mayores, justificar los costos de datos actuales y futuros, y elevar la madurez de su organización y la toma de decisiones.
Sin embargo, existen desafíos relacionados con el acceso, el almacenamiento, las herramientas incoherentes, el cumplimiento y la seguridad que impiden ir más allá de la superficie y conseguir el valor real de tus datos.
Tal vez tengas sistemas heredados que necesitas combinar con sistemas nuevos. ¿Deberían estar todos tus datos en una sola nube? ¿O distribuidos en varias nubes? ¿Cómo puedes modernizar pilas de estadísticas que siempre han estado integradas verticalmente en plataformas con la capacidad de escalar de forma horizontal?
O bien, puedes usar el procesamiento por lotes o microlotes de tus datos por el día, en lugar de procesarlos en tiempo real. El sistema de organización y la programación resultantes agregan complejidad a tu arquitectura y requieren mantenimiento en relación con la contención y la resiliencia. La sobrecarga de operaciones de la administración y mantener la arquitectura de lotes resulta costoso y sigue poniendo en riesgo la latencia de datos.
La falta de un acceso fácil a los datos y no poder procesarlos y analizarlos cuando llegan implica una desventaja. La pila tecnológica moderna necesita ser una pila de transmisión que siga el escalamiento de los datos, use los datos disponibles más recientes y, además, incorpore y comprenda datos no estructurados. Además, los equipos de estadísticas más avanzados dejaron de lado la operación y ahora se enfocan en la acción mediante el uso de IA/AA para poner en funcionamiento modelos y experimentar con ellos.
¿Qué significa que los datos resulten útiles? Significa mejorar la experiencia del cliente, llegar a clientes nuevos y aumentar tus ingresos brutos. Principalmente, consiste en poder innovar. Te recomendamos dos principios para elegir una plataforma de datos que te ayude a lograr estos resultados.
Principio 1: Sencillez y escalabilidad
Es probable que tengas muchos datos a tu disposición en este momento. que están creciendo exponencialmente y quieras mantener o aumentar el ROI mientras sigues el ritmo del volumen. Quizás estás anticipando la cantidad de datos que tendrás en el futuro (p. ej., un terabyte) y diseñas tus sistemas para procesar esa cantidad con el conocimiento de que, si el crecimiento excede esas expectativas, tendrías que migrar el sistema por completo. O quizá elegiste un almacén de datos que se puede escalar a tu crecimiento esperado, pero el aumento de las necesidades de procesamiento dificulta la administración.
Los sistemas más pequeños suelen ser más sencillos. Sin embargo, ya no es necesario elegir entre un sistema que sea fácil de usar y uno altamente escalable. Si usas una arquitectura sin servidores, eliminas la necesidad de administrar clústeres y podrás manejar un escalamiento masivo de procesamiento y almacenamiento, por lo que nunca tendrás que preocuparte de que el tamaño de los datos exceda tu capacidad técnica otra vez.
Te recomendamos que uses una plataforma de datos sin servidores por cuestiones de simplicidad y escalabilidad. Te sugerimos descartar cualquier opción que requiera instalar software, administrar clústeres o ajustar consultas.
Principio 2: Agilidad y disminución de los costos
Cualquier sistema de administración de datos que combina el procesamiento y almacenamiento te obligará a escalar verticalmente el procesamiento para manejar el aumento del volumen de datos, incluso si no lo necesitas. Esto puede ser costoso, y es probable que necesites hacer concesiones, como almacenar solo los datos de los últimos doce meses en tu almacén de estadísticas. También es posible que decidas no incluir determinados datos porque no tienes un caso de uso inmediato, solo para descubrir más adelante que no puedes probar una hipótesis porque te faltan datos y necesitarías una nueva canalización para comenzar.
Otros sistemas ayudan con la mitad del proceso, ya que te permiten ajustar la escala y pagar por procesamiento y almacenamiento de forma independiente, pero, aun así, requieren que configures, ajustes el escalamiento y optimices los clústeres manualmente. Para reducir la administración de la infraestructura tanto como sea posible, considera usar un almacén de datos en múltiples nubes y sin servidores con confiabilidad mejorada, rendimiento y protección de datos integrada (como BigQuery).
Más allá del costo y la administración, también es necesario tener en cuenta la agilidad. Cuando cambian tus datos, ¿cuánto tiempo tardas en darte cuenta y reaccionar? Cuando se crea una nueva versión de algún software o herramienta que usas, ¿cuánto tiempo demoras en adoptar sus nuevas funciones? La ruta hacia una mayor agilidad consiste en elegir herramientas flexibles que requieran menos mantenimiento y sean aplicables a una amplia variedad de cargas de trabajo.
Las consultas en sistemas como Redshift se deben optimizar para su eficiencia y eso limita la cantidad de experimentación que puedes llevar a cabo, por lo que, posiblemente, solo puedas extraer datos cuando sospeches que hay un problema. Las concesiones que debes hacer por la falta de separación de procesamiento y almacenamiento, y la necesidad de optimizar tu almacén de datos pueden ser limitantes.
Con una herramienta como BigQuery, no necesitas planificar consultas con anticipación ni indexar tus conjuntos de datos. El almacenamiento y el procesamiento separados permiten que llegues a los datos sin preocuparte por aumentar los costos de consulta. Además, los científicos de datos pueden experimentar sin tener que preocuparse de los clústeres ni del tamaño de los almacenes de datos para probar ideas nuevas mediante consultas ad hoc.
Vimos cómo una plataforma sencilla, escalable, flexible y rentable te permite innovar. Ahora analizaremos cómo pueden ayudar los datos.
El ritmo al que operan las empresas se acelera continuamente y las expectativas de los clientes también cambiaron. Antes era aceptable conciliar una transacción o aprobar una devolución en un plazo de tres días, pero ahora es necesario proporcionar respuestas de inmediato. La toma de decisiones más rápida y oportuna genera una mayor necesidad de transmisiones.
Es necesario captar datos en tiempo real y hacer que estén disponibles para las consultas de baja latencia por parte de tus equipos empresariales. También debes asegurarte de que tus canalizaciones de transmisión sean escalables y resilientes, y tengan una sobrecarga de administración baja. Esta es la única manera en que tu equipo puede reaccionar en tiempo real a la velocidad de tu empresa. No te sorprenderá saber que BigQuery tiene compatibilidad nativa para transferir datos de transmisión y que esos datos estén disponibles de inmediato para su análisis mediante SQL. Junto con la API de transmisión fácil de usar de BigQuery, Dataflow te permite administrar tus cargas de trabajo estacionales y con incrementos bruscos sin gastar de más.
Muchas organizaciones crean sistemas aislados porque almacenan los datos de forma independiente según el departamento y la unidad de negocios, de manera que cada equipo tiene sus propios datos. Esto significa que, cuando quieras realizar análisis que abarcan departamentos, deberás encontrar alguna forma de desglosar esos sistemas aislados, posiblemente con la ejecución de canalizaciones de extracción (ETL) para obtener datos y almacenarlos en tu almacén. Sin embargo, los departamentos propietarios de los datos suelen tener pocos incentivos para mantener las canalizaciones y, con el paso del tiempo, estos datos se desactualizan y se vuelven más obsoletos y menos útiles.
Más allá de los sistemas organizativos aislados, muchas empresas en la actualidad adoptaron una estrategia de múltiples nubes basada en la preferencia departamental, la alineación de capacidad y la presión normativa. Es común que estas empresas también deban lidiar con la realidad de los data lakes heredados y las inversiones en almacenes de datos que se encuentran de forma local. La realidad de múltiples nubes y nubes híbridas requiere otro nivel de sofisticación en relación con la administración y el acceso a los datos aislados.
Migrar a un almacén distribuido con un panel de control común, a veces llamado tejido de datos o malla de datos, aumenta tu capacidad para acceder a datos de alta calidad en departamentos, nubes y sistemas locales. Esto puede resolver problemas empresariales, como el rendimiento de los productos o el comportamiento de los clientes, y te permitirá consultar datos sobre la marcha.
BigQuery proporciona los fundamentos tecnológicos de esa malla de datos en la que los usuarios de tu organización pueden administrar, proteger, consultar y compartir recursos de datos y estadísticas sin importar quién sea el propietario de los datos. Por ejemplo, puedes almacenar todos tus datos en BigQuery y ofrecer funciones reutilizables, vistas materializadas o, incluso, la capacidad de entrenar modelos de AA sin trasladar ningún dato. Esto significa que incluso los expertos en temas no técnicos (y los socios y proveedores que tienen permiso) pueden acceder y usar SQL con facilidad para consultar los datos con herramientas conocidas como hojas de cálculo y paneles.
La analogía de "núcleo y radios" es apropiada aquí. BigQuery es el núcleo que contiene tus datos. Los radios son las herramientas de informes, los paneles, los modelos de AA, las aplicaciones web, los sistemas de recomendación y mucho más, todos los cuales leen datos en vivo desde BigQuery sin tener que copiarlos. Looker, por ejemplo, ayuda a visualizar tus datos y a integrarlos en los flujos de trabajo diarios de los usuarios. Este enfoque te permite mejorar la usabilidad, la seguridad y la calidad de tus datos, todo al mismo tiempo.
Desde siempre, los datos no estructurados y semiestructurados se entregaban de mejor manera en data lakes, mientras que los datos estructurados encajaban mejor en almacenes. Mediante esta separación, se crearon sistemas tecnológicos aislados que dificultaron el proceso de atravesar la división de formatos; entonces, se almacenaban todos los datos en un data lake porque era más rápido y económico de administrar y, luego, se migraban a un almacén para poder usar herramientas de análisis y obtener estadísticas.
Ahora se está popularizando el método “lakehouse”, que mezcla estos dos mundos en un entorno unificado para todos los tipos de datos. Es posible usar BigQuery simultáneamente como almacén de datos y como data lake. La API de Storage de BigQuery te permite acceder al almacenamiento directamente para potenciar las cargas de trabajo que por lo general se asocian con data lakes. Dado que los datos se pueden almacenar en BigQuery como una sola fuente de información, no es necesario crear y mantener tantas copias de datos. En lugar de eso, se puede realizar el procesamiento posterior mediante transformaciones de SQL que se almacenan en vistas lógicas sin tener que trasladar datos de un lugar a otro.
La facilidad de uso es importante: si puedes obtener resultados de las consultas dentro de 30 segundos en lugar de 30 minutos o 3 horas, es probable que uses más los datos cuando tomes decisiones.
¿Qué tan rápido pueden experimentar tus científicos de datos? Es probable que necesiten detener el desarrollo y poner en funcionamiento sus modelos para evaluar sus experimentos con usuarios reales. Iteran y desarrollan en un modelo que usa datos históricos antes de entregarlo a los ingenieros, que suelen reescribirlo por completo para incorporarlo en el sistema de producción y realizar pruebas A/B. Después, esperan, iteran en su modelo y vuelven a poner en producción. Este ciclo implica detenerse y volver a comenzar muchas veces y reescribir código, con toda la coordinación necesaria entre equipos que introducen errores durante el proceso. Los científicos de datos no están experimentando lo suficiente porque hacerlo de esta manera puede llevar mucho tiempo. Esto hace que sea difícil predecir cuánto tardará un proyecto y si tendrá éxito, sin mencionar el tiempo que se demorará en llegar a un uso rutinario. Para superar esto, es necesario proporcionar herramientas potentes, pero conocidas, a los científicos de datos. Vertex AI Workbench permite que los científicos de datos trabajen de forma eficaz en los notebooks de Jupyter, y que reciban un entrenamiento acelerado, así como una experimentación y una implementación rápidas.
Si realmente deseas crear diferenciaciones basadas en los datos, debes extraer el valor más alto que puedas de los datos que estás recopilando. Para ello, tus equipos de ciencia de datos deben ser tan productivos como puedan y no perder oportunidades de crear un modelo, ya que incluso las acciones sencillas tardan demasiado o son demasiado difíciles.
La calidad de tus modelos previamente compilados y de bajo código es fundamental. AutoML en Vertex AI pone a disposición modelos de IA de primer nivel en un entorno sin código, lo que permite que sea más rápido para las comparativas y la priorización. Tener modelos creados previamente, como Entity Extraction o Vertex AI Matching Engine en tus propios datos, acelera de forma significativa la creación de valores desde los datos; ya no tendrás que limitarte solo a la clasificación o regresión.
La clave para mantener la agilidad de los datos es realizar experimentos de extremo a extremo desde el principio y a menudo. Vertex AI Pipelines te ofrece un historial de experimentos que te permiten retroceder, compararlos con las comparativas y los extremos, y realizar pruebas A/B con modelos paralelos. Ya que el código está alojado en contenedores, se puede usar el mismo código entre sistemas de desarrollo y producción. Los científicos de datos trabajan en Python, y los ingenieros de producción obtienen contenedores que están completamente encapsulados. Ambos equipos pueden estandarizar mediante la puesta en funcionamiento de los modelos con Vertex AI Prediction y puedes avanzar con rapidez.
Los expertos en dominios a menudo pueden usar BigQuery ML para probar la viabilidad de una idea entrenando modelos personalizados solo mediante SQL, sin la necesidad de tener experiencia adicional con herramientas de ciencia de datos tradicionales. Esto significa que puedes experimentar en un sistema similar al de producción y realizar estudios de viabilidad en cuestión de días y no de meses. El modelo de BigQuery ML se puede implementar en Vertex AI para aprovechar todas las ventajas que acabamos de analizar. Puedes usar Looker para crear modelos de datos coherentes con todos tus datos y LookML para consultar datos, lo que significa que todos en la organización pueden crear informes y paneles fáciles de leer para explorar patrones de datos.
Para impulsar un valor real en la producción, los sistemas deben ser capaces de transferir, procesar y entregar datos, y el aprendizaje automático debe impulsar servicios personalizados en tiempo real según el contexto del cliente. Sin embargo, una aplicación de producción que se ejecuta constantemente demanda que los modelos se entrenen, implementen y revisen de forma constante por seguridad. Los datos entrantes requieren un procesamiento previo y una validación para garantizar que no existen problemas de calidad, seguido por la ingeniería de atributos y el entrenamiento de modelos con ajuste de hiperparámetros.
La ciencia de datos y el aprendizaje automático integrados son esenciales para organizar y administrar fácilmente estos flujos de trabajo de varias fases del AA y ejecutarlos de manera confiable y repetida. Las herramientas de MLOps y los flujos de trabajo automatizados permiten realizar entregas rápidas y continuas y simplificar la administración de modelos a producción. Hay un solo flujo de trabajo y vocabulario en todos nuestros productos de IA, sin importar la capa de abstracción. Puedes intercambiar con facilidad modelos personalizados y de AutoML, ya que estos usan el mismo formato y la misma base técnica.
Por ejemplo, ¿qué sucede si deseas aplicar la detección de anomalías en flujos de datos activos y no delimitados para combatir fraudes? Si usas el enfoque correcto, debes generar un flujo de datos de muestra para simular el tráfico de red común y transmitirlo a Pub/Sub. Luego, debes crear y entrenar un modelo de detección de anomalías en BigQuery mediante el agrupamiento en clústeres con k-means en BigQuery ML luego de enmascarar la información de identificación personal (PII) con DLP. Después de eso, puedes aplicar el modelo a los datos activos a fin de detectar anomalías en tiempo real con Dataflow y usar Looker para crear un panel, alertas y acciones de modo que puedas controlar los eventos identificados.
Ya hablamos sobre BigQuery y Redshift, pero estas no son las únicas opciones de almacén de datos disponibles. Existen otros productos de análisis de datos (como Snowflake y Databricks) que funcionan en las tres nubes principales. Por lo tanto, si eliges BigQuery, ¿corres el riesgo de depender de esta nube?
Lo primero que debes tener en cuenta es que BigQuery no te limita a analizar solo los datos que almacenaste en Google Cloud. BigQuery Omni te permite consultar datos sin problemas en Amazon S3 y Azure Blob Storage desde la consola de Google Cloud.
Sin embargo, la realidad es que si usas Snowflake o Databricks, los costos de cambiar de AWS a Google Cloud o viceversa son más bajos. Pero ¿qué sucede con el costo de trasladarse a otro almacén de datos? ¿Qué pasaría si quisieras pasar de Snowflake a BigQuery o de Databricks a EMR? Aún existe un costo por cambiarse, solo que la situación es diferente.
Debido a que, bajo cualquier situación, se generará un costo por realizar el traslado; en última instancia, debes elegir la herramienta o la plataforma que te funcione a largo plazo. Debes tomar una decisión en función de las características distintivas de una plataforma, el costo actual y la velocidad a la que agregará innovaciones en el futuro. Cuando eliges Snowflake, apuestas a que una empresa enfocada en el almacenamiento de datos proporcione una innovación más rápida en ese espacio. Cuando eliges BigQuery, confías en que una empresa conocida por inventar muchas tecnologías de IA y datos siga innovando en toda la plataforma.
Creemos que una plataforma innovadora y bien integrada impulsa mejor el círculo virtuoso de la innovación. Cuando una oferta de servicios administrados, como Google Kubernetes Engine (GKE) permite que las imágenes de contenedor se carguen más rápido, eso ayuda a que Serverless Spark funcione mejor, y como Serverless Spark sin servidores puede operar con datos ubicados en BigQuery, el valor de BigQuery para tu organización aumenta. El círculo virtuoso es más eficaz cuando se apuesta por una plataforma completa, en lugar de productos individuales.
Si migras de una nube a otra, es probable que sea más fácil que migrar de las instalaciones locales a la nube, ya que, por lo general, tendrás mucha más profundidad de tecnología a nivel local. Independientemente, céntrate en tu objetivo, que suele ser algo similar a “¿qué tan rápido puedo innovar?”.
Piensa en todas las actividades innovadoras que quieres hacer y que no se ejecutan en la actualidad, configura nuevos proyectos y transfiere los datos que necesitas para llevarlos a cabo. Podemos ayudarte a crear estos casos de uso nuevos y duplicar las fuentes de datos que necesitarás. Durante un tiempo, estarás en un entorno híbrido en el que muchos casos de uso se ejecutan de forma local, pero se controlan mediante datos que se duplican en tiempo real o por lotes desde tu entorno local o a algún otro proveedor de servicios en la nube.
La segunda consideración es el costo. Observa las instancias de Teradata muy costosas que ejecutas. Observamos que los clientes redujeron sus costos a la mitad mediante el cambio a BigQuery, y que estas migraciones son mucho más fáciles de realizar que antes debido a las herramientas de evaluación y los transpiladores de SQL automatizados que convierten la gran mayoría de tus secuencias de comandos. Tenemos formas de virtualizar la información para que tus clientes piensen que están hablando con Teradata cuando realmente hablan con BigQuery. Existen muchas formas en las que podemos ayudarte a migrar sin tener que cerrar todo. Puedes usar esas herramientas de migración para alejarte de las costosas cargas de trabajo de Teradata y Hadoop.
La tercera consideración es observar tus sistemas de ERP, como SAP, los sistemas de Salesforce y Oracle. Si quieres optimizar tu cadena de suministro, realizar la puntuación de clientes potenciales o detectar fraudes, es importante que puedas conectar tus cargas de trabajo analíticas a tus sistemas de ERP. Existen conectores de terceros que podemos usar para obtener datos de esos sistemas, que luego podemos usar para crear casos de uso modernos basados en la IA a partir de esos datos en la nube.
El orden en el que realices estas acciones dependerá de tu situación. Si trabajas en una startup, puedes comenzar con la innovación, pasar a la optimización de costos y, por último, aprovechar las canalizaciones y los conectores existentes. Si tu negocio tiene una dependencia significativa de las cadenas de suministro, puedes empezar con los conectores de ERP. Sin importar el orden en que realices las tres acciones, descubrirás que trasladaste una cantidad considerable de tu valioso patrimonio de datos a la nube. Ahora, analiza lo que queda y considera si vale la pena trasladarlo todo. A menudo, la respuesta es no. Una vez que se traslada del 70% al 80% de las cargas de trabajo que son realmente necesarias, debes comenzar a tomar decisiones difíciles. ¿Vale la pena migrar del 20% al 30% restante?, ¿deberías considerar volver a escribir el código o realizar la tarea de manera diferente? No es conveniente entrar en el modo de trasladar todo a la nube tal como está. De lo contrario, tendrás que replicar todas las deudas tecnológicas que tenías en tu nueva nube en lugar de enfocarte en el valor de los datos.
Hablamos mucho sobre cómo aprovechar tus datos y qué significa eso, junto con algunas consideraciones que podrías enfrentar cuando realices la migración a un almacén de datos en la nube.
Comunícate con nosotros para obtener más información sobre cómo Google Cloud puede ayudarte a usar estadísticas a fin de obtener una ventaja significativa, ayudar a tu empresa a reducir costos y aumentar la productividad optimizando el uso que haces de los datos y la IA.
Recursos adicionales