O futuro dos dados vai ser unificado, flexível e acessível

Empresas e startups de tecnologia estão aprendendo que para ter sucesso:

- Os dados precisam ser unificados em toda a empresa e até em fornecedores e parceiros. Isso envolve desbloquear dados não estruturados e eliminar os silos de organizações e tecnologias.

- A pilha de tecnologia deles precisa ser flexível o suficiente para oferecer suporte a casos de uso que vão da análise de dados off-line ao aprendizado de máquina em tempo real.

- A pilha também precisa estar acessível de qualquer lugar. Ela precisa oferecer suporte a diferentes plataformas, linguagens de programação, ferramentas e padrões abertos.

Aproveitar os dados ao máximo pode resultar em vantagens competitivas

Todos reconhecem que os dados são importantes, mas poucas empresas conseguem extrair deles insights inovadores sobre os negócios e os clientes. O que significa aproveitar seus dados ao máximo? Por que isso é um desafio?

Se você aproveitar seus dados ao máximo, eles podem ser usados para a tomada de decisões sobre produtos e operações. Portanto, faça algumas perguntas a si mesmo. Você sabe como as expectativas dos seus clientes estão mudando? Como você usa os dados para melhorar a experiência dos clientes? Quanto ao desafio, como os engenheiros e cientistas de dados estão utilizando o tempo atualmente?

Os dados são cruciais para orientar a direção de produtos inovadores e experiências do usuário, além da tomada decisões amplas de entrada no mercado. O uso correto dos dados resulta em uma vantagem competitiva significativa. É por isso que a maioria das empresas e startups de tecnologia sofre uma pressão enorme para fazer cada vez mais: modernizar e operar em escalas cada vez maiores, justificar os custos de dados atuais e futuros e melhorar a maturidade e a tomada de decisões da organização.

No entanto, há desafios relativos a acesso, armazenamento, ferramentas inconsistentes, compliance e segurança que dificultam o processo de análise e descoberta do valor real dos dados.

Talvez você esteja tentando aliar sistemas legados e novos. Será que os seus dados deveriam estar em uma só nuvem? Ou seria melhor distribuir os dados entre várias nuvens? Como você moderniza pilhas de análises integradas verticalmente para conseguir trabalhar com plataformas capazes de escalonar horizontalmente?

Ou talvez você esteja processando os dados em lotes ou microlotes em vez de processá-los em tempo real. O sistema de orquestração e a programação resultantes tornam sua arquitetura mais complexa e exigem manutenção em torno da contenção e resiliência. A sobrecarga operacional resultante do gerenciamento e da manutenção de uma arquitetura em lotes é onerosa e compromete a latência dos dados.

Sem ter acesso fácil a todos os dados e sem poder fazer o processamento e a análise deles no momento da entrada, você fica em desvantagem. O conjunto de tecnologias modernas precisa seguir a escala dos dados, usar os dados mais recentes e incorporar e compreender dados não estruturados. Além disso, as equipes de análise de dados mais avançadas mudaram o foco da operação para a ação, usando IA/ML para realizar experimentos e operacionalizar processos.

Como fazer com que os dados trabalhem a seu favor para que você possa se concentrar na inovação

O que significa fazer os dados trabalharem a seu favor? Melhorar a experiência do cliente, alcançar clientes novos e aumentar sua receita. Na essência, é uma questão de inovação. Recomendamos dois princípios na escolha de uma plataforma de dados que ajude você a alcançar esses resultados.

Princípio 1: simplicidade e escalonabilidade

É provável que você tenha muitos dados à sua disposição no momento. Talvez eles estejam crescendo exponencialmente e você queira manter ou aumentar seu ROI enquanto acompanha o volume. Talvez você esteja antecipando quantos dados vai ter no futuro, por exemplo, um terabyte, e projetando seus sistemas para processar esse valor sabendo que, se o crescimento superar essas expectativas, será necessária uma migração de todo o sistema. Ou talvez você tenha escolhido um data warehouse capaz acompanhar a dimensão do crescimento esperado, mas o aumento das necessidades de processamento está dificultando o gerenciamento.

Sistemas menores costumam ser mais simples. No entanto, você não precisa mais escolher entre um sistema fácil de usar e um altamente escalonável. Usar uma arquitetura sem servidor elimina a necessidade de gerenciar clusters e possibilita a utilização de enormes escalas de computação e armazenamento, para que você nunca mais precise se preocupar se o tamanho dos dados excede sua capacidade técnica.

Para fins de simplicidade e escalonabilidade, recomendamos uma plataforma de dados sem servidor. Sugerimos que você desconsidere qualquer opção que exija a instalação de software, o gerenciamento de clusters ou o ajuste de consultas.

Princípio 2: agilidade e redução de custos

Qualquer sistema de gerenciamento de dados que combine computação e armazenamento vai forçar você a escalonar a computação para lidar com o aumento do volume de dados, mesmo se você não precisar. Isso pode ser caro e você pode acabar tendo que fazer certas concessões, como armazenar apenas os dados dos últimos 12 meses no warehouse de análise. Você também pode decidir não incluir dados por não ter uma utilidade imediata para eles e descobrir mais tarde que não é possível testar uma hipótese porque não há dados e um novo pipeline precisaria ser criado.

Outros sistemas resolvem parte desse problema, permitindo escalonar e pagar separadamente pela computação e pelo armazenamento. Ainda assim, você precisa configurar, escalonar e otimizar os clusters de forma manual. Para reduzir ao máximo o gerenciamento de infraestrutura, você pode usar um data warehouse sem servidor em várias nuvens com maior confiabilidade, desempenho e proteção de dados integrada, como o BigQuery.

Além do custo e do gerenciamento, você também precisa considerar a agilidade. Quando seus dados mudam, quanto tempo você leva para perceber e reagir? Quando uma nova versão de um software ou de uma ferramenta que você usa é lançada, quanto tempo você leva para adotar os novos recursos? O caminho para maior agilidade é escolher ferramentas flexíveis que não exijam monitoramento constante e sejam aplicáveis a uma grande variedade de cargas de trabalho.

As consultas em sistemas como o Redshift precisam ser otimizadas para que sejam eficientes. Isso limita a quantidade de experimentos que podem ser realizados. Por isso, talvez você só faça a extração dos dados quando acha que há um problema. As medidas tomadas para lidar com a falta de separação entre computação e armazenamento, bem como a necessidade de otimizar seu data warehouse, acabam limitando você.

Com algo como o BigQuery, você não precisa planejar as consultas com antecedência nem indexar seus conjuntos de dados. Separar armazenamento e computação permite que você inclua dados sem se preocupar com aumentos dos custos de consulta, e seus cientistas de dados podem fazer experimentos sem se preocupar com os clusters ou o dimensionamento dos data warehouses para testar novas ideias usando consultas ad-hoc.

Aprendemos como uma plataforma simples, escalonável, flexível e econômica coloca você em uma posição que favorece a inovação. Agora vamos ver como seus dados podem ajudar nisso.

Tome decisões fundamentadas por dados em tempo real

O ritmo de trabalho das empresas não para de acelerar. As expectativas dos clientes também mudaram. Casos em que seria possível reconciliar uma transação ou aprovar uma devolução em três dias agora precisam de respostas imediatas. Uma decisão mais rápida e pontual resulta em uma necessidade maior de streaming.

Você quer capturar dados em tempo real e os disponibilizar às suas equipes de negócios para consultas de baixa latência. Você também quer ter certeza de que os pipelines de streaming são escalonáveis, resilientes e têm baixa sobrecarga de gerenciamento. Essa é a única maneira de sua equipe reagir em tempo real acompanhando a velocidade dos negócios. Não é de surpreender que o BigQuery tenha suporte nativo para ingestão de dados de streaming e os disponibilize imediatamente para análise usando SQL. Além da API Streaming do BigQuery, que é fácil de usar, o Dataflow possibilita o gerenciamento de cargas de trabalho altas ou sazonais sem gastos excessivos.

Eliminar os silos de dados;

Muitas organizações acabam criando silos porque armazenam dados separadamente entre os departamentos e as unidades de negócios, e cada equipe é proprietária dos próprios dados. Isso significa que, sempre que você quiser fazer uma análise que envolva vários departamentos, terá que descobrir como eliminar esses silos, provavelmente executando pipelines de extração (ETL) para obter os dados e colocá-los no data warehouse. No entanto, os departamentos que são proprietários dos dados geralmente têm pouco incentivo para manter os pipelines. Com o tempo, eles vão ficar desatualizados, e os dados coletados mais obsoletos e menos úteis.

Além dos silos organizacionais, várias empresas têm adotado uma estratégia de várias nuvens baseada nas preferências departamentais, no alinhamento de capacidades e na pressão regulatória. Essas empresas também costumam lidar com a realidade de data lakes legados e investimentos em data warehouse no local. A realidade atual de nuvens múltiplas e híbridas exige um nível maior de sofisticação para gerenciar e acessar dados em silos.

Migrar para um warehouse distribuído com um painel de controle comum, também chamado de malha de dados, aumenta a capacidade de acessar dados de alta qualidade em departamentos, nuvens e sistemas locais. Isso pode solucionar problemas comerciais, como desempenho do produto ou comportamento do cliente, e possibilita a consulta dos dados em tempo real.

O BigQuery oferece a base tecnológica para essa malha de dados. Os usuários da organização podem gerenciar, proteger, acessar e compartilhar insights e recursos de dados independentemente de quem detém os dados. Por exemplo, é possível migrar todos os seus dados para o BigQuery e proporcionar funções reutilizáveis, visualizações materializadas e até mesmo a capacidade de treinar modelos de ML sem mover os dados. Isso significa que até mesmo especialistas da área sem conhecimento técnico, assim como parceiros e fornecedores permitidos, podem acessar e usar o SQL facilmente para consultar os dados com ferramentas conhecidas, como planilhas e painéis.

A analogia de "central e conectores" é bem adequada neste caso. O BigQuery é o centro (hub) onde estão os dados. Os spokes são ferramentas de relatórios, painéis, modelos de ML, aplicativos da Web, sistemas de recomendação e muito mais. Todos leem dados do BigQuery sem criar cópias deles. O Looker, por exemplo, ajuda a visualizar os dados e fazer a integração deles ao fluxo de trabalho diário dos usuários. Essa abordagem permite aprimorar a usabilidade, segurança e qualidade dos dados de uma só vez.

Simplifique o acesso a todos os dados

Antes, a melhor forma de processar dados semiestruturados ou não estruturados era usando data lakes. Já os data warehouses eram melhores para dados estruturados. Essa separação criou silos tecnológicos que dificultaram o cruzamento dos formatos. Os dados eram todos armazenados em data lakes porque eles eram mais baratos e fáceis de gerenciar. Depois, eles eram movidos para um warehouse onde ferramentas de análise eram usadas na extração de insights.

O modelo cada vez mais conhecido de "lake house" combina esses dois mundos em um ambiente unificado para todos os tipos de dados. O BigQuery pode ser usado tanto como um data warehouse quanto um data lake. A API Storage do BigQuery permite acessar o armazenamento diretamente para processar cargas de trabalho geralmente associadas a data lakes. Como os dados podem ser armazenados em uma única fonte no BigQuery, não é necessário criar nem manter muitas cópias. Em vez disso, o processamento downstream pode ser realizado por transformações SQL que são armazenadas em visualizações lógicas sem precisar mover os dados.

A facilidade de uso é importante. Se as consultas derem resultados em 30 segundos, e não em 30 minutos ou 3 horas, provavelmente você vai poder usar melhor os dados na tomada de decisões.

Use IA/ML para realizar experimentos com rapidez e operacionalizar cargas de trabalho

Seus cientistas de dados conseguem realizar experimentos com agilidade? É provável que tenham que parar o desenvolvimento e operacionalizar modelos para avaliar os experimentos com usuários reais. Seus cientistas desenvolvem e fazem iterações de um modelo usando dados históricos antes de entregar o modelo ao departamento de engenharia, que o reescreve completamente para incorporação ao sistema de produção e realização de testes A/B. Em seguida há um período de espera, uma iteração com base no modelo e o envio de volta para produção. Esse ciclo envolve muitas interrupções e retrabalhos no código, e a coordenação exigida entre as equipes geralmente ocasiona erros. Seus cientistas de dados não estão fazendo todos os experimentos possíveis, porque isso pode levar muito tempo. Isso dificulta a previsão de quanto tempo um projeto pode levar e se ele vai resultar em sucesso. É importante considerar ainda o tempo necessário para o uso entrar em rotina. Para superar esse problema, você precisa fornecer aos seus cientistas de dados ferramentas avançadas, porém familiares. Com o Vertex AI Workbench, cientistas de dados podem trabalhar com eficiência nos notebooks do Jupyter, além de terem rapidez em treinamento, experimentação e implantação.

Se você quiser se destacar com base nos dados, precisa extrair o maior valor possível dos dados que coleta. Para isso, é necessário que suas equipes de cientistas de dados sejam as mais produtivas possíveis e não percam chances de criar modelos, porque até mesmo coisas simples levam muito tempo demais ou são difíceis. 

A qualidade dos modelos pré-criados e com pouco código é crucial. O AutoML na Vertex AI disponibiliza os melhores modelos de IA em um ambiente sem código, o que agiliza os comparativos de mercado e a priorização. Ter modelos pré-criados, como a Extração de entidades ou o Mecanismo de correspondência da Vertex AI com seus próprios dados, acelera significativamente a criação de valor a partir dos dados. Você não se limita apenas à classificação ou à regressão.

A chave para manter a agilidade dos seus dados é sempre realizar experimentos completos e frequentes. O Vertex AI Pipelines oferece um histórico de experimentos que permite analisar dados, comparar com comparativos de mercado e endpoints e fazer testes A/B com modelos de sombra. Como o código é conteinerizado, ele pode ser usado em sistemas de desenvolvimento e produção. Os cientistas de dados trabalham em Python, e a equipe de engenharia de produção cria contêineres totalmente encapsulados. Ambas as equipes podem padronizar operando os modelos com a Vertex AI Prediction, e você pode agir rapidamente.

Os especialistas da área normalmente usam a BigQuery ML para testar a viabilidade de uma ideia treinando modelos personalizados usando apenas o SQL sem precisar de experiência extra com ferramentas tradicionais de ciência de dados. Isso significa que é possível fazer testes em um sistema semelhante ao de produção e realizar estudos de viabilidade em questão de dias, e não em meses. O modelo do BigQuery ML pode ser implantado na Vertex AI para você aproveitar todas as vantagens tratadas. É possível usar o Looker para criar modelos de dados consistentes com base em todos os seus dados e usar o LookML para consultar dados, o que significa que todos na organização podem criar relatórios e painéis fáceis de ler para explorar padrões de dados.

Para aumentar o valor real da produção, os sistemas precisam ser capazes de ingerir, processar e exibir dados. Além disso, o aprendizado de máquina precisa promover serviços personalizados em tempo real com base no contexto do cliente. No entanto, para um aplicativo de produção que é executado de forma contínua, é necessário que os modelos sejam sempre treinados, implantados e verificados para garantir a segurança. Os dados de entrada exigem pré-processamento e validação para garantir que não haja problemas de qualidade, seguidos pela engenharia de atributos e pelo treinamento de modelos com o ajuste de hiperparâmetros.

A integração da ciência de dados e do aprendizado de máquina é essencial para orquestrar e gerenciar facilmente esses fluxos de trabalho de ML com várias fases e para que eles possam ser executados de maneira confiável e repetida. Com os fluxos automatizados e as ferramentas de MLOps, é possível ter entregas rápidas e contínuas, além de simplificar o gerenciamento de modelos até a produção. Há um único fluxo de trabalho e vocabulário para todos os nossos produtos de IA, independentemente da camada de abstração, e é fácil alternar modelos personalizados e do AutoML, porque eles utilizam formato e fundamentação técnica iguais.

Por exemplo, e se você quiser aplicar a detecção de anomalias a fluxos de dados ilimitados e em tempo real para combater fraudes? Com a abordagem certa, você pode gerar um fluxo de dados de amostra para simular o tráfego de rede comum e transferir para o Pub/Sub, depois criar e treinar um modelo de detecção de anomalias no BigQuery usando o clustering K-means do BigQuery ML após mascarar as informações de identificação pessoal (PII) usando DLP. Em seguida, você pode aplicar o modelo aos dados ativos e usar o Dataflow para detecção em tempo real, além de usar o Looker para criar um painel, alertas e ações para tratar dos eventos identificados.

Por que é importante escolher uma opção de data warehouse eficiente

Falamos sobre o BigQuery e o Redshift, mas essas não são as únicas opções de data warehouse disponíveis. Há outros produtos de análise de dados (como o Snowflake e o Databricks) que funcionam em todas as três nuvens principais. Se você escolher o BigQuery, o vínculo com essa nuvem vai ser um problema?

A primeira coisa a ser observada é que, com o BigQuery, você não se limita a analisar apenas os dados armazenados no Google Cloud. O BigQuery Omni permite consultar seus dados no Amazon S3 e no Armazenamento de Blobs do Azure usando o Console do Google Cloud.

No entanto, a realidade é que, se você usar o Snowflake ou o Databricks, os custos de migração da AWS para o Google Cloud ou vice-versa serão mais baixos. E os custos de migração para outro data warehouse? E se você quiser migrar do Snowflake para o BigQuery ou do Databricks para EMR? O custo de migração ainda existe, só o cenário mudou.

Como haverá custos de migração em qualquer cenário, você precisa escolher a ferramenta ou a plataforma mais adequada para você a longo prazo. Você vai escolher uma plataforma com base nos recursos que a diferenciam, no custo atual e na velocidade com que ela vai gerar inovação no futuro. Quando você opta pelo Snowflake, aposta que uma empresa focada em armazenamento em data warehouse vai oferecer inovações mais ágeis nesse espaço. Ao escolher o BigQuery, você conta com uma empresa conhecida por inventar muitas tecnologias de dados e IA para continuar inovando na plataforma.

Acreditamos que uma plataforma inovadora e bem integrada potencializa melhor o efeito volante da inovação. Quando uma oferta de serviço gerenciado como o Google Kubernetes Engine (GKE) faz com que as imagens de contêiner sejam carregadas mais rapidamente, isso ajuda o Spark sem servidor a funcionar melhor e, como ele pode fazer operações com dados do BigQuery, aumenta o valor do BigQuery para você. O volante gira mais rápido quando você aposta em uma plataforma, e não em produtos individuais.

Como abordar sua jornada de migração de dados com segurança

Quanto tempo dura a migração de dados? Seis meses? Dois anos? Quanto esforço isso exige? Vale a pena?

Se você está migrando de uma nuvem para outra, isso provavelmente será mais fácil do que migrar do local para a nuvem, simplesmente porque geralmente há muito mais profundidade de tecnologia no local. , concentre-se na sua meta, que é geralmente algo como "Qual é a velocidade de inovação?"

Pense em todas as coisas que você quer fazer e que não está fazendo hoje. Em seguida, configure novos projetos e transfira os dados necessários para fazer o que quiser. Podemos ajudar você a criar esses novos casos de uso e espelhar as fontes de dados necessárias. Por um tempo, você estará em um ambiente híbrido em que muitos casos de uso são executados no local, mas são orientados por dados espelhados em tempo real ou em lote no ambiente local ou do outro provedor de nuvem.

Sua segunda consideração está relacionada ao custo. Vamos tomar como exemplo essas instâncias caras do Teradata que você está executando. Ao migrar para o BigQuery, notamos que os clientes reduziram os custos pela metade, e essas migrações são muito mais fáceis do eram, devido às ferramentas de avaliação automatizadas e aos transpiladores automatizados do SQL que convertem a grande maioria dos scripts. Temos como virtualizar as coisas para que seus clientes pensem que estão se comunicando com o Teradata, quando estão falando com o BigQuery. Há muitas maneiras de ajudarmos você a migrar sem precisar desativar todos os recursos. Essas ferramentas de migração permitem que você pare de usar as cargas de trabalho dispendiosas do Teradata e do Hadoop.

A terceira consideração é analisar seus sistemas de ERP, como SAP, Salesforce e Oracle. Se você quer otimizar sua cadeia de suprimentos, pontuar leads ou detectar fraudes, é importante conectar suas cargas de trabalho de análise aos sistemas de ERP. Há conectores externos que podemos usar para coletar dados desses sistemas, os quais podem ser utilizados para criar casos de uso modernos baseados em IA a partir desses dados na nuvem.

A ordem para fazer essas coisas depende da situação. Se sua empresa for uma startup, comece com a inovação, a otimização de custos e, por fim, aproveite os pipelines e conectores. Se ela tiver dependência significativa das cadeias de suprimentos, comece com os conectores de ERP. Independentemente da ordem em que você as fizer, vai perceber que migrou uma quantidade considerável dos seus valiosos dados para a nuvem. Agora, veja o que resta e pense se vale a pena mudar de ideia. Muitas vezes a resposta é não. Depois de migrar as 70% a 80% das cargas de trabalho realmente necessárias, você precisa começar a tomar decisões difíceis. Vale a pena migrar os outros 20% a 30%? Não seria melhor reescrever o código ou fazer a tarefa de outra forma? Se você começar a migrar tudo para a nuvem do jeito que está, vai acabar repetindo no ambiente de nuvem as despesas com tecnologia que tinha no local, em vez de manter o foco no valor dos dados.

Sugestões de leitura

Falamos muito sobre como aproveitar seus dados e o que isso realmente significa, além de apresentar considerações que você pode ter que fazer ao migrar para um armazenamento de dados na nuvem.

Para saber como o Google Cloud pode ajudar você a usar insights para ter uma vantagem significativa, ajudar sua empresa a reduzir os custos e aumentar a produtividade otimizando o uso de dados e da IA, entre em contato.

Outros recursos

Tudo pronto para prosseguir?

Saiba mais sobre como o Google Cloud pode ajudar a otimizar seu uso de dados e IA.
Google Cloud Next '21: Data Cloud: transforme com uma plataforma de dados universal.

Preencha o formulário para entrarmos em contato com você. Ver formulário

Google Cloud