O futuro dos dados será unificado, flexível e acessível

Empresas e startups de tecnologia estão aprendendo a ter sucesso:

- Os dados precisam ser unificados em toda a empresa e até em fornecedores e parceiros. Isso envolve desbloquear dados não estruturados e eliminar os silos de organizações e tecnologias.

- A pilha de tecnologia deles precisa ser flexível o suficiente para suportar casos de uso que variam de análise de dados off-line a machine learning em tempo real.

- A pilha também precisa estar acessível de qualquer lugar. Ela precisa ser compatível com diferentes plataformas, linguagens de programação, ferramentas e padrões abertos.

Por que aproveitar seus dados ao máximo pode ser uma vantagem competitiva

Todos reconhecem que os dados são importantes, mas poucas empresas conseguem extrair insights inovadores de negócios e clientes dos dados. O que significa aproveitar ao máximo seus dados? Por que esse recurso é um desafio?

Se você estiver aproveitando ao máximo seus dados, significa que poderá tomar decisões de produtos e operações usando esses dados. Portanto, faça algumas perguntas a si mesmo. Você sabe como as expectativas dos seus clientes estão mudando? Você está usando os dados para melhorar a experiência dos clientes? Em termos de desafio, pergunte-se onde seus engenheiros e cientistas de dados estão passando o tempo hoje.

Os dados são cruciais para incentivar a inovação em produtos e experiências do usuário, além de direcionar decisões de entrada no mercado. O uso correto dos dados oferece uma vantagem competitiva significativa. É por isso que a maioria das empresas e startups de tecnologia está sob pressão enorme para fazer mais: modernizar e operar em escalas maiores, justificar custos atuais e futuros com dados e elevar a organização maturidade e tomada de decisão

No entanto, há desafios de acesso, armazenamento, ferramentas inconsistentes, conformidade e segurança que dificultam o processo de análise e descoberta do valor real dos seus dados.

Talvez você esteja tentando aliar sistemas legados a novos. Será que todos os seus dados deveriam estar em uma única nuvem? Ou ela deve ser distribuída entre várias nuvens? Como você moderniza pilhas de análises (anteriormente integradas verticalmente) para trabalhar com plataformas que podem ser escalonados horizontalmente?

Ou talvez você esteja processando os dados em lotes ou microlotes hoje, em vez de processá-los em tempo real. O sistema de orquestração e a programação resultantes adicionam complexidade à arquitetura e exigem manutenção em torno da contenção e resiliência. O uso indireto ou excessivo de recursos em operações, resultante do gerenciamento e da manutenção de uma arquitetura em lotes é oneroso e também compromete a latência dos dados.

Sem ter acesso fácil a todos os dados e sem poder processá-los e analisá-los no momento da entrada, você fica em desvantagem. O conjunto de tecnologias modernas precisa seguir a escala de dados, usar os dados mais recentes e incorporar e compreender dados não estruturados. Além disso, as equipes de análise de dados mais avançadas mudaram o foco da operação para a ação, usando a IA/ML para realizar experimentos e operacionalizar processos.

Como fazer seus dados trabalharem para você se concentrar na inovação

O que os dados fazem por você? Isso significa melhorar a experiência do cliente, alcançar novos clientes e expandir sua linha de cima. Em primeiro lugar, é uma questão de inovar. Recomendamos dois princípios para escolher uma plataforma de dados que ajude você a alcançar esses resultados.

Princípio 1: simplicidade e escalonabilidade

É provável que você tenha muitos dados disponíveis no momento. Talvez ele esteja crescendo exponencialmente e você queira manter ou aumentar seu ROI enquanto acompanha o volume. Talvez você esteja antecipando a quantidade de dados que terá no futuro (por exemplo, um terabyte) e projetando seus sistemas para processar esse valor sabendo que, se o crescimento exceder essas expectativas, analisando uma migração de sistema em grande escala. Ou talvez você tenha escolhido um armazenamento de dados capaz de escalonar para o crescimento esperado, mas o aumento das necessidades de processamento dificulta o gerenciamento.

Sistemas menores geralmente são mais simples. No entanto, você não precisa mais escolher um sistema fácil de usar e um altamente escalonável. O uso de uma arquitetura sem servidor elimina a necessidade de gerenciar clusters e possibilita a utilização de enormes escalas de computação e armazenamento para que você nunca precise se preocupar se o tamanho dos dados excede sua capacidade técnica outra vez.

Para simplicidade e escalonabilidade, recomendamos uma plataforma de dados sem servidor. Sugerimos descartar qualquer opção que exija a instalação de software, o gerenciamento de clusters ou a definição de consultas.

Princípio 2: agilidade e redução de custos

Qualquer sistema de gerenciamento de dados que combina computação e armazenamento forçará você a escalonar a computação para lidar com o aumento do volume de dados, mesmo que não seja necessário. Isso pode ser caro e é possível que você precise fazer concessões, como armazenar apenas os dados dos últimos 12 meses no armazenamento de análises. Também é possível que você opte por não incluir dados porque não tem um caso de uso imediato e apenas para descobrir que não é possível testar uma hipótese porque eles não estão e exigiria um novo pipeline.

Outros sistemas resolvem esse problema parcialmente, permitindo escalonar e pagar pela computação e pelo armazenamento separadamente. Ainda assim, você precisa configurar, escalonar e otimizar os clusters de forma manual. Para reduzir o máximo possível o gerenciamento de infraestrutura, considere um data warehouse em várias nuvens sem servidor com maior confiabilidade, desempenho e proteção de dados integrada (como BigQuery).

Além do custo e do gerenciamento, você também precisa pensar na agilidade. Quando seus dados mudam, quanto tempo você leva para perceber e reagir? Quando há uma nova versão de algum software ou ferramenta que você usa, quanto tempo você leva para adotar os novos recursos? O caminho para maior agilidade é escolher ferramentas flexíveis que exijam menos mãos e sejam aplicáveis a uma grande variedade de cargas de trabalho.

As consultas em sistemas como o Redshift precisam ser otimizadas para serem eficientes. Isso limita a quantidade de experimentos que podem ser feitos. Por isso, talvez você só extraia e extraia dados quando suspeitar que há um problema. A falta de separação entre computação e armazenamento, aliada à necessidade de otimizar seu armazenamento de dados, faz com que suas opções sejam muito mais limitadas.

Com algo como o BigQuery, você não precisa planejar as consultas com antecedência nem indexar seus conjuntos de dados. O desacoplamento do armazenamento e da computação permite que você insira dados sem se preocupar com o aumento dos custos de consulta, e seus cientistas de dados podem fazer experimentos sem se preocupar com os clusters ou o dimensionamento dos armazenamentos de dados. testar novas ideias por meio de consultas ad hoc.

Vimos como uma plataforma simples, escalonável, flexível e econômica coloca você em uma posição de inovação. Agora vamos ver como seus dados podem ajudar.

Tome decisões informadas por dados em tempo real

O ritmo em que as empresas operam continua a acelerar. As expectativas dos clientes também mudaram. Depois de reconciliar uma transação ou aprovar uma devolução em três dias, é necessário responder imediatamente. Uma decisão mais rápida e rápida leva a uma maior necessidade de streaming.

Você quer capturar dados em tempo real e disponibilizá-los para consultas de baixa latência com suas equipes de negócios. Também verifique se os pipelines de streaming são escalonáveis, resilientes e têm baixa sobrecarga de gerenciamento. Essa é a única maneira de sua equipe reagir em tempo real na velocidade dos seus negócios. Não é de surpreender que o BigQuery tem suporte nativo para ingestão de dados de streaming e os disponibiliza imediatamente para análise usando SQL. Além da API Streaming fácil de usar do BigQuery, o Dataflow permite gerenciar suas cargas de trabalho sazonais e altas sem gastar demais.

Evite o isolamento de dados

Muitas organizações acabam criando silos porque armazenam dados separadamente entre os departamentos e as unidades de negócios, e cada equipe é proprietária dos próprios dados. Isso significa que, sempre que você quiser fazer uma análise que envolva vários departamentos, terá que descobrir como dividir esses silos, provavelmente executando pipelines de extração (ETL) para obter os dados e colocá-los no seu data warehouse. No entanto, os departamentos que são proprietários dos dados geralmente têm pouco incentivo para manter os pipelines. Com o tempo, eles ficarão desatualizados, e os dados coletados ficarão mais obsoletos e menos úteis.

Além desses silos, várias empresas têm adotado uma estratégia de várias nuvens de acordo com as preferências do departamento, o alinhamento da capacidade e a pressão dos regulamentos. Essas empresas também costumam lidar com a realidade de data lakes legados e investimentos em armazenamento de dados no local no local. Hoje, a realidade de várias nuvens ou de nuvens híbridas exige mais sofisticação para gerenciar e acessar dados isolados.

Migrar para um armazenamento distribuído com um painel de controle comum, às vezes chamado de malha de dados ou malha de dados, aumenta a capacidade de acessar dados de alta qualidade em departamentos, nuvens e sistemas locais. Isso pode resolver problemas comerciais, como o desempenho do produto ou o comportamento do cliente, e permite consultar os dados rapidamente.

O BigQuery oferece a base tecnológica dessa malha de dados. Os usuários na sua organização podem gerenciar, proteger, acessar e compartilhar ativos de dados e insights, independentemente de quem sejam os proprietários dos dados. Por exemplo, é possível migrar todos os seus dados para o BigQuery e fornecer funções reutilizáveis, visualizações materializadas e até a capacidade de treinar modelos de ML sem mover os dados. Isso significa que mesmo especialistas em domínios não técnicos (e parceiros e fornecedores que tenham permissão) podem acessar e usar SQL facilmente para consultar os dados usando ferramentas conhecidas, como planilhas e painéis.

A analogia de "central e conectores" é bem adequada neste caso. O BigQuery é a central onde estão os dados. Os spokes são ferramentas de relatórios, painéis, modelos de ML, aplicativos da Web, sistemas de recomendação e muito mais. Todos esses dados leem dados do BigQuery sem precisar copiá-los. O Looker, por exemplo, ajuda a visualizar os dados e integrá-los ao fluxo de trabalho diário dos usuários. Essa abordagem permite aprimorar a usabilidade, segurança e qualidade dos dados, tudo ao mesmo tempo.

Simplifique o acesso a todos os dados

Antes, a melhor forma de processar dados semiestruturados ou não estruturados era usando data lakes. Já os armazenamentos de dados eram melhores para dados estruturados. Essa separação criou silos tecnológicos que dificultaram o cruzamento de formatos. Os dados eram todos armazenados em data lakes porque eles eram mais baratos e fáceis de gerenciar. Depois, eles eram transferidos a um armazenamento para usar ferramentas de análise e extrair insights.

A "casa de lago" cada vez mais conhecida combina esses dois mundos em um ambiente unificado para todos os tipos de dados. É possível usar o BigQuery como armazenamento de dados e data lake. A API Storage do BigQuery permite acessar o armazenamento diretamente para processar cargas de trabalho geralmente associadas a data lakes. Como os dados podem ser armazenados em uma única fonte, o BigQuery, já não é preciso criar ou manter muitas cópias. Em vez disso, é possível realizar o processamento downstream por meio de transformações SQL armazenadas em visualizações lógicas sem precisar mover os dados.

A facilidade de uso é importante. Se você conseguir resultados com consultas em 30 segundos, em vez de 30 minutos ou 3 horas, provavelmente vai usar mais dados para tomar decisões.

Use IA/ML para realizar experimentos com rapidez e operacionalizar cargas de trabalho

Seus cientistas de dados conseguem realizar experimentos com rapidez? É provável que eles precisem interromper o desenvolvimento e operacionalizar os modelos para avaliar os experimentos com usuários reais. Eles desenvolvem e fazem iterações de um modelo usando dados históricos antes de entregar o modelo aos engenheiros, que geralmente o reescrevem completamente para incorporá-lo ao sistema de produção e fazem testes A/B. Depois, eles aguardam, iteram com base no modelo e enviam de novo para produção. Esse ciclo envolve muitas interrupções e reescrita de código, com toda a coordenação necessária entre as equipes, apresentando erros. Seus cientistas de dados não estão fazendo todos os experimentos possíveis, porque eles podem levar muito tempo para fazer isso. Isso dificulta a previsão do tempo que um projeto levará e se ele será bem-sucedido. Isso tudo sem considerar o tempo necessário para entrar em uso da rotina. Para ir além disso, você precisa fornecer aos seus cientistas de dados ferramentas avançadas, mas conhecidas. O Vertex AI Workbench permite que cientistas de dados trabalhem de maneira eficaz em notebooks do Jupyter, mas receba treinamento acelerado, experimentação e implantação rápidas.

Se você quiser se destacar com base nos dados, precisa extrair o maior valor possível dos dados que está coletando. Para isso, é necessário que suas equipes de ciência de dados sejam as mais produtivas possíveis e não perca oportunidades de criar um modelo porque até mesmo coisas simples levam muito tempo ou são muito difíceis.

A qualidade dos modelos pré-criados e com pouco código é crucial. O AutoML na Vertex AI disponibiliza os melhores modelos de IA em um ambiente sem código, o que agiliza comparativo de mercado e priorização. Ter modelos pré-criados, como Extração de entidades ou Mecanismo de correspondência da Vertex AI com seus próprios dados, acelera significativamente a criação do valor de dados; Você não se limita apenas à classificação ou à regressão.

A chave para manter a agilidade dos seus dados é realizar experimentos completos e frequentes desde o início. O Vertex AI Pipelines oferece um histórico de experimentos que permite analisar dados, comparar com comparativos de mercado e endpoints e fazer testes A/B com modelos de sombra. Como o código é conteinerizado, ele pode ser usado em sistemas de desenvolvimento e produção. Os cientistas de dados trabalham em Python enquanto os engenheiros de produção criam contêineres totalmente encapsulados. Ambas as equipes podem padronizar operando os modelos com a Vertex AI Prediction e você pode agir rapidamente.

Os especialistas da área normalmente usam o BigQuery ML para testar a viabilidade de uma ideia treinando modelos personalizados usando apenas SQL sem precisar de experiência extra com ferramentas tradicionais de ciência de dados. Isso significa que é possível testar em um sistema semelhante ao de produção e realizar estudos de viabilidade em questão de dias, em vez de meses. O modelo do BigQuery ML pode ser implantado no Vertex AI para todas as vantagens que discutimos. É possível usar o Looker para criar modelos de dados consistentes com base em todos os seus dados e usar LookML. para consultar dados, o que significa que todos na organização podem criar relatórios e painéis fáceis de ler para explorar padrões de dados.

Para aumentar o valor real da produção, os sistemas precisam ser capazes de ingerir, processar e exibir dados. Além disso, o machine learning precisa promover os serviços personalizados em tempo real com base no contexto do cliente. No entanto, para um aplicativo de produção que é executado continuamente, é necessário que os modelos sejam sempre treinados, implantados e verificados para garantir a segurança. Os dados de entrada exigem pré-processamento e validação para garantir que não haja problemas de qualidade, seguidos pela engenharia de atributos e pelo treinamento de modelos com o ajuste de hiperparâmetros.

A ciência de dados integrada e o machine learning são essenciais para orquestrar e gerenciar facilmente esses fluxos de trabalho de ML com várias fases e para executá-los de maneira confiável e repetida. Com os fluxos automatizados e as ferramentas de MLOps, é possível ter entregas rápidas e contínuas, além de simplificar o gerenciamento de modelos até a produção. Há um único fluxo de trabalho e vocabulário para todos os nossos produtos de IA, independentemente da camada de abstração, e é possível facilmente trocar modelos personalizados e AutoML, porque eles utilizam o mesmo formato e fundamentação técnica.

Por exemplo, e se você quiser aplicar a detecção de anomalias a fluxos de dados ilimitados e em tempo real para combater fraudes? Com a abordagem certa, você geraria um fluxo de dados de amostra para simular o tráfego de rede comum e o transferiria para o Pub/Sub, depois criaria e treinará um Modelo de detecção de anomalias no BigQuery usando o clustering K-means do BigQuery ML após mascarar informações de identificação pessoal (PII) usando DLP. Na sequência, você aplica o modelo aos dados ativos e usa o Dataflow para detecção em tempo real, além de usar o Looker para criar um painel, alertas e ações para tratar dos eventos identificados.

Por que é importante escolher uma opção de armazenamento de dados eficiente

Falamos sobre o BigQuery e o Redshift, mas essas não são as únicas opções de armazenamento de dados disponíveis. Existem outros produtos de análise de dados (como Snowflake e Databricks) que funcionam nas três principais nuvens. Se você escolher o BigQuery, o bloqueio da nuvem é um problema?

A primeira coisa a ser observada é que, com o BigQuery, você não se limita a analisar apenas os dados armazenados no Google Cloud. O BigQuery Omni permite consultar seus dados no Amazon S3 e no Armazenamento de Blobs do Azure usando o Console do Google Cloud.

No entanto, a realidade é que, se você usar o Snowflake ou o Databricks, os custos de migração da AWS para o Google Cloud ou vice-versa serão mais baixos. Mas e o custo de migrar para outro armazenamento de dados? E se você quiser migrar do Snowflake para o BigQuery ou de Databricks para EMR? Ainda há um custo de mudança. esse é só um cenário diferente.

Como haverá custos de troca em qualquer cenário, você precisa escolher a ferramenta ou a plataforma mais adequada para você em longo prazo. Você está fazendo uma escolha com base nos recursos diferenciados de uma determinada plataforma, no custo atual e na frequência com que adicionará inovação no futuro. Quando você escolhe o Snowflake, aposta que uma empresa focada em armazenamento de dados vai oferecer uma inovação mais rápida nesse espaço. Ao escolher o BigQuery, você conta com uma empresa conhecida por inventar muitas tecnologias de dados e IA para continuar inovando na plataforma.

Acreditamos que uma plataforma inovadora e bem integrada potencializa melhor o efeito de volante da inovação. Quando uma oferta de serviço gerenciada, como Google Kubernetes Engine (GKE) As imagens de contêiner são carregadas mais rapidamente. Isso ajuda Spark sem servidor funciona melhor e, como o Spark sem servidor pode operar em dados no BigQuery, ele torna o BigQuery mais valioso para você. O volante gira mais rápido quando você aposta em uma plataforma, e não em produtos individuais.

Como abordar sua jornada de migração de dados com confiança

Quanto tempo leva a migração de dados? Seis meses? Dois anos? Quanto esforço isso significa? Vale a pena?

Se você está migrando de uma nuvem para outra, isso provavelmente será mais fácil do que migrar do local para a nuvem, simplesmente porque geralmente há muito mais profundidade de tecnologia no local. , concentre-se na sua meta, que é geralmente algo como "Qual é a velocidade de inovação?"

Pense em tudo o que você quer fazer que não está fazendo hoje. Em seguida, configure novos projetos e transfira os dados necessários para realizá-los. Podemos ajudar você a criar esses novos casos de uso e espelhar as fontes de dados necessárias. Por um tempo, você estará em um ambiente híbrido em que muitos casos de uso são executados no local, mas são orientados por dados espelhados em tempo real ou em lote no ambiente local ou do outro provedor de nuvem.

Sua segunda consideração está relacionada ao custo. Observe as instâncias do Teradata que são muito caras. Ao migrar para o BigQuery, notamos que os clientes reduziram os custos pela metade, e essas migrações são muito mais fáceis do que antes devido às ferramentas de avaliação automatizadas e aos transcompiladores automatizados de SQL que convertem a grande maioria dos seus scripts. Temos maneiras de virtualizar as coisas para que seus clientes pensem que estão se comunicando com o Teradata quando estão realmente falando com o BigQuery. Há muitas maneiras de ajudarmos você a migrar sem precisar desativar todos os recursos. É possível usar essas ferramentas de migração para deixar de usar suas cargas de trabalho dispendiosas do Teradata e do Hadoop.

A terceira consideração é analisar seus sistemas de ERP, como SAP, Salesforce e Oracle. Se você quer otimizar sua cadeia de suprimentos, realizar a pontuação de leads ou detectar fraudes, é importante conectar suas cargas de trabalho de análise aos sistemas de ERP. Existem conectores de terceiros que podemos usar para coletar dados desses sistemas, que podem ser utilizados para criar casos de uso modernos baseados em IA para esses dados na nuvem.

A ordem em que isso acontece depende da situação. Se você for uma startup, comece com a inovação, a otimização de custos e, finalmente, aproveite os pipelines e conectores existentes. Se sua empresa tem uma dependência significativa das cadeias de suprimentos, comece com os conectores de ERP. Independentemente da ordem em que você faz os três, você descobrirá que moveu uma quantidade considerável da sua valiosa propriedade de dados para a nuvem. Agora, veja o que resta e pense se vale a pena mudar de ideia. Muitas vezes a resposta é não. Depois de migrar as 70% a 80% das cargas de trabalho realmente necessárias, você precisa começar a tomar decisões difíceis. Vale a pena migrar os 20% a 30% restantes ou reescreva ou faça a tarefa de maneira diferente? Você não quer entrar no modo de migrar tudo para a nuvem como está, ou terá que replicar toda a dívida de tecnologia que tinha com você na nova nuvem. ambiente, em vez de se concentrar no valor dos dados.

Leitura adicional

Falamos muito sobre como usar seus dados e o que isso realmente significa, além de algumas considerações que você pode enfrentar ao migrar para um armazenamento de dados na nuvem.

Para saber mais sobre como o Google Cloud pode ajudar você a usar insights para ter uma vantagem significativa, ajudar sua empresa a reduzir os custos e aumentar a produtividade otimizando o uso de dados e IA, entre em contato de dados.

Outros recursos

Saber que tipo de unidade de processamento de dados você é
Para saber mais sobre os elementos de como criar uma plataforma de dados de análise, dependendo do tipo de organização, leia nosso artigo aqui

Tudo pronto para dar os próximos passos?

Saiba mais sobre como o Google Cloud pode ajudar a otimizar seu uso de dados e IA.

Fale com um especialista

Google Cloud Next '21: Data Cloud: transforme com uma plataforma de dados universal.

Assista ao webinar

Preencha o formulário para entrarmos em contato com você. Ver formulário