Este documento discute que o objetivo do padrão analítico híbrido e multicloud é aproveitar a divisão entre cargas de trabalho transacionais e analíticas.
Nos sistemas corporativos, a maioria das cargas de trabalho se enquadra nestas categorias:
- Cargas de trabalho transacionais incluem aplicativos interativos como vendas, processamento financeiro, planejamento de recursos corporativos ou comunicação.
- Cargas de trabalho analíticas incluem aplicativos para transformação, análise, refino ou visualização de dados, com o objetivo de ajudar nos processos de tomada de decisão.
Os sistemas de análise recebem dados de sistemas transacionais, consultando APIs ou acessando bancos de dados. Na maioria das empresas, os sistemas analíticos e transacionais tendem a ser separados e fracamente acoplados. O objetivo do padrão analítico híbrido e de várias nuvens é aproveitar essa divisão preexistente ao executar cargas de trabalho transacionais e de análise em dois ambientes de computação diferentes. Os dados brutos são extraídos primeiro das cargas de trabalho em execução no ambiente de computação particular e, em seguida, carregados no Google Cloud, onde são usados para processamento analítico. Alguns dos resultados podem, então, ser retornados aos sistemas transacionais.
O diagrama a seguir ilustra conceitualmente as arquiteturas possíveis mostrando possíveis pipelines de dados. Cada caminho/seta representa uma possível opção de pipeline de movimentação e transformação de dados que pode ser baseada em ETL ou ELT, dependendo da qualidade de dados disponível e do caso de uso desejado.
Para mover seus dados para o Google Cloud e aproveitar o valor deles, use os serviços de movimentação de dados, um pacote completo de serviços de ingestão, integração e replicação de dados.
Como mostrado no diagrama anterior, conectar o Google Cloud a ambientes locais e outros ambientes de nuvem pode ativar vários casos de uso de análise de dados, como streaming de dados e backups de banco de dados. Para oferecer o transporte básico de um padrão de análise híbrida e multicloud que exige um grande volume de transferência de dados, o Cloud Interconnect e o Cross-Cloud Interconnect oferecem conectividade dedicada a provedores de nuvem e locais.
Vantagens
A execução de cargas de trabalho analíticas na nuvem tem muitas vantagens importantes:
- O tráfego de entrada (mover dados do ambiente de computação particular ou de outras nuvens para o Google Cloud) pode ser sem custo financeiro.
- As cargas de trabalho analíticas geralmente precisam processar quantidades substanciais de dados, o que pode ser feito em bursts. Portanto, elas são especialmente adequadas para serem implantadas em um ambiente de nuvem pública. Ao dimensionar recursos de computação dinamicamente, é possível processar rapidamente grandes conjuntos de dados, sem a necessidade de investimentos iniciais ou do provisionamento de equipamentos de computação em excesso.
- O Google Cloud oferece um conjunto avançado de serviços para gerenciar dados em
todo o ciclo de vida, desde a aquisição inicial até o processamento
e a análise até a visualização final.
- Os serviços de movimentação de dados no Google Cloud oferecem um pacote completo de produtos para mover, integrar e transformar dados de diferentes maneiras.
- O Cloud Storage é adequado para criar um data lake.
O Google Cloud ajuda a modernizar e otimizar sua plataforma de dados para quebrar silos de dados. O uso de um lakehouse de dados ajuda a padronizar diferentes formatos de armazenamento. Ele também pode fornecer a flexibilidade, a escalonabilidade e a agilidade necessárias para garantir que seus dados gerem valor para sua empresa, e não ineficiências. Para mais informações, consulte BigLake.
O BigQuery Omni oferece capacidade de computação executada localmente no armazenamento da AWS ou do Azure. Ele também ajuda a consultar seus próprios dados armazenados no Amazon Simple Storage Service (Amazon S3) ou no Armazenamento de Blobs do Azure. Esse recurso de análise multicloud permite que as equipes de dados eliminem os silos de dados. Para mais informações sobre como consultar dados armazenados fora do BigQuery, consulte Introdução a fontes de dados externas.
Práticas recomendadas
Para implementar o padrão de arquitetura analítica híbrida e multicloud, considere as seguintes práticas recomendadas gerais:
- Use o padrão de rede de transferência para permitir a ingestão de dados. Se os resultados analíticos precisarem ser retornados aos sistemas transacionais, combine a entrega e o padrão de saída controlada.
- Use filas do Pub/Sub ou buckets do Cloud Storage para entregar dados ao Google Cloud de sistemas transacionais em execução no ambiente de computação particular. Essas filas ou buckets poderão disponibilizar fontes para canais de processamento de dados e cargas de trabalho.
- Para implantar pipelines de dados ETL e ELT, use o Cloud Data Fusion ou o Dataflow, dependendo dos requisitos específicos do caso de uso. Ambos são serviços de processamento de dados totalmente gerenciados e com foco na nuvem para criar e gerenciar pipelines de dados.
- Para descobrir, classificar e proteger seus recursos de dados valiosos, use os recursos de Proteção de Dados Sensíveis do Google Cloud, como técnicas de desidentificação. Essas técnicas permitem mascarar, criptografar e substituir dados sensíveis, como informações de identificação pessoal (PII), usando uma chave pré-determinada ou gerada aleatoriamente, quando aplicável e em conformidade.
- Quando você tiver cargas de trabalho Hadoop ou Spark, considere migrar jobs para o Dataproc e migrar dados atuais do HDFS para o Cloud Storage.
Ao realizar uma transferência de dados inicial do seu ambiente de computação particular para o Google Cloud, escolha a abordagem de transferência mais adequada ao tamanho do conjunto de dados e à largura de banda disponível. Para mais informações, consulte Migração para o Google Cloud: como transferir grandes conjuntos de dados.
Se a transferência ou troca de dados entre o Google Cloud e outras nuvens for necessária por um longo período com alto volume de tráfego, avalie o uso do Cross-Cloud Interconnect do Google Cloud para estabelecer conectividade dedicada de alta largura de banda entre o Google Cloud e outros provedores de serviços em nuvem (disponível em determinados locais).
Se a criptografia for necessária na camada de conectividade, várias opções estão disponíveis com base na solução de conectividade híbrida escolhida. Essas opções incluem túneis VPN, VPN de alta disponibilidade pelo Cloud Interconnect e MACsec para o Cross-Cloud Interconnect.
Use ferramentas e processos que sejam consistentes em vários ambientes. Em um cenário híbrido de análise, essa prática pode ajudar a aumentar a eficiência operacional, mas não é um pré-requisito.