Compreenda os conceitos-chave do Dataproc

Para tirar o máximo partido do Dataproc, é útil compreender os seus elementos básicos fundamentais. Este guia explica os conceitos e as funcionalidades principais do Dataproc, bem como as vantagens que estas funcionalidades oferecem.

O modelo baseado em clusters

Esta é a forma padrão e centrada na infraestrutura de usar o Dataproc. Dá-lhe controlo total sobre um conjunto dedicado de máquinas virtuais para as suas tarefas de processamento de dados.

  • Clusters: um cluster é o seu motor de processamento de dados pessoais, composto por Google Cloud máquinas virtuais. Cria um cluster para executar frameworks de código aberto, como o Apache Spark e o Apache Hadoop. Tem controlo total sobre o tamanho do cluster, os tipos de máquinas e a configuração.
  • Trabalhos: um trabalho é uma tarefa específica, como um script PySpark ou uma consulta Hadoop. Em vez de executar uma tarefa diretamente num cluster, envia a tarefa para o serviço Dataproc, que gere a execução da tarefa por si. Pode enviar várias tarefas para o cluster.
  • Modelos de fluxo de trabalho: um modelo de fluxo de trabalho é uma definição reutilizável que orquestra uma série de tarefas (um fluxo de trabalho). Pode definir dependências entre tarefas, por exemplo, para executar uma tarefa de aprendizagem automática apenas depois de uma tarefa de limpeza de dados ser concluída com êxito. O fluxo de trabalho baseado em modelos pode ser executado num cluster existente ou num cluster temporário (efémero) que é criado para executar o fluxo de trabalho e, em seguida, eliminado após a conclusão do fluxo de trabalho. Pode usar o modelo para executar o fluxo de trabalho definido sempre que necessário.
  • Políticas de escalamento automático: uma política de escalamento automático contém regras que define para adicionar ou remover máquinas de trabalho de um cluster com base na carga de trabalho do cluster, de modo a otimizar dinamicamente o custo e o desempenho do cluster.

O modelo sem servidor

O Serverless para Apache Spark é o modelo Dataproc moderno de execução automática. Permite-lhe executar tarefas sem aprovisionar, gerir nem dimensionar a infraestrutura subjacente: o Serverless para Apache Spark processa os detalhes por si.

  • Lotes: um lote (também denominado carga de trabalho em lote) é o equivalente sem servidor de uma tarefa do Dataproc. Envia o seu código, como uma tarefa do Spark, para o serviço. O Serverless para Apache Spark aprovisiona os recursos necessários a pedido, executa a tarefa e, em seguida, desativa-os. Não cria nem gere recursos de clusters ou tarefas; o serviço faz o trabalho por si.
  • Sessões interativas: as sessões interativas oferecem um ambiente em direto e a pedido para análise exploratória de dados, normalmente num bloco de notas Jupyter. As sessões interativas oferecem a conveniência de um espaço de trabalho temporário sem servidor que pode usar para executar consultas e desenvolver código sem ter de aprovisionar e gerir recursos de clusters e notebooks.
  • Modelos de sessões: um modelo de sessão é uma configuração reutilizável que pode usar para definir sessões interativas. O modelo contém definições de sessão, como propriedades do Spark e dependências de bibliotecas. Usa o modelo para criar ambientes de sessão interativos para programação, normalmente num bloco de notas do Jupyter.

Serviços de metastore

O Dataproc fornece serviços geridos para processar metadados, que são os dados sobre os seus dados.

  • Metastore: um metastore funciona como um catálogo central para o esquema de dados, como os nomes das tabelas e das colunas, e os tipos de dados. Um metastore permite que diferentes serviços, clusters e tarefas compreendam a estrutura dos seus dados. Normalmente, o catálogo é armazenado no Cloud Storage.
  • Federação: a federação de metadados é uma funcionalidade avançada que lhe permite aceder e consultar dados de vários repositórios de metadados como se estivesse a aceder a um único repositório de metadados unificado.

Notebooks e ambientes de desenvolvimento

Os blocos de notas e os IDEs do Dataproc estão associados a ambientes de programação integrados onde pode escrever e executar o seu código.

  • BigQuery Studio e Workbench: estes são ambientes de análise e bloco de notas unificados. Permitem-lhe escrever código (por exemplo, num bloco de notas Jupyter) e usar um cluster do Dataproc ou uma sessão sem servidor como o motor de back-end avançado para executar o seu código em grandes conjuntos de dados.
  • Plug-in JupyterLab do Dataproc: esta extensão oficial do JupyterLab funciona como um painel de controlo do Dataproc no seu ambiente de bloco de notas. Simplifica o seu fluxo de trabalho, permitindo-lhe procurar, criar e gerir clusters, bem como enviar tarefas, sem ter de sair da interface do Jupyter. Saiba mais
  • Conetor Python do Dataproc Spark Connect: esta biblioteca Python simplifica o processo de utilização do Spark Connect com o Dataproc. Processa a autenticação e a configuração de pontos finais, o que simplifica bastante a ligação do seu ambiente Python local, como um bloco de notas ou um IDE, a um cluster do Dataproc remoto para desenvolvimento interativo. Saiba mais

Personalização do ambiente

O Dataproc oferece ferramentas e componentes para personalizar o seu ambiente de acordo com necessidades específicas. A secção Utilitários na Google Cloud consola contém ferramentas úteis para personalizar o seu ambiente do Dataproc.