O Dataproc Hub permite que você aproveite o Vertex AI Workbench e o Dataproc para executar tarefas interativas de ML e processamento de dados em escala usando notebooks do Jupyter e o ecossistema Hadoop e Spark.
Os notebooks do Dataproc Hub são notebooks de usuário único selecionados pelo administrador em execução em um cluster JupyterLab do Dataproc, criados e executados no projeto do usuário.
O Dataproc Hub usa o JupyterHub para:
- trazer consistência em toda a organização permitindo que os administradores criem uma lista selecionada de modelos de notebook para diferentes grupos de dados e usuários de ML.
- Acelere a criação de notebooks fornecendo aos usuários e aos dados de ML ambientes pré-configurados que correspondam aos seus requisitos de software e hardware.
O Dataproc Hub fornece interfaces separadas para administradores e usuários:
- Os administradores usam a página Dataproc→Workbench→Notebooks gerenciados pelo usuário no console do Google Cloud para criar instâncias do Dataproc Hub. Cada instância do hub contém um conjunto predefinido de ambientes de notebook definidos por arquivos de configuração de cluster YAML.
- Os usuários de dados e ML usam a interface Notebooks → Instâncias no
console do Google Cloud para selecionar um ambiente de notebook predefinido para gerar
um servidor de notebook no cluster do Dataproc.
- Usuários sem acesso ao console podem acessar a instância do Dataproc Hub para gerar um cluster do Dataproc a partir do navegador da Web usando um URL de instância do Dataproc Hub fornecido pelo administrador.
Casos de uso do Dataproc Hub:
- Usuários e dados de ML são organizados em grupos com requisitos comuns de software e hardware (os usuários podem ser colocados em vários grupos)
- Acesso restrito ao console do Dataproc: os usuários não têm acesso ao Dataproc no console do Google Cloud
Recursos do Dataproc Hub:
- Ambientes de usuário predefinidos
- Isolamento de cluster e notebook: os membros de um grupo não recebem acesso fácil a clusters e notebooks de membros em outros grupos
Para saber mais
- Administradores: configure o Dataproc Hub
- Usuários: usar o Dataproc Hub