Com o Dataproc Hub, você aproveita o Vertex AI Workbench e o Dataproc para executar tarefas interativas de ML e processamento de dados em escala usando notebooks Jupyter e o ecossistema Hadoop e Spark.
Os notebooks do Dataproc Hub são selecionados pelo administrador e executados em um cluster do JupyterLab do Dataproc criado e executado no projeto do usuário.
O Dataproc Hub usa o JupyterHub para:
- trazer consistência em toda a organização permitindo que os administradores criem uma lista selecionada de modelos de notebook para diferentes grupos de dados e usuários de ML.
- Acelere a criação de notebooks fornecendo aos usuários e aos dados de ML ambientes pré-configurados que correspondam aos seus requisitos de software e hardware.
O Dataproc Hub fornece interfaces separadas para administradores e usuários:
- Os administradores usam a página Dataproc→Workbench→Notebooks gerenciados pelo usuário no console do Google Cloud para criar instâncias do Dataproc Hub. Cada instância do hub contém um conjunto predefinido de ambientes de notebook definidos por arquivos de configuração de cluster YAML.
- Os usuários de dados e ML usam a IU de notebooks→Instâncias no
console do Google Cloud para selecionar um ambiente de notebook predefinido para gerar
um servidor de notebook no cluster do Dataproc.
- Usuários sem acesso ao console podem acessar a instância do Dataproc Hub para gerar um cluster do Dataproc a partir do navegador da Web usando um URL de instância do Dataproc Hub fornecido pelo administrador.
Casos de uso do Dataproc Hub:
- Usuários e dados de ML são organizados em grupos com requisitos comuns de software e hardware (os usuários podem ser colocados em vários grupos)
- Acesso restrito ao console do Dataproc: os usuários não têm acesso ao Dataproc no console do Google Cloud
Recursos do Dataproc Hub:
- Ambientes de usuário predefinidos
- Isolamento de cluster e notebook: os membros de um grupo não recebem acesso fácil a clusters e notebooks de membros em outros grupos
Para saber mais
- Administradores: configure o Dataproc Hub
- Usuários: usar o Dataproc Hub