Visão geral do Dataproc Hub

Com o serviço Dataproc Hub, você aproveita os notebooks da AI Platform e o Dataproc para executar tarefas interativas de ML e processamento de dados em escala usando notebooks Jupyter e o ecossistema Hadoop e Spark.

  • O Dataproc Hub usa o JupyterHub para:

    • trazer consistência em toda a organização permitindo que os administradores criem uma lista selecionada de modelos de notebook para diferentes grupos de dados e usuários de ML.
    • Acelere a criação de notebooks fornecendo aos usuários e aos dados de ML ambientes pré-configurados que correspondam aos seus requisitos de software e hardware.
  • O Dataproc Hub fornece interfaces separadas para administradores e usuários:

    • Os administradores usam a IU do notebook→Dataproc Hub no Console do Cloud para criar instâncias do Dataproc Hub. Cada instância do hub contém um conjunto predefinido de ambientes de notebook definido por arquivos de configuração de cluster do YAML.
    • Os usuários de dados e ML usam a IU de notebooks→Instâncias no Console do Cloud para selecionar um ambiente de notebook predefinido para gerar um servidor de notebook no cluster do Dataproc.
      • Usuários sem acesso ao console podem acessar a instância do Dataproc Hub para gerar um cluster do Dataproc a partir do navegador da Web usando um URL de instância do Dataproc Hub fornecido pelo administrador.
  • Casos de uso do Dataproc Hub:

    • Usuários e dados de ML são organizados em grupos com requisitos comuns de software e hardware (os usuários podem ser colocados em vários grupos)
    • Acesso restrito ao console do Dataproc: os usuários não têm acesso ao Dataproc no Console do Cloud
  • Recursos do Dataproc Hub:

    • Ambientes de usuário predefinidos
    • Isolamento de cluster e notebook: os membros de um grupo não recebem acesso fácil a clusters e notebooks de membros em outros grupos

Para saber mais