Sobre o Ray no Google Kubernetes Engine (GKE)


Esta página fornece uma visão geral do operador Rray e recursos personalizados relevantes para implantar e gerenciar clusters e aplicativos Ray no Google Kubernetes Engine (GKE).

O Ray é um framework de computação unificada de código aberto para escalonamento de aplicativos de IA/ML e Python. O Ray oferece um conjunto de bibliotecas para distribuir o ambiente de execução de computação para IA/ML em vários nós de computação.

Para saber como ativar o operador Ray no GKE, consulte Ativar o operador Ray no GKE.

Por que usar o operador Ray no GKE

O operador Ray é a maneira recomendada de implantar e gerenciar clusters do Ray no do GKE. Ao executar o operador Ray no GKE, você aproveita o suporte do Ray para Python e a confiabilidade, portabilidade e escalonabilidade de nível empresarial do GKE.

O operador Ray no GKE é baseado no KubeRay, que fornece APIs declarativas do Kubernetes, criadas especificamente para gerenciar clusters do Ray. Assim, é possível provisionar, escalonar e gerenciar as implantações do Ray com outras cargas de trabalho conteinerizadas no GKE.

Como funciona o operador Ray no GKE

Quando você ativa o operador Ray nos clusters do GKE, o GKE instala e hospeda automaticamente o operador KubeRay.

O KubeRay fornece recursos personalizados do Kubernetes para gerenciar implantações do Ray no Kubernetes, incluindo:

Recurso personalizado RayCluster

Com o recurso personalizado RayCluster, é possível especificar um cluster Ray que O GKE implanta como pods do Kubernetes. Um cluster Ray geralmente consiste em um pod principal e vários pods de worker.

Recurso personalizado RayJob

O recurso personalizado RayJob permite executar um único job do Ray. O Kuberay cria um RayCluster para fornecer recursos de computação para o job e depois cria um job do Kubernetes que envia o job do Ray ao pod principal do RayCluster.

Para um gerenciamento de recursos eficiente, configure o KubeRay para limpar automaticamente o RayCluster após a conclusão do job.

Recurso personalizado RayService

O recurso personalizado RayService permite configurar aplicativos Ray Serve, como aplicativos para disponibilização e inferência de modelos. O KubeRay cria um RayCluster para fornecer os recursos de computação e, em seguida, implanta o aplicativo Ray Serve conforme especificado pela configuração do Ray Serve.

Responsabilidade compartilhada do Ray no GKE

Quando você escolhe executar cargas de trabalho do Ray no GKE com o operador Ray, é importante entender como as responsabilidades são divididas entre o Google Cloud e você, o cliente:

Responsabilidades do Google

  • Manter a confiabilidade e o tempo de atividade do operador KubeRay.
  • Gerenciar upgrades de versão para o operador KubeRay.
  • Recursos específicos do KubeRay para gerenciar os recursos personalizados RayCluster, RayJob e RayService.

Responsabilidades do cliente

  • Manter as imagens de contêiner usadas para os pods de worker e principais do Ray.
  • Manter o controle de versões e os upgrades dos pods de worker e principal do Ray.
  • Configurar requisitos de recursos (CPU, GPU, memória etc.) para seus clusters do Ray.
  • Seguir as práticas recomendadas para proteger clusters do Ray.
  • Confiabilidade e monitoramento dos seus aplicativos Ray.

Consulte Responsabilidade compartilhada do GKE para saber mais.

A seguir