Acerca do Ray no Google Kubernetes Engine (GKE)


Esta página apresenta uma vista geral do operador do Ray e dos recursos personalizados relevantes para implementar e gerir clusters e aplicações do Ray no Google Kubernetes Engine (GKE).

O Ray é uma framework de computação unificada de código aberto para escalar aplicações de IA/AA e Python. O Ray oferece um conjunto de bibliotecas para distribuir o tempo de execução de computação para IA/AM em vários nós de computação.

Para saber como ativar o operador Ray no GKE, consulte o artigo Ative o operador Ray no GKE.

Por que usar o operador Ray no GKE

O operador do Ray é a forma recomendada de implementar e gerir clusters do Ray no GKE. Quando executa o operador Ray no GKE, beneficia do suporte do Ray para Python e da fiabilidade, portabilidade e escalabilidade de nível empresarial do GKE.

O operador Ray no GKE baseia-se no KubeRay, que fornece APIs Kubernetes declarativas especificamente concebidas para gerir clusters Ray. Isto significa que pode aprovisionar, dimensionar e gerir as suas implementações do Ray com outras cargas de trabalho em contentores no GKE.

Como funciona o operador Ray no GKE

Quando ativa o operador Ray nos seus clusters do GKE, o GKE instala e aloja automaticamente o operador KubeRay.

O KubeRay fornece recursos personalizados do Kubernetes para gerir implementações do Ray no Kubernetes, incluindo:

Recurso personalizado RayCluster

O recurso personalizado RayCluster permite-lhe especificar um cluster do Ray que o GKE implementa como pods do Kubernetes. Normalmente, um cluster do Ray consiste num único pod principal e em vários pods de trabalho.

Recurso personalizado RayJob

O recurso personalizado RayJob permite-lhe executar uma única tarefa do Ray. O KubeRay cria um RayCluster para fornecer recursos de computação para a tarefa e, em seguida, cria uma tarefa do Kubernetes que envia a tarefa do Ray para o pod principal do RayCluster.

Para uma gestão eficiente dos recursos, pode configurar o KubeRay para limpar automaticamente o RayCluster após a conclusão bem-sucedida da tarefa.

Recurso personalizado RayService

O recurso personalizado RayService permite-lhe configurar aplicações Ray Serve, como aplicações para apresentação e inferência de modelos. O KubeRay cria um RayCluster para fornecer os recursos de computação e, em seguida, implementa a aplicação Ray Serve, conforme especificado pela configuração do Ray Serve.

Responsabilidade partilhada do Ray no GKE

Quando opta por executar cargas de trabalho do Ray no GKE com o operador do Ray, é importante compreender como as responsabilidades são divididas entre Google Cloud e o cliente:

Responsabilidades da Google

  • Manter a fiabilidade e o tempo de atividade do operador KubeRay.
  • Gerir atualizações de versões para o operador KubeRay.
  • Capacidades específicas do KubeRay para gerir os recursos personalizados RayCluster, RayJob e RayService.

Responsabilidades do cliente

  • Manutenção das imagens de contentores usadas para os pods de cabeçalho e de trabalho do Ray.
  • Manter o controlo de versões e as atualizações para os pods do Ray head e do Ray worker.
  • Configurar os requisitos de recursos (CPU, GPU, memória, etc.) para os seus clusters do Ray.
  • Seguir as práticas recomendadas para proteger clusters do Ray.
  • Fiabilidade e monitorização das suas aplicações Ray.

Consulte o artigo Responsabilidade partilhada do GKE para saber mais.

O que se segue?