Esta página fornece uma visão geral do operador Rray e recursos personalizados relevantes para implantar e gerenciar clusters e aplicativos Ray no Google Kubernetes Engine (GKE).
O Ray é um framework de computação unificada de código aberto para escalonamento de aplicativos de IA/ML e Python. O Ray oferece um conjunto de bibliotecas para distribuir o ambiente de execução de computação para IA/ML em vários nós de computação.
Para saber como ativar o operador Ray no GKE, consulte Ativar o operador Ray no GKE.
Por que usar o operador Ray no GKE
O operador Ray é a maneira recomendada de implantar e gerenciar clusters do Ray no do GKE. Ao executar o operador Ray no GKE, você aproveita o suporte do Ray para Python e a confiabilidade, portabilidade e escalonabilidade de nível empresarial do GKE.
O operador Ray no GKE é baseado no KubeRay, que fornece APIs declarativas do Kubernetes, criadas especificamente para gerenciar clusters do Ray. Assim, é possível provisionar, escalonar e gerenciar as implantações do Ray com outras cargas de trabalho conteinerizadas no GKE.
Como funciona o operador Ray no GKE
Quando você ativa o operador Ray nos clusters do GKE, o GKE instala e hospeda automaticamente o operador KubeRay.
O KubeRay fornece recursos personalizados do Kubernetes para gerenciar implantações do Ray no Kubernetes, incluindo:
Recurso personalizado RayCluster
Com o recurso personalizado RayCluster, é possível especificar um cluster Ray que O GKE implanta como pods do Kubernetes. Um cluster Ray geralmente consiste em um pod principal e vários pods de worker.
Recurso personalizado RayJob
O recurso personalizado RayJob permite executar um único job do Ray. O Kuberay cria um RayCluster para fornecer recursos de computação para o job e depois cria um job do Kubernetes que envia o job do Ray ao pod principal do RayCluster.
Para um gerenciamento de recursos eficiente, configure o KubeRay para limpar automaticamente o RayCluster após a conclusão do job.
Recurso personalizado RayService
O recurso personalizado RayService permite configurar aplicativos Ray Serve, como aplicativos para disponibilização e inferência de modelos. O KubeRay cria um RayCluster para fornecer os recursos de computação e, em seguida, implanta o aplicativo Ray Serve conforme especificado pela configuração do Ray Serve.
Responsabilidade compartilhada do Ray no GKE
Quando você escolhe executar cargas de trabalho do Ray no GKE com o operador Ray, é importante entender como as responsabilidades são divididas entre o Google Cloud e você, o cliente:
Responsabilidades do Google
- Manter a confiabilidade e o tempo de atividade do operador KubeRay.
- Gerenciar upgrades de versão para o operador KubeRay.
- Recursos específicos do KubeRay para gerenciar os recursos personalizados RayCluster, RayJob e RayService.
Responsabilidades do cliente
- Manter as imagens de contêiner usadas para os pods de worker e principais do Ray.
- Manter o controle de versões e os upgrades dos pods de worker e principal do Ray.
- Configurar requisitos de recursos (CPU, GPU, memória etc.) para seus clusters do Ray.
- Seguir as práticas recomendadas para proteger clusters do Ray.
- Confiabilidade e monitoramento dos seus aplicativos Ray.
Consulte Responsabilidade compartilhada do GKE para saber mais.
A seguir
- Aprenda a ativar o operador do Ray no GKE.
- Confira a documentação do Ray no Kubernetes.