Esta página apresenta uma vista geral do operador do Ray e dos recursos personalizados relevantes para implementar e gerir clusters e aplicações do Ray no Google Kubernetes Engine (GKE).
O Ray é uma framework de computação unificada de código aberto para escalar aplicações de IA/AA e Python. O Ray oferece um conjunto de bibliotecas para distribuir o tempo de execução de computação para IA/AM em vários nós de computação.
Para saber como ativar o operador Ray no GKE, consulte o artigo Ative o operador Ray no GKE.
Por que usar o operador Ray no GKE
O operador do Ray é a forma recomendada de implementar e gerir clusters do Ray no GKE. Quando executa o operador Ray no GKE, beneficia do suporte do Ray para Python e da fiabilidade, portabilidade e escalabilidade de nível empresarial do GKE.
O operador Ray no GKE baseia-se no KubeRay, que fornece APIs Kubernetes declarativas especificamente concebidas para gerir clusters Ray. Isto significa que pode aprovisionar, dimensionar e gerir as suas implementações do Ray com outras cargas de trabalho em contentores no GKE.
Como funciona o operador Ray no GKE
Quando ativa o operador Ray nos seus clusters do GKE, o GKE instala e aloja automaticamente o operador KubeRay.
O KubeRay fornece recursos personalizados do Kubernetes para gerir implementações do Ray no Kubernetes, incluindo:
Recurso personalizado RayCluster
O recurso personalizado RayCluster permite-lhe especificar um cluster do Ray que o GKE implementa como pods do Kubernetes. Normalmente, um cluster do Ray consiste num único pod principal e em vários pods de trabalho.
Recurso personalizado RayJob
O recurso personalizado RayJob permite-lhe executar uma única tarefa do Ray. O KubeRay cria um RayCluster para fornecer recursos de computação para a tarefa e, em seguida, cria uma tarefa do Kubernetes que envia a tarefa do Ray para o pod principal do RayCluster.
Para uma gestão eficiente dos recursos, pode configurar o KubeRay para limpar automaticamente o RayCluster após a conclusão bem-sucedida da tarefa.
Recurso personalizado RayService
O recurso personalizado RayService permite-lhe configurar aplicações Ray Serve, como aplicações para apresentação e inferência de modelos. O KubeRay cria um RayCluster para fornecer os recursos de computação e, em seguida, implementa a aplicação Ray Serve, conforme especificado pela configuração do Ray Serve.
Responsabilidade partilhada do Ray no GKE
Quando opta por executar cargas de trabalho do Ray no GKE com o operador do Ray, é importante compreender como as responsabilidades são divididas entre Google Cloud e o cliente:
Responsabilidades da Google
- Manter a fiabilidade e o tempo de atividade do operador KubeRay.
- Gerir atualizações de versões para o operador KubeRay.
- Capacidades específicas do KubeRay para gerir os recursos personalizados RayCluster, RayJob e RayService.
Responsabilidades do cliente
- Manutenção das imagens de contentores usadas para os pods de cabeçalho e de trabalho do Ray.
- Manter o controlo de versões e as atualizações para os pods do Ray head e do Ray worker.
- Configurar os requisitos de recursos (CPU, GPU, memória, etc.) para os seus clusters do Ray.
- Seguir as práticas recomendadas para proteger clusters do Ray.
- Fiabilidade e monitorização das suas aplicações Ray.
Consulte o artigo Responsabilidade partilhada do GKE para saber mais.
O que se segue?
- Saiba como ativar o operador Ray no GKE.
- Explore a documentação do Ray no Kubernetes.