Este documento, no Framework de arquitetura: perspectiva de IA e ML, oferece uma visão geral dos princípios e recomendações para ajudar você a criar e operar sistemas robustos de IA e ML no Google Cloud. Essas recomendações ajudam você a configurar elementos básicos, como observabilidade, automação e escalonabilidade. As recomendações deste documento estão alinhadas ao pilar de excelência operacional do framework de arquitetura.
A excelência operacional no domínio de IA e ML é a capacidade de implantar, gerenciar e governar de forma integrada os sistemas e pipelines intrincados de IA e ML que impulsionam os objetivos estratégicos da sua organização. A excelência operacional permite responder de maneira eficiente às mudanças, reduzir a complexidade operacional e garantir que as operações permaneçam alinhadas às metas de negócios.
Crie uma base sólida para o desenvolvimento do modelo
Estabeleça uma base sólida para simplificar o desenvolvimento do modelo, da definição do problema à implantação. Essa base garante que suas soluções de IA sejam criadas com base em componentes e escolhas confiáveis e eficientes. Esse tipo de base ajuda você a lançar mudanças e melhorias com rapidez e facilidade.
Considere as seguintes recomendações:
- Defina o problema que o sistema de IA resolve e o resultado que você quer.
- Identifique e colete dados relevantes necessários para treinar e avaliar os modelos. Em seguida, limpe e pré-processe os dados brutos. Implemente verificações de validação de dados para garantir a qualidade e a integridade dos dados.
- Escolha a abordagem de ML adequada para a tarefa. Ao projetar a estrutura e os parâmetros do modelo, considere a complexidade e os requisitos computacionais dele.
- Adote um sistema de controle de versões para código, modelo e dados.
Automatizar o ciclo de vida de desenvolvimento de modelos
Desde o preparo e o treinamento de dados até a implantação e o monitoramento, a automação ajuda a melhorar a qualidade e a eficiência das operações. Automation permite o desenvolvimento e a implantação de modelos sem erros, de forma contínua e sem falhas. Automation minimiza a intervenção manual, acelera os ciclos de lançamento e garante consistência em todos os ambientes.
Considere as seguintes recomendações:
- Use um sistema de orquestração de pipeline gerenciado para orquestrar e automatizar o fluxo de trabalho de ML. O pipeline precisa processar as principais etapas do ciclo de desenvolvimento: preparação, treinamento, implantação e avaliação.
- Implemente pipelines de CI/CD para o ciclo de vida de desenvolvimento do modelo. Esses pipelines precisam automatizar a criação, o teste e a implantação de modelos. Os pipelines também precisam incluir treinamento contínuo para refazer o treinamento de modelos com novos dados conforme necessário.
- Implemente abordagens de lançamento em fases, como implantações canário ou testes A/B, para lançamentos de modelos seguros e controlados.
Implementar a observabilidade
Ao implementar a observabilidade, você pode ter insights detalhados sobre a performance do modelo, o deslocamento de dados e a integridade do sistema. Implemente mecanismos de monitoramento, alerta e registro contínuos para identificar problemas de maneira proativa, acionar respostas oportunas e garantir a continuidade operacional.
Considere as seguintes recomendações:
- Implemente o monitoramento de desempenho permanente e automatizado dos modelos. Use métricas e critérios de sucesso para avaliar continuamente o modelo após a implantação.
- Monitore os endpoints e a infraestrutura de implantação para garantir a disponibilidade do serviço.
- Configure alertas personalizados com base em limites e anomalias específicos da empresa para garantir que os problemas sejam identificados e resolvidos em tempo hábil.
- Use técnicas de IA explicável para entender e interpretar as saídas do modelo.
Crie uma cultura de excelência operacional
A excelência operacional é construída com base em pessoas, cultura e práticas profissionais. O sucesso da sua equipe e da sua empresa depende de como a organização implementa metodologias que permitem o desenvolvimento rápido e confiável de recursos de IA.
Considere as seguintes recomendações:
- Defenda a automação e a padronização como metodologias de desenvolvimento principais. Simplifique seus fluxos de trabalho e gerencie o ciclo de vida do ML de forma eficiente usando técnicas de MLOps. Automatize tarefas para liberar tempo para a inovação e padronize processos para facilitar a consistência e a solução de problemas.
- Priorize o aprendizado e a melhoria contínua. Promova oportunidades de aprendizado que os membros da equipe possam usar para aprimorar as habilidades e se manter atualizados com os avanços da IA e do ML. Incentive a experimentação e faça revisões retrospectivas regularmente para identificar áreas de melhoria.
- Cultive uma cultura de responsabilidade e propriedade. Defina papéis claros para que todos entendam as contribuições. Permita que as equipes tomem decisões dentro dos limites e acompanhem o progresso usando métricas transparentes.
- Incorpore a ética e a segurança da IA à cultura. Priorize sistemas responsáveis integrando considerações éticas em todas as etapas do ciclo de vida da ML. Estabeleça princípios éticos claros e incentive discussões abertas sobre desafios relacionados à ética.
Projetar para escalonabilidade
Projete suas soluções de IA para lidar com volumes de dados e demandas de usuários cada vez maiores. Use uma infraestrutura escalonável para que seus modelos possam se adaptar e ter um desempenho ideal conforme o projeto se expande.
Considere as seguintes recomendações:
- Planeje a capacidade e as cotas. Antecipe o crescimento futuro e planeje a capacidade da infraestrutura e as cotas de recursos de acordo.
- Prepare-se para eventos de pico. Verifique se o sistema pode lidar com picos de tráfego ou carga de trabalho repentinos durante eventos de pico.
- Amplie os aplicativos de IA para produção. Projete para escalonamento horizontal para acomodar aumentos na carga de trabalho. Use frameworks como Ray na Vertex AI para paralelizar tarefas em várias máquinas.
- Use serviços gerenciados quando apropriado. Use serviços que ajudam você a dimensionar e minimizar a sobrecarga operacional e a complexidade das intervenções manuais.
Colaboradores
Autores:
- Sannya Dang | Arquiteto de soluções de IA
- Filipe Gracio, PhD | Engenheiro de clientes
Outros colaboradores:
- Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
- Marwan Al Shawi | Engenheiro de clientes do parceiro
- Ryan Cox | Arquiteto principal
- Stef Ruinard | Arquiteto de soluções de campo de IA generativa