Ce document du framework d'architecture: perspective sur l'IA et le ML présente les principes et les recommandations qui vous aideront à créer et à exploiter des systèmes d'IA et de ML robustes sur Google Cloud. Ces recommandations vous aident à configurer des éléments fondamentaux tels que l'observabilité, l'automatisation et l'évolutivité. Les recommandations de ce document s'alignent sur le pilier d'excellence opérationnelle du framework d'architecture.
L'excellence opérationnelle dans le domaine de l'IA et du ML consiste à pouvoir déployer, gérer et gouverner de manière fluide les systèmes et pipelines d'IA et de ML complexes qui alimentent les objectifs stratégiques de votre organisation. L'excellence opérationnelle vous permet de répondre efficacement aux changements, de réduire la complexité opérationnelle et de vous assurer que les opérations restent alignées sur les objectifs commerciaux.
Établir une base solide pour le développement de modèles
Établissez une base solide pour simplifier le développement de modèles, de la définition du problème au déploiement. Une telle base garantit que vos solutions d'IA sont basées sur des composants et des choix fiables et efficaces. Ce type de base vous aide à publier des modifications et des améliorations rapidement et facilement.
Tenez compte des recommandations suivantes:
- Définissez le problème que le système d'IA résout et le résultat souhaité.
- Identifiez et collectez les données pertinentes requises pour entraîner et évaluer vos modèles. Nettoyez ensuite les données brutes et prétraitez-les. Implémentez des contrôles de validation des données pour garantir la qualité et l'intégrité des données.
- Choisissez l'approche de ML appropriée pour la tâche. Lorsque vous concevez la structure et les paramètres du modèle, tenez compte de sa complexité et de ses exigences de calcul.
- Adoptez un système de contrôle des versions pour le code, le modèle et les données.
Automatiser le cycle de vie du développement de modèles
De la préparation et de l'entraînement des données au déploiement et à la surveillance, l'automatisation vous aide à améliorer la qualité et l'efficacité de vos opérations. L'automatisation permet de développer et de déployer des modèles de manière fluide, reproductible et sans erreur. L'automatisation réduit les interventions manuelles, accélère les cycles de publication et garantit la cohérence entre les environnements.
Tenez compte des recommandations suivantes:
- Utilisez un système d'orchestration de pipeline géré pour orchestrer et automatiser le workflow de ML. Le pipeline doit gérer les principales étapes de votre cycle de développement: préparation, entraînement, déploiement et évaluation.
- Implémentez des pipelines CI/CD pour le cycle de vie du développement de modèles. Ces pipelines doivent automatiser la création, le test et le déploiement des modèles. Les pipelines doivent également inclure un entraînement continu pour réentraîner les modèles sur de nouvelles données si nécessaire.
- Implémentez des approches de lancement par étapes, telles que les déploiements Canary ou les tests A/B, pour des versions de modèle sûres et contrôlées.
Implémenter l'observabilité
Lorsque vous implémentez l'observabilité, vous pouvez obtenir des insights détaillés sur les performances du modèle, la dérive des données et l'état du système. Implémentez des mécanismes de surveillance, d'alerte et de journalisation en continu pour identifier de manière proactive les problèmes, déclencher des réponses rapides et assurer la continuité opérationnelle.
Tenez compte des recommandations suivantes:
- Implémentez une surveillance des performances permanente et automatisée pour vos modèles. Utilisez des métriques et des critères de réussite pour évaluer en continu le modèle après son déploiement.
- Surveillez vos points de terminaison de déploiement et votre infrastructure pour garantir la disponibilité du service.
- Configurez des alertes personnalisées en fonction de seuils et d'anomalies spécifiques à votre entreprise pour vous assurer que les problèmes sont identifiés et résolus dans les meilleurs délais.
- Utilisez des techniques d'IA explicable pour comprendre et interpréter les résultats des modèles.
Développer une culture d'excellence opérationnelle
L'excellence opérationnelle repose sur des personnes, une culture et des pratiques professionnelles. La réussite de votre équipe et de votre entreprise dépend de l'efficacité avec laquelle votre organisation met en œuvre des méthodologies permettant de développer rapidement et de manière fiable des fonctionnalités d'IA.
Tenez compte des recommandations suivantes:
- Promouvoir l'automatisation et la standardisation comme méthodes de développement de base. Simplifiez vos workflows et gérez efficacement le cycle de vie du ML à l'aide de techniques MLOps. Automatisez les tâches pour vous libérer du temps pour l'innovation et standardisez les processus pour assurer la cohérence et faciliter le dépannage.
- Priorisez l'apprentissage et l'amélioration continus. Encouragez les opportunités d'apprentissage que les membres de l'équipe peuvent utiliser pour améliorer leurs compétences et se tenir informés des avancées de l'IA et du ML. Encouragez l'expérimentation et effectuez des rétrospectives régulières pour identifier les axes d'amélioration.
- Cultivez une culture de responsabilité et d'appropriation. Définissez des rôles clairs afin que chacun comprenne sa contribution. Permettez aux équipes de prendre des décisions dans les limites et de suivre leur progression à l'aide de métriques transparentes.
- Intégrez l'éthique et la sécurité de l'IA à votre culture. Privilégiez les systèmes responsables en intégrant des considérations éthiques à chaque étape du cycle de vie du ML. Définissez des principes éthiques clairs et encouragez les discussions ouvertes sur les défis éthiques.
Concevoir pour l'évolutivité
Concevez vos solutions d'IA pour gérer les volumes de données et les demandes des utilisateurs croissants. Utilisez une infrastructure évolutive pour que vos modèles puissent s'adapter et fonctionner de manière optimale à mesure que votre projet se développe.
Tenez compte des recommandations suivantes:
- Planifiez la capacité et les quotas. Anticipez la croissance future et planifiez en conséquence la capacité de votre infrastructure et les quotas de ressources.
- Préparez-vous aux pics d'activité. Assurez-vous que votre système peut gérer les pics soudains de trafic ou de charge de travail lors des pics d'activité.
- Évoluer les applications d'IA pour la production Concevez pour le scaling horizontal afin de faire face à l'augmentation de la charge de travail. Utilisez des frameworks tels que Ray sur Vertex AI pour paralléliser des tâches sur plusieurs machines.
- Utilisez des services gérés, le cas échéant. Utilisez des services qui vous aident à évoluer tout en réduisant les coûts opérationnels et la complexité des interventions manuelles.
Contributeurs
Auteurs :
- Sannya Dang | Architecte de solutions d'IA
- Dr Felipe Gracio | Ingénieur client
Autres contributeurs :
- Kumar Dhanagopal Développeur de solutions multiproduits
- Marwan Al Shawi | Partner Customer Engineer
- Ryan Cox | Architecte principal
- Stef Ruinard | Architecte de solutions d'IA générative