Notre engagement en faveur de l’open source libère l’innovation en IA et ML
Danu Mbanga
Group Product Manager, Engineering, Core ML Product
Sachin Gupta
Vice President & GM, Infrastructure, Google Cloud
Essayer GCP
Les nouveaux clients peuvent explorer et évaluer Google Cloud avec des conditions exceptionnelles.
EssayerChez Google, nous sommes convaincus que tout le monde devrait et pourra bientôt concrétiser ses idées autour de l’intelligence artificielle. Et les logiciels open source (Open Source Software - OSS) jouent un rôle essentiel à la concrétisation de cet objectif, rythmant les innovations dans les écosystèmes IA et ML de manière significative.
Au cours des deux dernières décennies, le ML a transformé les services Google, notamment Search, YouTube, Assistant et Maps. Toutes ces transformations ont été opérées selon notre approche "open first" (d’abord ouverte), à travers nos investissements dans des projets et écosystèmes tels que TensorFlow, Jax ou encore PyTorch.
Ces efforts en faveur de solutions open source sont importants car trop de technologies IA reposent sur des approches fermées ou exclusives. Or ces démarches cloisonnées créent des barrières à l'entrée pour les développeurs. Elles freinent l'innovation et limitent les efforts visant à rendre l'IA explicable, éthique et équitable. Nous sommes fermement convaincus qu’aucune entreprise ne devrait « posséder » l'innovation en matière d'IA/ML. C’est la raison de notre engagement en faveur d'écosystèmes ouverts. Dans cet article, nous vous proposons de passer en revue certaines contributions OSS majeures réalisées par Google en matière d'IA et de ML au cours des dernières années. Au passage, nous vous proposons également de découvrir comment notre engagement envers les technologies ouvertes peut aider les entreprises à innover plus rapidement et avec plus de souplesse.
L’ouverture s’applique à tout un écosystème et pas uniquement à un projet donné
La démarche OSS de Google pour lancer ou enrichir des initiatives IA est articulée autour de trois grands principes :
L’accès – Les logiciels open source permettent aux développeurs, aux chercheurs et aux organisations de toutes tailles de tirer parti des dernières technologies ML. Il s'agit d'un élément clé pour démocratiser l'innovation dans le domaine du Machine Learning et favoriser la diversité en laissant les clients choisir leurs logiciels mais aussi pour réduire les coûts d'exploitation tout en accélérant la mise à l'échelle pour tous.
La transparence – Quand ils sont open source, les jeux de données, les algorithmes ML, les modèles d'entraînement, les frameworks et les compilateurs bénéficient de la vigilance et de la validation d’une plus large communauté. Dans le domaine du ML, c’est fondamental car cette vigilance et cette validation étendues renforcent la reproductibilité, l'interprétabilité, l'équité et la sécurité.
L’innovation – Avec plus d'accès et de transparence, l'innovation vient naturellement. Nos clients et partenaires profitent des outils et framework ML open source pour innover davantage en contribuant à l’écosystème avec leurs propres OSS.
L'engagement continu de Google en faveur de l'IA open source
Voilà plus de deux décennies que Google s’est engagé sur la voie des standards ouverts. En témoignent ses contributions OSS à TensorFlow, JAX, TFX, MLIR, KubeFlow ou encore Kubernetes sans oublier le soutien d'initiatives OSS essentielles dans le domaine de la datascience telles que les projets Jupyter et NumFOCUS. Ces différentes initiatives ont permis à Google de devenir le premier contributeur de la Cloud Native Computing Foundation (CNCF). À travers ces différentes contributions, Google Cloud cherche aussi à devenir la meilleure plateforme pour la communauté et l'écosystème IA open source.
Une technologie propriétaire peut se glisser à de nombreux endroits différents dans les pipelines ML. C'est pourquoi la stratégie OSS de Google prend en compte l'ensemble du cycle de vie, de l'idée initiale à la mise en production, de l'acquisition des données à la formation des modèles, en passant par la gestion de l'infrastructure et la simplification ainsi que le perfectionnement des modèles :
Acquisition de données, point de départ de tout projet ML
Tout projet ML commence par l’acquisition de données. Les collections d’ensembles de données de TensorFlow (TensorFlow Datasets) aident les utilisateurs à acquérir des jeux de données prêts à l'emploi, personnalisables et hautement optimisés (y compris des images, du son et du texte). Elles fournissent également des API qui facilitent l'organisation de vos propres jeux de données, qu'ils soient construits avec TensorFlow, Jax ou d'autres frameworks ML.
Développement et entraînement des modèles : de la data au ML utile
Les bibliothèques OSS aident les développeurs et les chercheurs à concevoir, mettre en œuvre, former, tester et déboguer les algorithmes ML. Nos contributions dans ce domaine comprennent :
Le cœur du framework TensorFlow. Il propose des APIs pour aider les data-scientists et les développeurs à construire et à entraîner des modèles ML de qualité sur une infrastructure distribuée et accélérée par des GPU ou des TPU ;
L’adhésion de Google à la Fondation PyTorch pour créer un écosystème de projets open source avec PyTorch. Google peut ainsi favoriser une plus grande adoption du ML ;
Keras, framework ML simple et puissant bien intégré à TensorFLow, permet aux développeurs de construire et d'entraîner rapidement des modèles ML, ou d'exploiter des applications IA préentraînées ;
Model Garden, fournit des implémentations de nombreux modèles de vision par ordinateur et de traitement du langage naturel à la pointe de la technologie ainsi que des API pour accélérer l'entraînement et les expérimentations. Ils sont maintenus par Google et accessibles à tous ;
Jax est un framework allégé, intuitif et modulaire conçu pour accélérer la recherche en IA et passer en production plus rapidement. Il combine un ensemble de fonctions de transformation dont la différenciation automatique (Autograd) avec un compilateur XLA (Accelerated Linear Algebra);
TensorFlow Hub, un référentiel de modèles ML préentraînés, prêts à être optimisés et déployés;
MediaPipe, une solution open source multiplateforme, qui permet d’intégrer et exploiter des solutions ML personnalisées au cœur de la diffusion de médias (textes, vidéos, etc.) en direct et en continu.
Gestion de l'infrastructure ML : mise à l'échelle de modèles utiles avec des backends puissants
Disposer de l'infrastructure adaptée au ML et la gérer, surtout quand le modèle doit être déployé à l'échelle, peut être un frein pour de nombreuses organisations. C'est pourquoi Google a investi dans des initiatives telles que :
La plateforme TFX (ou TensorFlow Extended) qui propose des frameworks logiciels et des outils pour des déploiements MLOps (machine learning operations) complets. Ses fonctions d’automatisation des données, de suivi des modèles, de surveillance des performances et de recyclage des modèles facilitent le travail des développeurs.
Kubeflow rend les déploiements de workflows ML sur Kubernetes plus simples, portables et évolutifs ;
TRC (TPU Research Cloud) donne accès gratuitement à un cluster de plus de 1 000 machines TPU dans le Cloud à des chercheurs sélectionnés qui publient des articles évalués par des pairs et/ou du code source ouvert.
Expérimentation et optimisation des modèles : encourager la découverte et l'itération
Sans de solides processus d'expérimentation et d'optimisation, les données, les outils pour entraîner les modèles et l'infrastructure ne peuvent pas faire grand-chose. C'est pourquoi nous avons contribué à des projets tels que xManager, qui permet d'exécuter et de suivre des expérimentations ML non seulement localement mais aussi sur Vertex AI et Tensorboard. xManager, simplifie le suivi et la visualisation des mesures de performance des modèles.
Ces différentes contributions aident non seulement nos clients mais également la communauté open source IA dans son ensemble. Nous attendons avec impatience l’occasion de partager d'autres annonces OSS dans les jours et les mois à venir.
Pour découvrir les raisons pour lesquelles de nombreuses entreprises choisissent Google Cloud pour leurs besoins en matière d'IA open source, consultez notre page "open cloud" et découvrez nos nombreuses sessions en replay de Google Cloud Next '22 pour découvrir nos dernières annonces et nos technologies IA et ML en open source.