Dieses Dokument im Architektur-Framework: KI- und ML-Perspektive bietet einen Überblick über die Prinzipien und Empfehlungen, die Ihnen beim Erstellen und Betreiben robuster KI- und ML-Systeme in Google Cloud helfen. Diese Empfehlungen helfen Ihnen, grundlegende Elemente wie Beobachtbarkeit, Automatisierung und Skalierbarkeit einzurichten. Die Empfehlungen in diesem Dokument stimmen mit der Säule „Operative Exzellenz“ des Architektur-Frameworks überein.
Betriebsoptimierung im Bereich KI und ML bedeutet, die komplexen KI- und ML-Systeme und ‑Pipelines, die die strategischen Ziele Ihres Unternehmens unterstützen, nahtlos bereitzustellen, zu verwalten und zu steuern. Mit operativer Exzellenz können Sie effizient auf Veränderungen reagieren, die betriebliche Komplexität reduzieren und dafür sorgen, dass die Abläufe den Geschäftszielen entsprechen.
Eine solide Grundlage für die Modellentwicklung schaffen
Schaffen Sie eine solide Grundlage, um die Modellentwicklung von der Problemdefinition bis zur Bereitstellung zu optimieren. So stellen Sie sicher, dass Ihre KI-Lösungen auf zuverlässigen und effizienten Komponenten und Optionen basieren. Diese Art von Grundlage hilft Ihnen, Änderungen und Verbesserungen schnell und einfach bereitzustellen.
Beachten Sie die folgenden Empfehlungen:
- Definieren Sie das Problem, das das KI-System lösen soll, und das gewünschte Ergebnis.
- Relevante Daten identifizieren und erfassen, die zum Trainieren und Bewerten Ihrer Modelle erforderlich sind. Bereinigen und verarbeiten Sie dann die Rohdaten. Implementieren Sie Datenvalidierungs-Checks, um die Datenqualität und -integrität zu gewährleisten.
- Wählen Sie den für die Aufgabe geeigneten ML-Ansatz aus. Berücksichtigen Sie beim Entwerfen der Struktur und Parameter des Modells die Komplexität und die Berechnungsanforderungen des Modells.
- Verwenden Sie ein Versionskontrollsystem für Code, Modell und Daten.
Lebenszyklus der Modellentwicklung automatisieren
Von der Datenvorbereitung und dem Training bis hin zur Bereitstellung und Überwachung: Mit Automatisierung können Sie die Qualität und Effizienz Ihrer Abläufe verbessern. Durch Automatisierung wird eine nahtlose, wiederholbare und fehlerfreie Modellentwicklung und -bereitstellung ermöglicht. Durch Automatisierung wird manuelles Eingreifen minimiert, Release-Zyklen beschleunigt und für Konsistenz in allen Umgebungen gesorgt.
Beachten Sie die folgenden Empfehlungen:
- Verwenden Sie ein verwaltetes Pipeline-Orchestrierungssystem, um den ML-Workflow zu orchestrieren und zu automatisieren. Die Pipeline muss die wichtigsten Schritte des Entwicklungszyklus abdecken: Vorbereitung, Training, Bereitstellung und Bewertung.
- CI/CD-Pipelines für den Lebenszyklus der Modellentwicklung implementieren. Diese Pipelines sollten das Erstellen, Testen und Bereitstellen von Modellen automatisieren. Die Pipelines sollten auch ein kontinuierliches Training umfassen, um die Modelle bei Bedarf mit neuen Daten neu zu trainieren.
- Implementieren Sie schrittweise Release-Ansätze wie Canary-Bereitstellungen oder A/B-Tests, um Modelle sicher und kontrolliert einzuführen.
Beobachtbarkeit implementieren
Wenn Sie die Beobachtbarkeit implementieren, erhalten Sie detaillierte Informationen zur Modellleistung, zu Datenabweichungen und zum Systemstatus. Implementieren Sie kontinuierliche Überwachungs-, Benachrichtigungs- und Logging-Mechanismen, um Probleme proaktiv zu erkennen, rechtzeitige Reaktionen auszulösen und die Betriebskontinuität zu gewährleisten.
Beachten Sie die folgenden Empfehlungen:
- Implementieren Sie ein dauerhaftes und automatisiertes Leistungsmonitoring für Ihre Modelle. Verwenden Sie Messwerte und Erfolgskriterien für die kontinuierliche Bewertung des Modells nach der Bereitstellung.
- Überwachen Sie Ihre Bereitstellungsendpunkte und ‑infrastruktur, um die Dienstverfügbarkeit zu gewährleisten.
- Richten Sie benutzerdefinierte Benachrichtigungen basierend auf unternehmensspezifischen Grenzwerten und Anomalien ein, damit Probleme rechtzeitig erkannt und behoben werden.
- Verwenden Sie Explainable-AI-Techniken, um Modellergebnisse zu verstehen und zu interpretieren.
Eine Kultur der operativen Exzellenz schaffen
Betriebswirtschaftliche Spitzenleistung basiert auf Menschen, Kultur und professionellen Praktiken. Der Erfolg Ihres Teams und Ihres Unternehmens hängt davon ab, wie effektiv Ihr Unternehmen Methoden implementiert, die eine zuverlässige und schnelle Entwicklung von KI-Funktionen ermöglichen.
Beachten Sie die folgenden Empfehlungen:
- Automatisierung und Standardisierung als zentrale Entwicklungsmethoden fördern. Mit MLOps-Techniken können Sie Ihre Workflows optimieren und den ML-Lebenszyklus effizient verwalten. Aufgaben automatisieren, um Zeit für Innovationen zu schaffen, und Prozesse standardisieren, um für Konsistenz und eine einfachere Fehlerbehebung zu sorgen.
- Kontinuierliches Lernen und Verbesserung priorisieren Bieten Sie Lernmöglichkeiten an, mit denen Teammitglieder ihre Fähigkeiten verbessern und auf dem neuesten Stand der Entwicklungen in den Bereichen KI und ML bleiben können. Ermutigen Sie zu Experimenten und führen Sie regelmäßig Retrospektiven durch, um Verbesserungsmöglichkeiten zu identifizieren.
- Eine Kultur der Rechenschaftspflicht und Eigenverantwortung fördern. Definieren Sie klare Rollen, damit alle ihren Beitrag verstehen. Teams in die Lage versetzen, Entscheidungen innerhalb von Grenzen zu treffen und den Fortschritt anhand transparenter Messwerte zu verfolgen
- Integrieren Sie Ethik und Sicherheit bei der KI in die Unternehmenskultur. Setzen Sie verantwortungsbewusste Systeme auf die Prioritätsliste, indem Sie ethische Aspekte in jede Phase des ML-Lebenszyklus einbinden. Legen Sie klare ethische Grundsätze fest und fördern Sie offene Diskussionen über ethische Herausforderungen.
Skalierbarkeit im Blick behalten
Entwerfen Sie Ihre KI-Lösungen so, dass sie mit steigenden Datenmengen und Nutzeranforderungen umgehen können. Verwenden Sie eine skalierbare Infrastruktur, damit sich Ihre Modelle an die wachsenden Anforderungen Ihres Projekts anpassen und optimal funktionieren können.
Beachten Sie die folgenden Empfehlungen:
- Kapazität und Kontingente planen Berücksichtigen Sie zukünftiges Wachstum und planen Sie Ihre Infrastrukturkapazität und Ressourcenkontingente entsprechend.
- Auf Spitzenereignisse vorbereiten Achten Sie darauf, dass Ihr System plötzliche Trafficspitzen oder Arbeitslasten bei Spitzenereignissen bewältigen kann.
- KI-Anwendungen für die Produktion skalieren Die Lösung sollte für die horizontale Skalierung ausgelegt sein, um Arbeitslasterhöhungen zu berücksichtigen. Verwenden Sie Frameworks wie Ray in Vertex AI, um Aufgaben parallel auf mehreren Maschinen auszuführen.
- Verwenden Sie nach Bedarf verwaltete Dienste. Verwenden Sie Dienste, mit denen Sie skalieren und gleichzeitig den operativen Aufwand und die Komplexität manueller Eingriffe minimieren können.
Beitragende
Autoren:
- Sannya Dang | KI-Lösungsarchitektin
- Filipe Gracio, PhD | Customer Engineer
Weitere Beitragende:
- Kumar Dhanagopal | Cross-Product Solution Developer
- Marwan Al Shawi | Partner Customer Engineer
- Ryan Cox | Principal Architect
- Stef Ruinard | Solutions Architect für generative KI