Was sind Foundation Models?

Foundation Models, auch bekannt als Basismodelle, sind leistungsstarke KI-Modelle , die mit riesigen Datenmengen trainiert werden und sich an eine Vielzahl von Aufgaben anpassen lassen. Der Begriff „Foundation Model“ wurde 2021 vom Stanford Institute for Human-Centered Artificial Intelligence (HAI) geprägt.

Diese Technologie bietet branchenübergreifend neue Möglichkeiten, von der Optimierung der Softwareentwicklung bis hin zur Verbesserung von Interaktionen im Kundenservice.

Einführung in Foundation Models in Google Cloud

Definition von Foundation Models

Foundation Models sind eine Art von KI-Modellen, die mit einer großen Datenmenge vortrainiert werden, um eine Reihe von Aufgaben zu erledigen. Durch diesen Trainingsprozess, der oft selbstüberwachtes Lernen nutzt, können sie komplexe Muster und Beziehungen in den Daten erkennen und verschiedene Aufgaben mit höherer Genauigkeit ausführen. Noch wichtiger ist, dass diese enorme Größe zu neuen Fähigkeiten führen kann, bei denen das Modell Aufgaben erledigen kann, für die es nicht explizit trainiert wurde. Dieser Wandel von spezialisierten Tools zu anpassungsfähigen Allzweckmodellen ist das Kennzeichen des Foundation Model-Paradigmas. 

Was ist der Unterschied zwischen einem Foundation Model und einem LLM?

Die Begriffe „Foundation Model“ und Large Language Model (LLM) werden oft synonym verwendet, es gibt aber einen wichtigen Unterschied. LLMs sind eine wichtige Art von Foundation Models, aber nicht die einzige. Man kann sich das wie eine Eltern-Kind-Beziehung vorstellen: Alle LLMs sind Foundation Models, aber nicht alle Foundation Models sind LLMs.

Der Hauptunterschied liegt in der Art der Daten, auf denen sie basieren. LLMs werden, wie der Name schon sagt, speziell mit riesigen Mengen an Text und Code trainiert. Die umfassendere Kategorie der Foundation Models umfasst auch Modelle, die mit anderen Datentypen wie Bildern, Audio und Video oder einer Kombination davon (multimodal) trainiert wurden.

Was ist der Unterschied zwischen generativer KI und Foundation Models?

Generative KI und Foundation Models sind zwar unterschiedlich, aber eng miteinander verbunden. Der Unterschied lässt sich am besten mit einem Vergleich zwischen „Motor“ und „Funktion“ veranschaulichen:

  • Ein Foundation Model ist die leistungsstarke, vortrainierte Engine. Es ist die zugrunde liegende Technologie, die auf riesigen Datenmengen basiert und für die Anpassung konzipiert wurde.
  • Die generative KI ist eine der Hauptfunktionen dieser Engine. Sie kann neue Inhalte wie Text, Bilder oder Code erstellen.

Die meisten gängigen Foundation Models werden für generative Aufgaben verwendet, aber sie können auch für nicht-generative Zwecke wie komplexe Klassifizierung oder Analyse angepasst werden. Nicht alle Foundation Models sind also von Natur aus generativ, aber sie sind die Schlüsseltechnologie, die die aktuelle Welle von Anwendungen generativer KI antreibt.

Welche Arten von Foundation Models gibt es?

Foundation Models umfassen verschiedene Architekturen, die jeweils einzigartige Stärken und Anwendungsbereiche haben. Hier sind einige wichtige Typen:

  • Large Language Models (LLMs): Diese Modelle sind auf das Verstehen und Generieren menschlicher Sprache spezialisiert und eignen sich hervorragend für Aufgaben wie Übersetzungen, Textzusammenfassungen und Chatbot-Interaktionen.
  • Multimodale Modelle: Diese Modelle werden mit verschiedenen Datentypen trainiert, darunter Text, Bilder und Audio. Sie können Inhalte aus mehreren Modalitäten analysieren und generieren.
  • Generative Adversarial Networks (GANs): GANs sind eine Art Foundation Model, bei dem zwei neuronale Netzwerke in einem Nullsummenspiel gegeneinander antreten. Ein Netzwerk, der Generator, erstellt neue Dateninstanzen, während das andere, der Diskriminator, deren Authentizität bewertet. Dieser Prozess der Auseinandersetzung führt zur Generierung von immer realistischeren und komplexeren Inhalten.
  • Computer Vision-Modelle: Diese Modelle werden mit Bild-Datasets trainiert, um Aufgaben wie Bildklassifizierung, Objekterkennung und Bildgenerierung auszuführen. Sie können für bestimmte Anwendungen wie die Analyse medizinischer Bilder oder die Objekterkennung in autonomen Fahrzeugen optimiert werden.

Wie funktionieren Foundation Models?

Foundation Models werden mit riesigen Datasets und selbstüberwachtem Lernen trainiert. Dabei werden Techniken des unüberwachten Lernens für Aufgaben eingesetzt, die traditionell überwachtes Lernen erfordern (z. B. das Labeln von Daten durch Menschen). So wird das Modell trainiert, maskierte oder fehlende Teile der Eingabedaten vorherzusagen. Während das Modell Vorhersagen trifft, lernt es, Muster, Beziehungen und zugrunde liegende Strukturen in den Daten zu erkennen.

Das Training eines Foundation Models ähnelt dem Training eines Machine Learning-Modells und umfasst in der Regel mehrere wichtige Schritte:

Datenerhebung und ‑vorbereitung

  • Es wird ein großes und vielfältiges Dataset zusammengestellt, das repräsentativ für die reale Verteilung der Daten ist, auf die das Modell bei der Bereitstellung trifft.
  • Die Daten werden vorverarbeitet, um Rauschen, Ausreißer und Inkonsistenzen zu entfernen. Dazu können Techniken wie Datenbereinigung, Normalisierung und Feature Engineering eingesetzt werden.

Auswahl der Modellarchitektur

  • Eine geeignete Modellarchitektur wird anhand verschiedener Faktoren ausgewählt, darunter die Komplexität der Aufgabe, der Typ und das Volumen der Daten sowie die verfügbaren Rechenressourcen.
  • Gängige Modellarchitekturen für selbstüberwachtes Lernen sind Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs) und Transformer.

Selbstüberwachtes Training

  • Das Modell wird mit selbstüberwachten Lerntechniken trainiert, bei denen Pseudo-Labels für die Daten erstellt und das Modell darauf trainiert wird, diese Labels vorherzusagen.
  • Dies kann mit verschiedenen Methoden erreicht werden, z. B. durch kontrastives Lernen, Masked Language Modeling und Puzzles.
  • Durch selbstüberwachtes Training kann das Modell nützliche Darstellungen der Daten lernen, ohne auf manuell annotierte Labels angewiesen zu sein, deren Beschaffung kostspielig und zeitaufwendig sein kann.

Abstimmung

  • Nachdem das Modell mit selbstüberwachtem Lernen vortrainiert wurde, kann es mit einer spezifischeren und aufgabenbezogenen Datensammlung abgestimmt werden.
  • Dabei werden die Parameter des Modells so angepasst, dass die Leistung bei der Zielaufgabe optimiert wird.
  • Durch das Feinabstimmen kann das Modell an die spezifischen Anforderungen der Aufgabe angepasst und seine Gesamtleistung verbessert werden.

Ausrichtung und Sicherheitstraining

  • Nach dem Vortraining und der Feinabstimmung durchlaufen die meisten hochmodernen Modelle eine Ausrichtungsphase, um sicherzustellen, dass ihre Ausgaben hilfreich und harmlos sind und mit der menschlichen Absicht übereinstimmen.
  • Bei diesem wichtigen Schritt werden häufig Techniken wie Reinforcement Learning from Human Feedback (RLHF) und Direct Preference Optimization (DPO) eingesetzt. Dabei bewerten menschliche Prüfer die Antworten des Modells, um es zu einem wünschenswerteren Verhalten zu führen.

Evaluierung und Bereitstellung

  • Nachdem das Modell trainiert und optimiert wurde, wird es anhand eines zurückgehaltenen Test-Datensatzes bewertet, um seine Leistung zu ermitteln.
  • Wenn das Modell die gewünschten Leistungskriterien erfüllt, kann es in die Produktion überführt werden, wo es zur Lösung realer Probleme eingesetzt werden kann.

Vorteile der Verwendung von Foundation Models

Foundation Models bieten Unternehmen und Entwicklern mehrere potenzielle Vorteile:

Vielseitig

Foundation Models lassen sich an eine Vielzahl von Aufgaben anpassen, sodass keine separaten Modelle für jede spezifische Anwendung trainiert werden müssen. Diese Anpassungsfähigkeit macht sie in verschiedenen Branchen und Anwendungsfällen wertvoll.

Effizienz

Mit vortrainierten Foundation Models lassen sich Zeit und Ressourcen für die Entwicklung neuer KI-Anwendungen erheblich reduzieren. Die Feinabstimmung eines vortrainierten Modells ist oft schneller und effizienter als das Training eines Modells von Grund auf.

Genauigkeit

Da Foundation Models mit riesigen Datasets trainiert werden, können sie bei verschiedenen Aufgaben eine hohe Genauigkeit erzielen und Modelle übertreffen, die mit kleineren Datasets trainiert wurden.

Kosteneffektivität

Da Foundation Models weniger umfangreiche Trainingsdaten und Rechenressourcen benötigen, können sie eine kosteneffiziente Lösung für die Entwicklung von KI-Anwendungen darstellen.

Innovation

Foundation Models tragen zur Innovation im Bereich von KI bei und ermöglichen die Entwicklung neuer und komplexerer KI-Anwendungen.

Skalierbarkeit

Foundation Models lassen sich skalieren, um große Datensätze und komplexe Aufgaben zu verarbeiten, wodurch sie sich für anspruchsvolle Anwendungen eignen.

Welche Herausforderungen und Risiken sind mit Foundation Models verbunden?

Trotz ihrer Vorteile stellen Foundation Models Nutzer und Entwickler vor erhebliche Herausforderungen:

  • Bias und Fairness: Foundation Models können gesellschaftliche Biases aus ihren umfangreichen Trainingsdaten übernehmen und verstärken, was zu unfairen oder voreingenommenen Ausgaben führt.
  • Halluzinationen: Modelle können Informationen generieren, die zwar plausibel klingen, aber faktisch falsch oder sinnlos sind. Dieses Phänomen wird als Halluzination bezeichnet.
  • Hohe Rechenkosten: Das Training dieser Modelle erfordert enorme Rechenleistung und Energie, was ökologische und finanzielle Bedenken aufwirft.

Beispiele für Foundation Models

Das Ökosystem der Foundation Models ist dynamisch und wettbewerbsorientiert. Hier sind einige der einflussreichsten Beispiele von wichtigen Branchenakteuren:

  • Google: Bekannt für die Gemini-Familie, eine Reihe leistungsstarker multimodaler Modelle (Gemini 2.5 Pro ist ein führendes Beispiel), und Gemma, eine Produktfamilie offener, kompakter Modelle für Entwickler; Google hat auch spezialisierte Modelle wie Imagen für die Text-zu-Bild-Generierung und Veo für die Videogenerierung entwickelt.
  • OpenAI: Entwickler der einflussreichen GPT-Serie (Generative Pre-trained Transformer), einschließlich des weit verbreiteten GPT-4
  • Anthropic: Konzentriert sich auf KI-Sicherheit und hat die Claude-Modellfamilie entwickelt. Die Claude 3-Serie (einschließlich Opus, Sonnet und Haiku) ist bekannt für ihre großen Kontextfenster und starken Schlussfolgerungsfähigkeiten.
  • Meta: Meta ist ein wichtiger Befürworter von Open-Source-KI und hat die Llama-Serie entwickelt. Llama 3 ist ein offenes Modell, das die Innovation in der gesamten Community beschleunigt hat.
  • Mistral AI: Ein europäisches Unternehmen, das mit leistungsstarken offenen und kommerziellen Modellen wie Mistral Large und den Open-Source-Modellen Mixtral, die eine MoE-Architektur (Mixture of Experts) für mehr Effizienz nutzen, große Erfolge erzielt hat

Wie nutzt Google Cloud Foundation Models?

Google Cloud bietet mit Vertex AI eine End-to-End-Plattform für Unternehmen, die es Organisationen ermöglicht, Foundation Models für Anwendungen in der Praxis zu nutzen, anzupassen und bereitzustellen. Die Strategie basiert auf Auswahlmöglichkeiten, leistungsstarken Tools und einer integrierten Infrastruktur.

So nutzt Google Cloud Foundation Models:

  • Vielfältiges und offenes Modell-Ökosystem: Über den Vertex AI Model Garden bietet Google Cloud Zugriff auf eine umfassende Bibliothek mit über 130 Foundation Models. Dazu gehören die hochmodernen Modelle von Google wie die Gemini-Familie (für multimodale Aufgaben) und Gemma (für offene, schlanke Entwicklung) sowie beliebte Drittanbieter- und Open-Source-Modelle von Partnern wie Anthropic (Claude), Meta (Llama) und Mistral. So können Entwickler das Modell auswählen, das ihren spezifischen Kosten- und Leistungsanforderungen am besten entspricht.
  • Tools für Anpassung und Fundierung: Vertex AI bietet eine umfassende Suite von Tools, die über einfache Prompts hinausgehen. Mit Generative AI Studio können Teams Modelle testen und abstimmen. Ein wichtiges Feature ist die Möglichkeit, Modelle auf den eigenen Unternehmensdaten zu basieren. Dadurch werden die Schlussfolgerungsfähigkeiten des Modells mit den spezifischen Datenquellen eines Unternehmens verknüpft, was Halluzinationen deutlich reduziert und die Antworten faktisch konsistent und relevant macht.
  • KI-Agenten und ‑Anwendungen entwickeln: Google Cloud unterstützt Entwickler bei der Erstellung komplexer KI-Anwendungen, nicht nur von Chatbots. Mit Vertex AI Agent Builder können Unternehmen auf konversationeller KI basierende Agenten für den Kundenservice, interne Helpdesks und andere Geschäftsprozesse erstellen und bereitstellen.
  • Generative KI in Workflows einbetten: Foundation Models werden direkt in die Google Cloud-Dienste integriert, die Unternehmen bereits nutzen. Gemini Code Assist ist beispielsweise ein KI-basierter Assistent für Entwickler, mit dem sie Code schneller schreiben, erklären und testen können. Und die Funktionen in BigQuery ermöglichen eine KI-gestützte Datenanalyse direkt im Data Warehouse.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.

Google Cloud