Best Practices mit Large Language Models (LLMs)

Multimodale Prompts

Informationen zu Best Practices für multimodale Prompts finden Sie auf den folgenden Seiten je nach Modalität, mit der Sie arbeiten:

Latenz reduzieren

Wenn Sie interaktive Anwendungen erstellen, spielt die Antwortzeit, auch als Latenz bezeichnet, für die Nutzerfreundlichkeit eine entscheidende Rolle. In diesem Abschnitt wird das Konzept der Latenz im Kontext von Vertex AI LLM APIs erläutert. Außerdem werden umsetzbare Strategien zur Minimierung der Latenz und zur Verbesserung der Antwortzeit Ihrer KI-gestützten Anwendungen bereitgestellt.

Informationen zu Latenzmesswerten für LLMs

Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um den Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren.

Berücksichtigen Sie bei der Untersuchung der Latenz mit einem Modell Folgendes:

Zeit bis zum ersten Token (TTFT) ist die Zeit, die das Modell benötigt, um das erste Token der Antwort nach Erhalt des Prompts zu erzeugen. TTFT ist insbesondere für Anwendungen relevant, die Streaming nutzen, bei denen sofortiges Feedback entscheidend ist.

Zeit bis zum letzten Token (TTLT) misst die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

Strategien zum Reduzieren der Latenz

Sie können mit Vertex AI mehrere Strategien verwenden, um die Latenz zu minimieren und die Reaktionsfähigkeit Ihrer Anwendungen zu verbessern:

Das richtige Modell für Ihren Anwendungsfall auswählen

Vertex AI bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das für Ihre speziellen Anforderungen am besten geeignet ist.

  • Gemini 1.5 Flash: Ein multimodales Modell, das für kostengünstige Anwendungen mit hohe Volumen entwickelt. Gemini 1.5 Flash bietet Geschwindigkeit und Effizienz zum Erstellen schneller, kostengünstiger Anwendungen, die keine Kompromisse bei der Qualität eingehen. Er unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen Elementen.

  • Gemini 1.5 Pro: Ein leistungsfähigeres multimodales Modell das größeren Kontext unterstützt. Er unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen Elementen.

  • Gemini 1.0 Pro: Wenn Geschwindigkeit hohe Priorität hat und Ihre Prompts nur Text enthalten, sollten Sie dieses Modell verwenden. Dieses Modell bietet schnelle Antwortzeiten und liefert gleichzeitig beeindruckende Ergebnisse.

Prüfen Sie Ihre Anforderungen an Geschwindigkeit und Ausgabequalität sorgfältig, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie unter Alle Modelle ansehen.

Prompt- und Ausgabelänge optimieren

Die Anzahl der Tokens in Ihrer Eingabeaufforderung und der erwarteten Ausgabe wirkt sich direkt auf die Verarbeitungszeit aus. Minimieren Sie die Tokenanzahl, um die Latenz zu verringern.

  • Verfassen Sie klare und prägnante Aufforderungen, die Ihre Absicht effektiv ohne unnötige Details oder Redundanz vermitteln. Bei kürzeren Aufforderungen benötigen Sie weniger Zeit für das erste Token.

  • Verwenden Sie die Systemanleitung, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie können Sie die Zeit bis zum letzten Token verkürzen.

  • Passen Sie temperature an. Experimentieren Sie mit dem Parameter temperature, um die Zufälligkeit der Ausgabe zu steuern. Niedrigere Werte für temperature können zu kürzeren, zielgerichteteren Antworten führen, während höhere Werte zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können. Weitere Informationen finden Sie unter temperature in der Referenz zu Modellparametern.

  • Ausgabe durch Festlegen eines Limits einschränken Mit dem Parameter max_output_tokens können Sie eine maximale Länge der generierten Antwortlänge festlegen und so eine zu lange Ausgabe vermeiden. Seien Sie jedoch vorsichtig, da dadurch die Antworten während des Satzes abgeschnitten werden.

Streamantworten

Beim Streaming beginnt das Modell, seine Antwort zu senden, bevor die vollständige Ausgabe generiert wird. Dadurch wird die Ausgabe in Echtzeit verarbeitet und Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen.

Das Streaming verbessert die wahrgenommene Reaktionsfähigkeit und sorgt für eine interaktivere Nutzererfahrung.

Nächste Schritte