Best Practices mit Large Language Models (LLMs)

Multimodale Prompts

Informationen zu Best Practices für multimodale Prompts finden Sie auf den folgenden Seiten, die der von Ihnen verwendeten Modalität entsprechen:

Latenz reduzieren

Bei der Entwicklung interaktiver Anwendungen spielt die Reaktionszeit, auch als Latenz bezeichnet, eine entscheidende Rolle für die Nutzerfreundlichkeit. In diesem Abschnitt wird das Konzept der Latenz im Kontext von Vertex AI LLM APIs erläutert. Außerdem werden umsetzbare Strategien zur Minimierung der Latenz und zur Verbesserung der Antwortzeit Ihrer KI-gestützten Anwendungen bereitgestellt.

Latenzmesswerte für LLMs

Die Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabeprompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren.

Beachten Sie beim Prüfen der Latenz mit einem Modell Folgendes:

Die Zeit bis zum ersten Token (TTFT) ist die Zeit, die vergeht, bis das Modell nach Erhalt des Prompts das erste Token der Antwort generiert. Die TTFT ist besonders relevant für Anwendungen, bei denen Streaming verwendet wird und bei denen sofortiges Feedback erforderlich ist.

Mit Time to last token (TTLT) wird die Gesamtzeit gemessen, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

Strategien zur Verringerung der Latenz

Mit Vertex AI können Sie verschiedene Strategien nutzen, um die Latenz zu minimieren und die Reaktionsfähigkeit Ihrer Anwendungen zu verbessern:

Das richtige Modell für Ihren Anwendungsfall auswählen

Vertex AI bietet eine breite Palette von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Wählen Sie das Modell aus, das Ihren spezifischen Anforderungen am besten entspricht.

  • Gemini 1.5 Flash: Ein multimodales Modell, das für kostengünstige Anwendungen mit hohe Volumen entwickelt. Gemini 1.5 Flash bietet Geschwindigkeit und Effizienz zum Erstellen schneller, kostengünstiger Anwendungen, die keine Kompromisse bei der Qualität eingehen. Es unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen.

  • Gemini 1.5 Pro: Ein leistungsfähigeres multimodales Modell das größeren Kontext unterstützt. Es unterstützt die folgenden Modalitäten: Text, Code, Bilder, Audio, Video mit und ohne Audio, PDFs oder eine Kombination aus diesen.

  • Gemini 1.0 Pro: Wenn Geschwindigkeit an erster Stelle steht und Ihre Prompts nur Text enthalten, sollten Sie dieses Modell verwenden. Dieses Modell bietet schnelle Reaktionszeiten und liefert dennoch beeindruckende Ergebnisse.

Bewerten Sie Ihre Anforderungen an Geschwindigkeit und Ausgabequalität sorgfältig, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie unter Alle Modelle ansehen.

Prompt- und Ausgabelänge optimieren

Die Anzahl der Tokens sowohl im Eingabeprompt als auch in der erwarteten Ausgabe wirkt sich direkt auf die Verarbeitungszeit aus. Minimieren Sie die Anzahl der Tokens, um die Latenz zu verringern.

  • Erstellen Sie klare und prägnante Prompts, die Ihre Absicht ohne unnötige Details oder Redundanz effektiv vermitteln. Je kürzer die Prompts sind, desto kürzer ist die Zeit bis zum ersten Token.

  • Mit Systemanweisungen können Sie die Länge der Antwort steuern. Sie können das Modell anweisen, prägnante Antworten zu liefern oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Mit dieser Strategie lässt sich die Zeit bis zum letzten Token verkürzen.

  • Passen Sie temperature an. Mit dem Parameter temperature können Sie die Zufälligkeit der Ausgabe steuern. Niedrigere temperature-Werte können zu kürzeren, prägnanteren Antworten führen, während höhere Werte zu vielfältigeren, aber möglicherweise längeren Ergebnissen führen können. Weitere Informationen finden Sie unter temperature in der Referenz zu Modellparametern.

  • Begrenzen Sie die Ausgabe, indem Sie ein Limit festlegen. Mit dem Parameter max_output_tokens können Sie eine maximale Länge für die generierte Antwort festlegen, um eine zu lange Ausgabe zu vermeiden. Seien Sie jedoch vorsichtig, da Antworten so möglicherweise mitten im Satz abgeschnitten werden.

Streamantworten

Beim Streaming beginnt das Modell mit dem Senden der Antwort, bevor es die vollständige Ausgabe generiert. So ist eine Echtzeitverarbeitung der Ausgabe möglich und Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere Aufgaben gleichzeitig ausführen.

Streaming verbessert die wahrgenommene Reaktionsfähigkeit und sorgt für eine interaktivere Nutzererfahrung.

Nächste Schritte