Diese Seite wurde von der Cloud Translation API übersetzt.

Multimodale Prompts entwerfen

Mit der Gemini API in Vertex AI können Sie multimodale Eingaben wie Text, Bilder und Videos als Teil Ihres Prompts an Gemini-Modelle senden. Auf dieser Seite finden Sie Best Practices für das Erstellen multimodaler Prompts und Informationen zur Fehlerbehebung, wenn Ihre Prompts nicht wie erwartet funktionieren. Allgemeine Anleitungen zum Design von Prompts finden Sie unter Empfohlene Strategien für das Prompt-Design. Die folgende Liste enthält multimodale Best Practices.

Grundlagen des Prompt-Designs

Spezifische Anweisungen verwenden

Klare und detaillierte Prompts führen zu den besten Ergebnissen. Wenn Sie eine bestimmte Ausgabe im Hinterkopf haben, sollten Sie diese Anforderung in den Prompt aufnehmen, damit Sie die gewünschte Ausgabe erhalten.

Auch wenn eine Prompt der Person, die sie geschrieben hat, klar erscheint, ist sie möglicherweise nicht ausreichend spezifiziert. Überlegen Sie beim Anpassen des Modellverhaltens, wie Ihre Aufforderung interpretiert werden könnte, und achten Sie darauf, dass die von Ihnen angegebenen Anweisungen spezifisch und klar sind.

Wenn Sie das Bild eines Flughafenboards unten in Ihren Prompt aufgenommen haben und das Modell nur auffordern, „Dieses Bild beschreiben“, könnte es eine allgemeine Beschreibung generieren. Wenn das Modell die Zeit und die Stadt aus dem Bild parsen soll, können Sie diese Anfrage direkt in den Prompt einfügen.

Prompt	Modellantwort
Beschreibe dieses Bild.	Auf dem Bild ist eine Anzeige für Ankunfts- und Abflugfinfos für den Flughafen zu sehen.

Aktualisierter Prompt	Verbesserte Reaktion
Parsen Sie die Uhrzeit und die Stadt vom Flughafenanzeige in dem Bild in eine Liste.	10:50 Moskau 11:05 Edinburgh 11:05 London 11:10 Bukarest 11:30 Kiew 11:35 Dublin 11:45 East Midlands 12:15 Sofia 12:30 London 12:30 Newcastle 12:40 Sankt Petersburg 12:40 London 12:45 Manchester

Beispiele hinzufügen

Das Modell kann mehrere Eingaben akzeptieren, die es als Beispiele für das Verständnis der gewünschten Ausgabe verwenden kann. Wenn Sie diese Beispiele hinzufügen, kann das Modell die Muster leichter identifizieren und die Beziehung zwischen den angegebenen Bildern und Antworten auf das neue Beispiel anwenden. Dies wird als Few-Shot-Lernen bezeichnet.

Im folgenden Beispiel ist die ursprüngliche Ausgabe ein vollständiger Satz, der auch das Land (Brasilien) enthält. Wenn die bevorzugte Ausgabe nur die Stadt und nicht das Land ist, können Sie dem Modell mit Few-Shot-Beispielen in Ihrem Prompt zeigen, dass es in diesem Format antworten soll.

Eingabeaufforderung	Modellantwort
Stadt und Sehenswürdigkeit ermitteln:	Die Sehenswürdigkeit ist die Cristo Redentor-Statue in Rio de Janeiro, Brasilien.

Aktualisierter Prompt	Verbesserte Reaktion
Stadt und Sehenswürdigkeit ermitteln:	Stadt: Rom, Sehenswürdigkeit: Kolosseum.
	Stadt: Peking, Sehenswürdigkeit: Verbotene Stadt
	Stadt: Rio de Janeiro, Sehenswürdigkeit: Cristo Redentor-Statue

Komplexe Aufgaben in kleinere Aufgaben aufteilen

Bei komplexen Aufgaben wie Aufgaben, die sowohl visuelles Verständnis als auch Logik erfordern, sollten Sie die Aufgabe in kleinere, einfachere Schritte aufteilen oder das Modell in der Prompt direkt bitten, Schritt für Schritt vorzugehen.

Prompt	Modellantwort
Wann habe ich kein Toilettenpapier mehr?	Bald sind nur noch 3 Rollen übrig.

Aktualisierter Prompt	Verbesserte Reaktion
Zählen Sie zuerst, wie viele Toilettenpapierrollen auf diesem Bild zu sehen sind. Ermitteln Sie dann, wie viel Toilettenpapier eine typische Person pro Tag verwendet. Berechnen Sie, wie lange diese Rollen von Toilettenpapier halten.	Auf diesem Bild sind drei Rollen Toilettenpapier zu sehen. Eine typische Person verwendet täglich etwa 20 Blätter Toilettenpapier. Wenn jede Rolle 200 Blatt enthält, hält jede Rolle etwa 10 Tage lang. Daher halten die 3 Rollen etwa einen Monat.

Mathematische Aufgaben oder andere Arten von Wortproblemen können auch in kleinere Aufgaben unterteilt werden.

Eingabeaufforderung	Antwort
$Ein Bild der mathematischen Folge b. b(1) = 15 und b(n) = b(n-1) * (-3).$ Was ist der vierte Begriff in der Sequenz?	-135

Die Antwort des Modells ist falsch. Sie können das Modell beispielsweise bitten, das Problem zu parsen, bevor es den Prompt beantwortet.

Eingabeaufforderung	Antwort
$Ein Bild der mathematischen Folge b. b(1) = 15 und b(n) = b(n-1) * (-3).$ Parsen Sie zuerst die Formel im Bild. Beantworte dann anhand der Formel: „Was ist der vierte Begriff in der Folge?“.	Klicken Sie, um das Ergebnis zu maximieren $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$ Setzen Sie in der Formel n = 4 ein: $$b(4) = b(4-1) * (-3)$$ $$b(4) = b(3) * (-3)$$ Wir kennen den Wert von b(3) nicht. Setzen Sie daher n = 3 in der Formel ein: $$b(3) = b(3-1) * (-3)$$ $$b(3) = b(2) * (-3)$$ Wir kennen den Wert von b(2) nicht. Setzen Sie daher n = 2 in der Formel ein: $$b(2) = b(2-1) * (-3)$$ $$b(2) = b(1) * (-3)$$ Da wir wissen, dass der Wert von b(1) 15 ist, setzen Sie ihn in der Formel ein: $$b(2) = 15 * (-3)$$ $$b(2) = -45$$ Nachdem wir den Wert von b(2) kennen, setzen Sie ihn in der Formel für b(3) ein: $$b(3) = b(2) * (-3)$$ $$b(3) = -45 * (-3)$$ $$b(3) = 135$$ Nachdem wir den Wert von b(3) kennen, setzen Sie ihn in der Formel für b(4) ein: $$b(4) = b(3) * (-3)$$ $$b(4) = 135 * (-3)$$ $$b(4) = -405$$ Daher ist der vierte Begriff in der Sequenz -405.

Eingabeaufforderung

Antwort

$Ein Bild der mathematischen Folge b. b(1) = 15 und b(n) = b(n-1) * (-3).$

Parsen Sie zuerst die Formel im Bild.

Beantworte dann anhand der Formel: „Was ist der vierte Begriff in der Folge?“.

Klicken Sie, um das Ergebnis zu maximieren

$$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$

Setzen Sie in der Formel n = 4 ein:
$$b(4) = b(4-1) * (-3)$$

$$b(4) = b(3) * (-3)$$
Wir kennen den Wert von b(3) nicht. Setzen Sie daher n = 3 in der Formel ein:
$$b(3) = b(3-1) * (-3)$$

$$b(3) = b(2) * (-3)$$
Wir kennen den Wert von b(2) nicht. Setzen Sie daher n = 2 in der Formel ein:
$$b(2) = b(2-1) * (-3)$$

$$b(2) = b(1) * (-3)$$
Da wir wissen, dass der Wert von b(1) 15 ist, setzen Sie ihn in der Formel ein:
$$b(2) = 15 * (-3)$$

$$b(2) = -45$$
Nachdem wir den Wert von b(2) kennen, setzen Sie ihn in der Formel für b(3) ein:
$$b(3) = b(2) * (-3)$$

$$b(3) = -45 * (-3)$$

$$b(3) = 135$$
Nachdem wir den Wert von b(3) kennen, setzen Sie ihn in der Formel für b(4) ein:
$$b(4) = b(3) * (-3)$$

$$b(4) = 135 * (-3)$$

$$b(4) = -405$$

Daher ist der vierte Begriff in der Sequenz -405.

Wenn Sie die Antwort noch optimieren möchten, können Sie das Modell bitten, die Eingabeaufforderung Schritt für Schritt zu durchdenken.

Aktualisierter Prompt	Verbesserte Reaktion
$Ein Bild der mathematischen Folge b. b(1) = 15 und b(n) = b(n-1) * (-3).$ Was ist der vierte Begriff in der Sequenz? Detaillierte Anleitung	Der erste Begriff ist 15. Der zweite Begriff ist b(1) * (-3) = 15 * (-3) = -45. Der dritte Begriff ist b(2) * (-3) = -45 * (-3) = 135. Der vierte Begriff ist b(3) * (-3) = 135 * (-3) = -405.

Aktualisierter Prompt

Verbesserte Reaktion

$Ein Bild der mathematischen Folge b. b(1) = 15 und b(n) = b(n-1) * (-3).$

Was ist der vierte Begriff in der Sequenz? Detaillierte Anleitung

Der erste Begriff ist 15.

Der zweite Begriff ist b(1) * (-3) = 15 * (-3) = -45.

Der dritte Begriff ist b(2) * (-3) = -45 * (-3) = 135.

Der vierte Begriff ist b(3) * (-3) = 135 * (-3) = -405.

Ausgabeformat angeben

Wenn ein bestimmtes Format erforderlich ist, können Sie das Modell anweisen, dieses Format für die Ausgabe zu verwenden.

Prompt	Modellantwort
Die Tabelle in diesem Bild in das Markdown-Format parsen	\| Subject \| Status \| Time \| Start date \| Due on \| \|-----------\|-------------\|---------\|------------\|------------\| \| Math \| Done \| 1.5 hrs \| 11/29/2023 \| 12/1/2023 \| \| Geography \| Done \| 30 min \| 12/2/2023 \| 12/4/2023 \| \| Physics \| In progress \| 2 hrs \| 12/3/2023 \| 12/5/2023 \| \| Biology \| Not started \| 6 hrs \| 11/2/2016 \| 12/6/2023 \|

Prompt

Modellantwort

Die Tabelle in diesem Bild in das Markdown-Format parsen

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |

Eingabeaufforderung Modellantwort

Eingabeaufforderung	Modellantwort
Geben Sie eine Liste aller folgenden Attribute an: Zutaten, Art der Küche, vegetarisch oder nicht, im JSON-Format	`{ "ingredients": [ "rice", "shrimp", "clams", "mussels", "peas", "tomatoes", "onions", "garlic", "olive oil", "paprika", "salt", "pepper" ], "type of cuisine": "Spanish", "vegetarian": false }`

Ein Bild von einem Gericht mit Garnelen, Muscheln und anderen Zutaten.

Geben Sie eine Liste aller folgenden Attribute an:

Zutaten, Art der Küche, vegetarisch oder nicht, im JSON-Format


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }

Fehlerbehebung bei einem multimodalen Prompt

Bei der Fehlerbehebung eines Prompts kann es darum gehen, die Sprache Ihres Prompts zu verbessern, den Fokus Ihres Prompts zu lenken oder Parameter anzupassen. Diese unterschiedlichen Ansätze können zu besseren Ergebnissen führen, insbesondere nachdem die Ursache des Problems ermittelt wurde.

Fokus auf den relevanten Teil eines Bildes legen

Um die Antwort zu verbessern, können Sie angeben, welche Teile des Bildes für den Prompt am relevantesten sind.

Prompt	Modellantwort
Wie viele Tage halten diese Windeln für ein Baby?	Die Windel halten 198 Tage, bevor sie aufgebraucht sind.

Aktualisierter Prompt	Verbesserte Reaktion
Wie lange halten diese Windeln? Verwenden Sie das auf dem Feld angezeigte Gewicht, um das Alter des Kindes zu bestimmen. Verwenden Sie dann die Gesamtzahl der Windeln im Feld. Teilen Sie die Gesamtzahl durch die Anzahl der Windeln, die das Kind pro Tag benötigt.	Die Verpackung enthält 198 Windeln. Die Verpackung besagt, dass die Windel für ein Kind mit einem Gewicht von 22-37 lbs gedacht sind. Das durchschnittliche Kind in diesem Gewichtbereich ist wahrscheinlich zwischen 1 und 2 Jahren alt. Eine Zweijährige braucht in der Regel sechs Windeln pro Tag, daher halten sie etwa 33 Tage (198/6).

Aktualisierter Prompt

Verbesserte Reaktion

Ein Bild von der Seite einer Windelpackung, auf der die Zahl 198 steht.

Wie lange halten diese Windeln?

Verwenden Sie das auf dem Feld angezeigte Gewicht, um das Alter des Kindes zu bestimmen. Verwenden Sie dann die Gesamtzahl der Windeln im Feld.

Teilen Sie die Gesamtzahl durch die Anzahl der Windeln, die das Kind pro Tag benötigt.

Die Verpackung enthält 198 Windeln. Die Verpackung besagt, dass die Windel für ein Kind mit einem Gewicht von 22-37 lbs gedacht sind.

Das durchschnittliche Kind in diesem Gewichtbereich ist wahrscheinlich zwischen 1 und 2 Jahren alt.

Eine Zweijährige braucht in der Regel sechs Windeln pro Tag, daher halten sie etwa 33 Tage (198/6).

Antwort des Modells an die Eingabe anpassen

Bitten Sie das Modell, die Bilder zu beschreiben, bevor es die Aufgabe im Prompt ausführt.

Prompt	Modellantwort
Was haben diese Bilder gemeinsam?	Alle vier Bilder sind Beispiele für Bilder im Querformat.

Aktualisierter Prompt	Verbesserte Reaktion
Beschreiben Sie zuerst im Detail, was die einzelnen Bilder enthalten. Was haben diese Bilder gemeinsam?	Das erste Bild zeigt eine Person, die einen Koffer verpackt, das zweite zeigt einen leeren Flur in einem Einkaufszentrum, das dritte Bild zeigt einen Rolle von Toilettenpapier und das vierte Bild ein dunkles und stürmisches Meer. Die Gemeinsamkeiten zwischen diesen Bildern sind, dass sie alle Beispiele für Grenzbereiche sind. Grenzbereich sind Orte oder Situationen, die zwischen zwei anderen Orten oder Situationen liegen. Sie sind oft durch ein Gefühl von Unsicherheit oder Mehrdeutigkeit gekennzeichnet. Das erste Bild zeigt die Person, die zwischen der zu Hause und einer Reise steht. Die zweite Abbildung zeigt den Flur zwischen zwei Geschäften. Das dritte Bild ist Toilettenpapier, das ein Bad darstellen kann. Ein Badezimmer ist ein Übergangsraum zwischen privaten und öffentlichen Bereichen. Es ist ein Ort, an dem wir uns darauf vorbereiten, die Außenwelt zu betreten und zu verlassen. Das vierte Bild zeigt das Meer zwischen Ruhe und Sturm. Grenzbereiche können sowohl interessant als auch unübersichtlich sein. Sie können ein Ort für einen neuen Anfang oder ein Ort mit Endungen sein. Sie können ein Ort der Reflexion oder ein Handlungsort sein.

Aktualisierter Prompt

Verbesserte Reaktion

Ein Bild einer Person, die einen Koffer packt.

Ein Bild von einem leeren Flur in einem Einkaufszentrum.

Ein Bild von drei Rollen Toilettenpapier.

Ein Bild von dunklen Wolken, die sich über dem Meer auflösen.

Beschreiben Sie zuerst im Detail, was die einzelnen Bilder enthalten. Was haben diese Bilder gemeinsam?

Das erste Bild zeigt eine Person, die einen Koffer verpackt, das zweite zeigt einen leeren Flur in einem Einkaufszentrum, das dritte Bild zeigt einen Rolle von Toilettenpapier und das vierte Bild ein dunkles und stürmisches Meer.

Die Gemeinsamkeiten zwischen diesen Bildern sind, dass sie alle Beispiele für Grenzbereiche sind. Grenzbereich sind Orte oder Situationen, die zwischen zwei anderen Orten oder Situationen liegen. Sie sind oft durch ein Gefühl von Unsicherheit oder Mehrdeutigkeit gekennzeichnet.

Das erste Bild zeigt die Person, die zwischen der zu Hause und einer Reise steht. Die zweite Abbildung zeigt den Flur zwischen zwei Geschäften. Das dritte Bild ist Toilettenpapier, das ein Bad darstellen kann. Ein Badezimmer ist ein Übergangsraum zwischen privaten und öffentlichen Bereichen. Es ist ein Ort, an dem wir uns darauf vorbereiten, die Außenwelt zu betreten und zu verlassen.

Das vierte Bild zeigt das Meer zwischen Ruhe und Sturm.

Grenzbereiche können sowohl interessant als auch unübersichtlich sein. Sie können ein Ort für einen neuen Anfang oder ein Ort mit Endungen sein. Sie können ein Ort der Reflexion oder ein Handlungsort sein.

Sie können das Modell explizit auffordern, auf den Inhalt des Bildes zu verweisen.

Aktualisierter Prompt	Verbesserte Reaktion
Was haben diese Bilder gemeinsam? In der Antwort auf den Inhalt der Bildern verweisen	Alle Bilder beziehen sich auf Reisen. Das erste Bild zeigt eine Person, die einen Koffer packt, das zweite einen leeren Flur in einem Einkaufszentrum, das dritte einen Stapel Toilettenpapier und das vierte ein dunkles und stürmisches Meer. Diese Bilder beziehen sich alle auf Reisen, da es alles ist, was Nutzer auf Reisen brauchen oder verwenden. Das erste Bild zeigt eine Person, die einen Koffer packt. Das ist etwas, was Menschen vor einer Reise tun. Das zweite Bild zeigt einen leeren Flur in einem Einkaufszentrum, in dem Nutzer häufig Dinge für Ihre Reisen kaufen. Das dritte Bild zeigt einen Stapel von Toilettenpapier, das Menschen häufig auf Reisen verwenden. Das vierte Bild zeigt ein dunkles und stürmisches Meer. Dies ist eines der Dinge, auf die Menschen häufig auf Reisen treffen.

Aktualisierter Prompt

Verbesserte Reaktion

Was haben diese Bilder gemeinsam? In der Antwort auf den Inhalt der Bildern verweisen

Alle Bilder beziehen sich auf Reisen. Das erste Bild zeigt eine Person, die einen Koffer packt, das zweite einen leeren Flur in einem Einkaufszentrum, das dritte einen Stapel Toilettenpapier und das vierte ein dunkles und stürmisches Meer.

Diese Bilder beziehen sich alle auf Reisen, da es alles ist, was Nutzer auf Reisen brauchen oder verwenden. Das erste Bild zeigt eine Person, die einen Koffer packt. Das ist etwas, was Menschen vor einer Reise tun. Das zweite Bild zeigt einen leeren Flur in einem Einkaufszentrum, in dem Nutzer häufig Dinge für Ihre Reisen kaufen. Das dritte Bild zeigt einen Stapel von Toilettenpapier, das Menschen häufig auf Reisen verwenden. Das vierte Bild zeigt ein dunkles und stürmisches Meer. Dies ist eines der Dinge, auf die Menschen häufig auf Reisen treffen.

Dieselben Tipps gelten auch für die Creative-Ausgabe. Fordern Sie das Modell explizit auf, Aspekte aus dem Bild zu berücksichtigen. Das kann die Ausgabe verbessern.

Prompt	Modellantwort
Kannst du mir ein Gedicht zu diesem Bild schreiben?	Little bunny, so soft and brown, Hopping through the field, up and down. Your ears so long, your tail so small, You're the cutest creature of them all. You nibble on the grass, so green and sweet, And hop away when you see me. But I'll always be your friend, Little bunny, until the very end.

Prompt

Modellantwort

Kannst du mir ein Gedicht zu diesem Bild schreiben?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.

You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.

Aktualisierter Prompt	Verbesserte Reaktion
Können Sie mir ein beschreibendes und pathetisches Gedicht zu diesem Bild schreiben und den Standort einbeziehen?	Little bunny on the green, Ears so long, so keen. What do you see out there, In the distance, where you stare? Is it the ocean blue, Sparkling in the sun's hue? Or the waves that crash and roar, A rhythm that you adore? Little bunny, tell me true, What captures your attention so? Is it the salty breeze, Or the seagulls' cries that please? Perhaps it's the vastness of it all, A world so big and small. A place where dreams can roam, And adventures can be sown. Little bunny, I wonder what you dream, As you sit on the grass, so serene. Do you yearn to explore the deep, Or stay on land, where you can leap? Whatever it may be, little bunny, Keep that spark of wonder burning brightly. For in your dreams and aspirations, Lies a world waiting for your creation.

Aktualisierter Prompt

Verbesserte Reaktion

Können Sie mir ein beschreibendes und pathetisches Gedicht zu diesem Bild schreiben und den Standort einbeziehen?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?

Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?

Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?

Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.

Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?

Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Ermitteln, warum der Prompt fehlgeschlagen ist

Eine Eingabeaufforderung kann fehlschlagen, weil das Modell das Bild überhaupt nicht verstanden hat oder weil es danach nicht die richtigen logischen Schritte ausgeführt hat. Um zwischen diesen Logiken zu unterscheiden, bitten Sie das Modell, den Inhalt des Bildes zu beschreiben.

Wenn das Modell in diesem Beispiel mit Snacks antwortet, die bei Kombination mit Tee (z. B. Popcorn) überraschend sind, können Sie zuerst eine Fehlerbehebung durchführen, um festzustellen, ob das Modell richtig erkannt hat, dass das Bild Tee zeigt.

Prompt	Prompt zur Fehlerbehebung
Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde?	Beschreiben Sie den Inhalt des Bildes.

Wenn Sie das Modell auffordern, seine Logik zu erklären, kann das helfen, einzugrenzen, welcher Teil der Logik aufgeschlüsselt wurde.

Prompt	Prompt zur Fehlerbehebung
Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde?	Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde? Bitte erläutere, warum.

Parameter für die Stichprobenerhebung optimieren

In jeder Anfrage senden Sie nicht nur den multimodalen Prompt, sondern auch eine Reihe von Stichprobenparametern an das Modell. Das Modell kann für verschiedene Parameterwerte unterschiedliche Ergebnisse generieren. Experimentieren Sie mit den verschiedenen Parametern, um die besten Werte für die Aufgabe zu erhalten. Am häufigsten angepasste Parameter sind:

Temperatur
top-P

Temperatur

Die Temperatur wird für die Probenahme während der Antwortgenerierung verwendet. Dies passiert, wenn Top-P und Top-K angewendet werden. Die Temperatur bestimmt den Grad der Zufälligkeit bei der Tokenauswahl. Niedrigere Temperaturen eignen sich für Prompts, die deterministischere und weniger offene oder kreative Reaktionen erfordern, während höhere Temperaturen zu vielfältigeren oder kreativen Ergebnissen führen können. Eine Temperatur von 0 ist deterministisch, d. h., die Antwort mit der höchsten Wahrscheinlichkeit wird am wahrscheinlichsten ausgewählt.

Für die meisten Anwendungsfälle empfiehlt es sich, mit einer Temperatur von 0,4 zu beginnen. Wenn Sie mehr kreative Ergebnisse benötigen, erhöhen Sie die Temperatur. Wenn Sie deutliche Halluzinationen beobachten, senken Sie die Temperatur.

Top-P

Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Tokens werden vom wahrscheinlichsten bis zum am wenigsten wahrscheinlichen Token ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem Wert von „Top-P“ entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,6, 0,3 und 0,1 haben und der Wert von „Top-P“ 0,9 ist, wählt das Modell entweder A oder B als nächstes Token aus (mithilfe der Temperatur) und berücksichtigt C nicht.

Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an. Der Standardwert von „Top-P“ ist 1,0.

Nächste Schritte

Wagen Sie sich an eine Kurzeinführung mit Generative AI Studio oder der Vertex AI API.
Eine Einführung in die Verwendung der Gemini API in Vertex AI finden Sie in der Kurzanleitung für die Gemini API in Vertex AI.