Progetta prompt multimodali

L'API Gemini in Vertex AI ti consente di inviare input multimodali come testo, immagini e video come parte del prompt ai modelli Gemini. Questa pagina fornisce le best practice per la progettazione di prompt multimodali e come risolvere i problemi se i prompt non funzionano come previsto. Per indicazioni generali sulla progettazione dei prompt, consulta le strategie di progettazione dei prompt consigliate o l'elenco seguente di best practice specifiche per la modalità multimodale.

Principi fondamentali della progettazione dei prompt

Utilizzare istruzioni specifiche

I prompt chiari e dettagliati forniscono i risultati migliori. Se hai in mente un output specifico, includi questo requisito nel prompt per aumentare la probabilità di ottenere l'output corretto.

Anche quando un prompt sembra chiaro alla persona che lo ha scritto, potrebbe essere specificato in modo insufficiente. Per personalizzare il comportamento del modello, considera come potrebbe essere interpretato il prompt e assicurati che le istruzioni che fornisci siano specifiche e chiare.

Se hai incluso l'immagine di un tabellone aeroportuale di seguito nel prompt, chiedere al modello di "descrivere questa immagine" potrebbe generare una descrizione generale. Se vuoi che il modello analizzi l'ora e la città dall'immagine, includi la richiesta direttamente nel prompt.

Prompt Risposta del modello
Una tabella degli orari dell'aeroporto con orari e città.

Descrivi questa immagine.

L'immagine mostra un tabellone degli arrivi e delle partenze di un aeroporto.

Prompt aggiornato Risposta migliorata
Una tabella degli orari dell'aeroporto con orari e città.

Parse the time and city from the airport board shown in this image into a list.

  • 10:50 Mosca
  • 11:05 Edimburgo
  • 11:05 Londra
  • 11:10 Bucarest
  • 11:30 Kiev
  • 11:35 Dublino
  • 11:45 East Midlands
  • 12:15 Sofia
  • 12:30 Londra
  • 12:30 Newcastle
  • 12:40 San Pietroburgo
  • 12:40 Londra
  • 12:45 Manchester

Aggiungi esempi

Il modello può accettare più input da utilizzare come esempi per comprendere l'output che desideri. L'aggiunta di questi esempi può aiutare il modello a identificare i pattern e applicare la relazione tra le immagini e le risposte fornite al nuovo esempio. Questo metodo è chiamato apprendimento"few-shot".

Nell'esempio seguente, l'output iniziale è una frase completa che contiene anche il paese (Brasile). Se l'output preferito è solo la città, non il paese, l'aggiunta di esempi few-shot al prompt può guidare il modello a rispondere in questo formato.

Prompt Risposta del modello
La statua del Cristo Redentore a Rio de Janeiro, in Brasile.

Determina la città insieme al punto di riferimento.

Il punto di riferimento è la statua del Cristo Redentore a Rio de Janeiro, in Brasile.

Prompt aggiornato Risposta migliorata

Determina la città insieme al punto di riferimento.

Il Colosseo di Roma, Italia.

città: Roma, punto di riferimento: il Colosseo.

La Città Proibita di Pechino, Cina.

città: Pechino, punto di riferimento: Città Proibita

La statua del Cristo Redentore a Rio de Janeiro, in Brasile.

città: Rio de Janeiro, punto di riferimento: statua del Cristo Redentore

Suddividi le attività complesse in attività più piccole

Per attività complesse, come quelle che richiedono sia la comprensione visiva sia il ragionamento, suddividi l'attività in passaggi più piccoli e semplici o chiedi direttamente al modello di procedere passo dopo passo nel prompt.

Prompt Risposta del modello
Un'immagine di tre rotoli di carta igienica.

Quando finirà la carta igienica?

Presto ti rimarranno solo 3 rotoli.

Prompt aggiornato Risposta migliorata
Un'immagine di tre rotoli di carta igienica.
  1. Per prima cosa, conta quanti rotoli di carta igienica ci sono in questa immagine.
  2. Poi, determina la quantità di carta igienica che una persona media utilizza al giorno.
  3. Calcola quanto dureranno questi rotoli di carta igienica.
  1. In questa immagine ci sono tre rotoli di carta igienica.
  2. Una persona media utilizza circa 20 fogli di carta igienica al giorno.
  3. Se ogni rotolo contiene 200 fogli, ogni rotolo durerà circa 10 giorni. Pertanto, i tre rotoli dureranno circa un mese.

Anche i problemi di matematica o altri tipi di problemi con enunciato possono essere suddivisi in attività più piccole.

Prompt Risposta
Un'immagine della sequenza matematica b. b(1) = 15 e b(n) = b(n-1) * (-3).

Qual è il quarto termine della sequenza?

-135

La risposta del modello non è corretta. Prova a chiedere al modello di analizzare il problema prima di rispondere al prompt.

Prompt Risposta
Un'immagine della sequenza matematica b. b(1) = 15 e b(n) = b(n-1) * (-3).

Analizza prima la formula nell'immagine.

In base alla formula, rispondi alla domanda "Qual è il quarto termine della sequenza?".

Fai clic per espandere il risultato $$b(n) = b(n-1) * (-3)$$ $$b(1) = 15$$
  1. Sostituisci n = 4 nella formula:

    $$b(4) = b(4-1) * (-3)$$

    $$b(4) = b(3) * (-3)$$

  2. Non conosciamo il valore di b(3), quindi sostituiamo n = 3 nella formula:

    $$b(3) = b(3-1) * (-3)$$

    $$b(3) = b(2) * (-3)$$

  3. Non conosciamo il valore di b(2), quindi sostituiamo n = 2 nella formula:

    $$b(2) = b(2-1) * (-3)$$

    $$b(2) = b(1) * (-3)$$

  4. Sappiamo che il valore di b(1) è 15, quindi sostituiscilo nella formula:

    $$b(2) = 15 * (-3)$$

    $$b(2) = -45$$

  5. Ora che conosciamo il valore di b(2), sostituiscilo nella formula per b(3):

    $$b(3) = b(2) * (-3)$$

    $$b(3) = -45 * (-3)$$

    $$b(3) = 135$$

  6. Ora che conosciamo il valore di b(3), sostituiscilo nella formula per b(4):

    $$b(4) = b(3) * (-3)$$

    $$b(4) = 135 * (-3)$$

    $$b(4) = -405$$

Pertanto, il quarto termine della sequenza è -405.

Per rendere la risposta ancora più snella, puoi chiedere al modello di analizzare il prompt passo dopo passo.

Prompt aggiornato Risposta migliorata
Un'immagine della sequenza matematica b. b(1) = 15 e b(n) = b(n-1) * (-3).

Qual è il quarto termine della sequenza? Pensa passo dopo passo.

Il primo termine è 15.

Il secondo termine è b(1) * (-3) = 15 * (-3) = -45.

Il terzo termine è b(2) * (-3) = -45 * (-3) = 135.

Il quarto termine è b(3) * (-3) = 135 * (-3) = -405.

Specifica il formato di output

Quando è richiesto un determinato formato, puoi indicare al modello di utilizzarlo per l'output.

Prompt Risposta del modello
Immagine di un foglio di lavoro in Excel.

Analizza la tabella in questa immagine nel formato Markdown

| Subject   | Status      | Time    | Start date | Due on     |
|-----------|-------------|---------|------------|------------|
| Math      | Done        | 1.5 hrs | 11/29/2023 | 12/1/2023  |
| Geography | Done        | 30 min  | 12/2/2023  | 12/4/2023  |
| Physics   | In progress | 2 hrs   | 12/3/2023  | 12/5/2023  |
| Biology   | Not started | 6 hrs   | 11/2/2016  | 12/6/2023  |
        
Prompt Risposta del modello
Un'immagine di un pasto con gamberetti, vongole e altri ingredienti.

Fornisci un elenco di tutti i seguenti attributi:

ingredienti, tipo di cucina, vegetariano o meno, in formato JSON


        {
          "ingredients": [
            "rice",
            "shrimp",
            "clams",
            "mussels",
            "peas",
            "tomatoes",
            "onions",
            "garlic",
            "olive oil",
            "paprika",
            "salt",
            "pepper"
          ],
          "type of cuisine": "Spanish",
          "vegetarian": false
        }
        

Risolvere i problemi relativi a un prompt multimodale

La risoluzione dei problemi di un prompt può comportare il miglioramento del linguaggio del prompt, la direzione del focus del prompt o la regolazione dei parametri. Questi diversi approcci possono portare a risultati migliori, soprattutto dopo aver determinato la causa principale del problema.

Concentrarsi sulla parte pertinente di un'immagine

Per migliorare la risposta, indica quali parti dell'immagine sono più pertinenti al prompt.

Prompt Risposta del modello
Un'immagine del lato di una scatola di pannolini; sulla scatola è scritto il numero 198.

Per quanti giorni dureranno questi pannolini per un bambino?

I pannolini dureranno 198 giorni prima di esaurirsi.

Prompt aggiornato Risposta migliorata
Un'immagine del lato di una scatola di pannolini; sulla scatola è scritto il numero 198.

Per quanto tempo mi dureranno questi pannolini prima che finiscano?

Utilizza il peso indicato sulla confezione per determinare l'età del bambino e il numero totale di pannolini nella confezione.

Dividi il numero totale per il numero di pannolini che il bambino usa al giorno.

La confezione contiene 198 pannolini. La confezione indica che i pannolini sono adatti a un bambino di peso compreso tra 10 e 17 kg.

Il bambino medio in questa fascia di peso ha probabilmente un'età compresa tra 1 e 2 anni.

Un bambino di 2 anni in genere usa 6 pannolini al giorno, quindi i pannolini dureranno circa 33 giorni (198/6).

Personalizzare la risposta del modello in base all'input

Chiedi al modello di descrivere le immagini prima di eseguire l'attività nel prompt.

Prompt Risposta del modello
Un'immagine di una persona che prepara una valigia. Una foto di un corridoio vuoto in un centro commerciale. Un'immagine di tre rotoli di carta igienica. Immagine di nuvole scure che si aprono sul mare.

Cosa hanno in comune queste immagini?

Tutte e quattro le immagini sono esempi di fotografia paesaggistica.

Prompt aggiornato Risposta migliorata
Un'immagine di una persona che prepara una valigia. Una foto di un corridoio vuoto in un centro commerciale. Un'immagine di tre rotoli di carta igienica. Immagine di nuvole scure che si aprono sul mare.

Per prima cosa, descrivi in dettaglio i contenuti di ogni immagine. Che cosa hanno in comune queste immagini?

La prima immagine mostra una persona che prepara una valigia. La seconda immagine mostra un corridoio vuoto in un centro commerciale. La terza immagine mostra un rotolo di carta igienica. La quarta immagine mostra un mare scuro e tempestoso.

Il punto in comune tra queste immagini è che sono tutte esempi di spazi liminali. Gli spazi liminali sono luoghi o situazioni che si trovano tra due altri luoghi o situazioni. Sono spesso caratterizzati da un senso di incertezza o ambiguità.

La prima immagine mostra la persona tra la casa e il viaggio. La seconda immagine mostra il corridoio tra due negozi. La terza immagine è di carta igienica, che può rappresentare un bagno. Il bagno è uno spazio di transizione tra la sfera privata e quella pubblica. È un luogo in cui ci prepariamo a entrare o uscire dal mondo esterno.

La quarta immagine mostra il mare in condizioni di calma e tempesta.

Gli spazi liminali possono essere sia entusiasmanti che inquietanti. Possono essere un luogo di nuovi inizi o di fine. Possono essere un luogo di riflessione o di azione.

Puoi chiedere esplicitamente al modello di fare riferimento ai contenuti dell'immagine.

Prompt aggiornato Risposta migliorata
Un'immagine di una persona che prepara una valigia. Una foto di un corridoio vuoto in un centro commerciale. Un'immagine di tre rotoli di carta igienica. Immagine di nuvole scure che si aprono sul mare.

Cosa hanno in comune queste immagini? Fai riferimento ai contenuti delle immagini nella risposta.

Tutte le immagini sono correlate ai viaggi. La prima immagine mostra una persona che prepara una valigia, la seconda mostra un corridoio vuoto in un centro commerciale, la terza mostra una pila di carta igienica e la quarta mostra un mare scuro e tempestoso.

Queste immagini sono tutte correlate ai viaggi perché sono tutte cose che le persone hanno bisogno o utilizzano quando viaggiano. La prima immagine mostra una persona che prepara una valigia, un'attività che si svolge quando si parte per un viaggio. La seconda immagine mostra un corridoio vuoto in un centro commerciale, un luogo in cui le persone vanno spesso ad acquistare cose per i loro viaggi. La terza immagine mostra una pila di carta igienica, un oggetto che le persone usano spesso quando viaggiano. La quarta immagine mostra un mare scuro e tempestoso, qualcosa che le persone incontrano spesso quando viaggiano.

Gli stessi suggerimenti valgono per l'output creativo. Chiedi esplicitamente al modello di includere aspetti dell'immagine, in modo da migliorare l'output.

Prompt Risposta del modello
L'immagine di un coniglio marrone.

Puoi scrivermi una poesia su questa immagine?

Little bunny, so soft and brown,
        Hopping through the field, up and down.
        Your ears so long, your tail so small,
        You're the cutest creature of them all.
You nibble on the grass, so green and sweet,
        And hop away when you see me.
        But I'll always be your friend,
        Little bunny, until the very end.
Prompt aggiornato Risposta migliorata
L'immagine di un coniglio marrone.

Puoi scrivermi una poesia descrittiva e drammatica su questa immagine e includere la posizione?

Little bunny on the green,
        Ears so long, so keen.
        What do you see out there,
        In the distance, where you stare?
Is it the ocean blue,
        Sparkling in the sun's hue?
        Or the waves that crash and roar,
        A rhythm that you adore?
Little bunny, tell me true,
        What captures your attention so?
        Is it the salty breeze,
        Or the seagulls' cries that please?
Perhaps it's the vastness of it all,
        A world so big and small.
        A place where dreams can roam,
        And adventures can be sown.
Little bunny, I wonder what you dream,
        As you sit on the grass, so serene.
        Do you yearn to explore the deep,
        Or stay on land, where you can leap?
Whatever it may be, little bunny,
        Keep that spark of wonder burning brightly.
        For in your dreams and aspirations,
        Lies a world waiting for your creation.

Determinare il motivo dell'errore del prompt

Un prompt può non riuscire perché il modello non ha compreso l'immagine o perché non ha eseguito i passaggi di ragionamento corretti in seguito. Per distinguere tra questi motivi, chiedi al modello di descrivere cosa c'è nell' immagine.

In questo esempio, se il modello risponde con uno snack che sembra sorprendente se abbinato al tè (come i popcorn), determina innanzitutto se il modello ha riconosciuto che l'immagine contiene tè.

Prompt Richiesta di risoluzione dei problemi
L'immagine di un servizio da tè.

Qual è uno snack che posso preparare in 1 minuto e che si abbini bene a questo?

L'immagine di un servizio da tè.

Descrivi i contenuti di questa immagine.

Chiedere al modello di spiegare il suo ragionamento può aiutare a restringere la parte del ragionamento che non ha funzionato, se presente.

Prompt Richiesta di risoluzione dei problemi
L'immagine di un servizio da tè.

Qual è uno snack che posso preparare in 1 minuto e che si abbini bene a questo?

L'immagine di un servizio da tè.

Qual è uno snack che posso preparare in 1 minuto e che si abbini bene a questo? Spiega perché.

Ottimizzare i parametri di campionamento

In ogni richiesta, invii al modello non solo il prompt multimodale, ma anche un insieme di parametri di campionamento. Il modello può generare risultati diversi per valori di parametro diversi. Sperimenta con i diversi parametri per ottenere i valori migliori per l'attività. I parametri modificati più di frequente sono i seguenti:

Temperatura

La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quando vengono applicati i parametri top-P e top-K. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature basse sono ideali per prompt che richiedono risposte più deterministiche e meno aperte o creative, mentre le temperature più alte possono portare a risultati più diversificati o creativi. Una temperatura pari a 0 è deterministica, il che significa che è più probabile che venga selezionata la risposta con la probabilità più alta.

Per la maggior parte dei casi d'uso, inizia con una temperatura di 0,4. Se hai bisogno di risultati più creativi, aumenta la temperatura. Se noti allucinazioni chiare, riduci la temperatura.

Top-P

Top-P cambia il modo in cui il modello seleziona i token per l'output. I token vengono selezionati dal più probabile al meno probabile finché la somma delle loro probabilità non corrisponde al valore di Top-P. Ad esempio, se i token A, B e C hanno una probabilità di 0,6, 0,3 e 0,1 e il valore di top-P è 0,9, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.

Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali. Il valore predefinito di top-P è 1.0.

Passaggi successivi