Respostas multimodais

O Gemini 2.0 Flash oferece suporte à geração de respostas em várias modalidades, incluindo texto, fala e imagens.

Geração de texto

O Gemini 2.0 Flash oferece suporte à geração de texto usando o console do Google Cloud, a API REST e os SDKs compatíveis. Para mais informações, consulte nosso guia de geração de texto.

Geração de voz (acesso antecipado/lista de permissões)

O Gemini 2.0 oferece suporte a um novo recurso de geração multimodais: texto para fala. Usando o recurso de conversão de texto em fala, você pode solicitar que o modelo gere uma saída de áudio de alta qualidade que soe como uma voz humana (say "hi everyone") e pode refinar ainda mais a saída direcionando a voz.

Geração de imagens (acesso antecipado/lista de permissões)

O Gemini 2.0 oferece suporte à capacidade de gerar texto com imagens inline. Isso permite usar o Gemini para editar imagens em conversas ou gerar saídas multimodais, por exemplo, uma postagem de blog com texto e imagens em uma única vez. Antes, isso exigia a união de vários modelos.

A geração de imagens está disponível como uma versão experimental privada. Ele oferece suporte às seguintes modalidades e recursos:

  • Texto para imagem
    • Exemplo de comando: "Gere uma imagem da Torre Eiffel com fogos de artifício em segundo plano".
  • Texto para imagens e texto (intercalado)
    • Exemplo de instrução: "Gerencie uma receita ilustrada de paella. Crie imagens para acompanhar o texto ao gerar a receita."
  • Imagens e texto para imagens e texto (intercalados)
    • Exemplo de comando: (com uma imagem de um cômodo mobiliado) "Que outras cores de sofás funcionariam no meu espaço? Você pode atualizar a imagem?"
  • Edição de imagens (texto e imagem para imagem)
    • Exemplo de instrução: "Edite esta imagem para que ela pareça um desenho animado"
    • Exemplo de comando: [imagem de um gato] + [imagem de um travesseiro] + "Crie um ponto cruzado do meu gato neste travesseiro".
  • Edição de imagens com vários turnos (chat)
    • Exemplos de comandos: [faça upload de uma imagem de um carro azul.] "Transforme este carro em um conversível". "Agora mude a cor para amarelo."
  • Marca-d'água
    • Todas as imagens geradas incluem uma marca-d'água SynthID.

Limitações:

  • A geração de pessoas e a edição de imagens enviadas de pessoas não são permitidas.
  • Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • A geração de imagens não tem suporte para entradas de áudio ou vídeo.
  • A geração de imagens nem sempre aciona:
    • O modelo só pode gerar texto. Tente pedir as saídas de imagem explicitamente (por exemplo, "gerar uma imagem", "fornecer imagens conforme você avança", "atualizar a imagem").
    • O modelo pode parar de gerar no meio do processo. Tente de novo ou use outro comando.