O Gemini 2.0 Flash oferece suporte à geração de respostas em várias modalidades, incluindo texto, fala e imagens.
Geração de texto
O Gemini 2.0 Flash oferece suporte à geração de texto usando o console do Google Cloud, a API REST e os SDKs compatíveis. Para mais informações, consulte nosso guia de geração de texto.
Geração de voz (acesso antecipado/lista de permissões)
O Gemini 2.0 oferece suporte a um novo recurso de geração multimodais: texto para fala.
Usando o recurso de conversão de texto em fala, você pode solicitar que o modelo gere uma saída de áudio de alta
qualidade que soe como uma voz humana (say "hi everyone"
) e
pode refinar ainda mais a saída direcionando a voz.
Geração de imagens (acesso antecipado/lista de permissões)
O Gemini 2.0 oferece suporte à capacidade de gerar texto com imagens inline. Isso permite usar o Gemini para editar imagens em conversas ou gerar saídas multimodais, por exemplo, uma postagem de blog com texto e imagens em uma única vez. Antes, isso exigia a união de vários modelos.
A geração de imagens está disponível como uma versão experimental privada. Ele oferece suporte às seguintes modalidades e recursos:
- Texto para imagem
- Exemplo de comando: "Gere uma imagem da Torre Eiffel com fogos de artifício em segundo plano".
- Texto para imagens e texto (intercalado)
- Exemplo de instrução: "Gerencie uma receita ilustrada de paella. Crie imagens para acompanhar o texto ao gerar a receita."
- Imagens e texto para imagens e texto (intercalados)
- Exemplo de comando: (com uma imagem de um cômodo mobiliado) "Que outras cores de sofás funcionariam no meu espaço? Você pode atualizar a imagem?"
- Edição de imagens (texto e imagem para imagem)
- Exemplo de instrução: "Edite esta imagem para que ela pareça um desenho animado"
- Exemplo de comando: [imagem de um gato] + [imagem de um travesseiro] + "Crie um ponto cruzado do meu gato neste travesseiro".
- Edição de imagens com vários turnos (chat)
- Exemplos de comandos: [faça upload de uma imagem de um carro azul.] "Transforme este carro em um conversível". "Agora mude a cor para amarelo."
- Marca-d'água
- Todas as imagens geradas incluem uma marca-d'água SynthID.
Limitações:
- A geração de pessoas e a edição de imagens enviadas de pessoas não são permitidas.
- Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
- A geração de imagens não tem suporte para entradas de áudio ou vídeo.
- A geração de imagens nem sempre aciona:
- O modelo só pode gerar texto. Tente pedir as saídas de imagem explicitamente (por exemplo, "gerar uma imagem", "fornecer imagens conforme você avança", "atualizar a imagem").
- O modelo pode parar de gerar no meio do processo. Tente de novo ou use outro comando.