Gemini 2.0 (experimental)

O Gemini 2.0 Flash agora está disponível como uma versão de pré-lançamento experimental pela API Vertex AI Gemini e pelo Vertex AI Studio. O modelo apresenta novos recursos e recursos principais aprimorados:

  • API Multimodal Live:essa nova API ajuda a criar aplicativos de streaming de áudio e visão em tempo real com o uso de ferramentas.
  • Velocidade e desempenho:o Gemini 2.0 Flash tem um tempo para o primeiro token (TTFT, na sigla em inglês) significativamente melhor do que o Gemini 1.5 Flash.
  • Qualidade:o modelo mantém uma qualidade comparável a modelos maiores, como o Gemini 1.5 Pro.
  • Experiências de agente aprimoradas:o Gemini 2.0 oferece melhorias na compreensão multimodal, programação, execução de instruções complexas e chamada de função. Essas melhorias funcionam juntas para oferecer experiências melhores.
  • Novas modalidades:o Gemini 2.0 apresenta a geração de imagens nativas e recursos controláveis de conversão de texto em fala, permitindo a edição de imagens, a criação de artes localizadas e a narrativa expressiva.

Para oferecer suporte ao novo modelo, também estamos lançando um SDK totalmente novo que oferece migração simples entre a API Gemini Developer e a API Gemini na Vertex AI.

Para detalhes técnicos do Gemini 2.0, consulte Modelos do Google.

SDK do Google Gen AI (experimental)

O novo SDK Google Gen AI oferece uma interface unificada para o Gemini 2.0 usando a API Gemini para desenvolvedores e a API Gemini na Vertex AI. Com poucas exceções, o código executado em uma plataforma será executado nas duas. Isso significa que você pode criar protótipos de um aplicativo usando a API Developer e migrar o aplicativo para a Vertex AI sem precisar reescrever o código.

O SDK de IA generativa também oferece suporte aos modelos Gemini 1.5.

O novo SDK está disponível em Python e Go, e Java e JavaScript serão lançados em breve.

Você pode começar a usar o SDK, conforme mostrado abaixo.

  1. Instale o novo SDK: pip install google-genai
  2. Em seguida, importe a biblioteca, inicialize um cliente e gere conteúdo:
from google import genai

# Replace the `project` and `location` values with appropriate values for
# your project.
client = genai.Client(
    vertexai=True, project='YOUR_CLOUD_PROJECT', location='us-central1'
)
response = client.models.generate_content(
    model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)

(Opcional) Defina variáveis de ambiente

Como alternativa, é possível inicializar o cliente usando variáveis de ambiente. Primeiro, defina os valores apropriados e exporte as variáveis:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=YOUR_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

Em seguida, inicialize o cliente sem argumentos:

client = genai.Client()

API Multimodal Live

A API Multimodal Live permite interações de voz e vídeo bidirecionais de baixa latência com o Gemini. Com a API Multimodal Live, você pode oferecer aos usuários finais a experiência de conversas por voz naturais e humanas, além de interromper as respostas do modelo usando comandos de voz. O modelo pode processar entradas de texto, áudio e vídeo e fornecer saídas de texto e áudio.

A API Multimodal Live está disponível na API Gemini como o método BidiGenerateContent e é criada com base em WebSockets.

Para mais informações, consulte o guia de referência da API Multimodal Live.

Para conferir um exemplo de conversão de texto em texto que ajuda você a começar a usar a API Multimodal Live, consulte o seguinte:

from google import genai

client = genai.Client()
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}

async with client.aio.live.connect(model=model_id, config=config) as session:
    message = "Hello? Gemini, are you there?"
    print("> ", message, "\n")
    await session.send(input=message, end_of_turn=True)

    async for response in session.receive():
        print(response.text)

Recursos:

  • Entrada de áudio com saída de áudio
  • Entrada de áudio e vídeo com saída de áudio
  • Uma seleção de vozes. Consulte Voz da API Multimodal Live.
  • Duração da sessão de até 15 minutos para áudio ou até 2 minutos de áudio e vídeo

Para saber mais sobre outros recursos da API Multimodal Live, consulte Recursos da API Multimodal Live.

Language:

  • Somente em inglês.

Limitações:

Pesquisa como ferramenta

Ao usar o embasamento com a Pesquisa Google, você pode melhorar a precisão e a recência das respostas do modelo. A partir do Gemini 2.0, a Pesquisa Google está disponível como uma ferramenta. Isso significa que o modelo pode decidir quando usar a Pesquisa Google. O exemplo a seguir mostra como configurar a Pesquisa como uma ferramenta.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch

client = genai.Client()
model_id = "gemini-2.0-flash-exp"

google_search_tool = Tool(
    google_search = GoogleSearch()
)

response = client.models.generate_content(
    model=model_id,
    contents="When is the next total solar eclipse in the United States?",
    config=GenerateContentConfig(
        tools=[google_search_tool],
        response_modalities=["TEXT"],
    )
)

for each in response.candidates[0].content.parts:
    print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...

# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)

A funcionalidade de pesquisa como ferramenta também permite pesquisas com várias etapas e consultas com várias ferramentas (por exemplo, combinar o Grounding com a Pesquisa Google e a execução de código).

A pesquisa como ferramenta permite comandos e fluxos de trabalho complexos que exigem planejamento, raciocínio e pensamento:

  • Embasamento para melhorar a precisão e a atualidade e fornecer respostas mais precisas
  • Recuperar artefatos da Web para fazer outras análises em
  • Encontrar imagens, vídeos ou outras mídias relevantes para ajudar em tarefas de raciocínio ou geração multimodais
  • Programação, solução de problemas técnicos e outras tarefas especializadas
  • Encontrar informações específicas da região ou ajudar a traduzir conteúdo com precisão
  • Como encontrar sites relevantes para navegar

Detecção de caixa delimitadora

Neste lançamento experimental, oferecemos aos desenvolvedores uma ferramenta poderosa para detecção e localização de objetos em imagens e vídeos. Ao identificar e delimitar objetos com caixas delimitadoras, os desenvolvedores podem desbloquear uma ampla gama de aplicativos e melhorar a inteligência dos projetos.

Principais benefícios:

  • Simples:integre recursos de detecção de objetos aos seus aplicativos com facilidade, independentemente da sua experiência em visão computacional.
  • Personalizável:produz caixas delimitadoras com base em instruções personalizadas (por exemplo, "Quero ver caixas delimitadoras de todos os objetos verdes nesta imagem") sem precisar treinar um modelo personalizado.

Detalhes técnicos:

  • Entrada:seu comando e as imagens ou frames de vídeo associados.
  • Saída:caixas delimitadoras no formato [y_min, x_min, y_max, x_max]. O canto superior esquerdo é a origem. Os eixos x e y vão horizontalmente e verticalmente, respectivamente. Os valores de coordenadas são normalizados de 0 a 1.000 para cada imagem.
  • Visualização:os usuários do AI Studio vão ver as caixas delimitadoras plotadas na interface. Os usuários da Vertex AI precisam visualizar as caixas delimitadoras usando um código de visualização personalizado.

Geração de voz (acesso antecipado/lista de permissões)

O Gemini 2.0 oferece suporte a um novo recurso de geração multimodais: texto para fala. Usando o recurso de conversão de texto em fala, você pode solicitar que o modelo gere uma saída de áudio de alta qualidade que soe como uma voz humana (say "hi everyone") e pode refinar ainda mais a saída direcionando a voz.

Geração de imagens (acesso antecipado/lista de permissões)

O Gemini 2.0 oferece suporte à capacidade de gerar texto com imagens inline. Isso permite que você use o Gemini para editar imagens em conversas ou gerar saídas multimodais, por exemplo, uma postagem de blog com texto e imagens em uma única vez. Antes, isso exigia a união de vários modelos.

A geração de imagens está disponível como uma versão experimental privada. Ele oferece suporte às seguintes modalidades e recursos:

  • Texto para imagem
    • Exemplo de comando: "Gere uma imagem da Torre Eiffel com fogos de artifício em segundo plano".
  • Texto para imagens e texto (intercalado)
    • Exemplo de instrução: "Gerencie uma receita ilustrada de paella. Crie imagens para acompanhar o texto ao gerar a receita."
  • Imagens e texto para imagens e texto (intercalados)
    • Exemplo de comando: (com uma imagem de um cômodo mobiliado) "Que outras cores de sofás funcionariam no meu espaço? Você pode atualizar a imagem?"
  • Edição de imagens (texto e imagem para imagem)
    • Exemplo de instrução: "Edite esta imagem para que ela pareça um desenho animado"
    • Exemplo de comando: [imagem de um gato] + [imagem de um travesseiro] + "Crie um ponto cruzado do meu gato neste travesseiro".
  • Edição de imagens com vários turnos (chat)
    • Exemplos de comandos: [faça upload de uma imagem de um carro azul.] "Transforme este carro em um conversível". "Agora mude a cor para amarelo."
  • Marca-d'água
    • Todas as imagens geradas incluem uma marca-d'água SynthID.

Limitações:

  • A geração de pessoas e a edição de imagens enviadas de pessoas não são permitidas.
  • Para ter o melhor desempenho, use os seguintes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • A geração de imagens não tem suporte para entradas de áudio ou vídeo.
  • A geração de imagens nem sempre aciona:
    • O modelo só pode gerar texto. Tente pedir as saídas de imagem explicitamente, por exemplo, "gerar uma imagem", "fornecer imagens conforme você avança", "atualizar a imagem".
    • O modelo pode parar de gerar no meio do processo. Tente de novo ou use outro comando.

Preços

Você não recebe cobranças pelo uso de modelos experimentais do Google.