O Gemma é um conjunto de modelos abertos de inteligência artificial (IA) leve e generativa. Os modelos Gemma estão disponíveis para execução nos aplicativos e no hardware, dispositivos móveis ou serviços hospedados. Também é possível personalizar esses modelos usando técnicas de ajuste para que eles se destaquem na execução de tarefas importantes para você e seus usuários. Os modelos Gemma são baseados em modelos Gemini e destinados à comunidade de desenvolvimento de IA para ampliar e avançar.
O ajuste fino pode ajudar a melhorar o desempenho de um modelo em tarefas específicas. Como os modelos da família de modelos Gemma têm peso aberto, é possível ajustá-los usando o framework de IA de sua escolha e o SDK da Vertex AI. É possível abrir um exemplo de notebook para ajustar o modelo do Gemma usando um link disponível no card de modelo do Gemma no Model Garden.
Os modelos Gemma a seguir estão disponíveis para uso com a Vertex AI. Para saber mais e testar os modelos Gemma, consulte os cards de modelos do Model Garden.
Nome do modelo | Casos de uso | Card de modelo do Model Garden |
---|---|---|
Gemma | Ideal para geração, resumo e extração de textos. | Acessar o card de modelo do Gemma |
CodeGemma | Melhor para geração e preenchimento de código. | Acessar o card de modelo do CodeGemma |
Confira a seguir algumas opções de onde você pode usar o Gemma:
Usar o Gemma com a Vertex AI
A Vertex AI oferece uma plataforma gerenciada para criar e escalonar rapidamente projetos de machine learning sem precisar de experiência interna em MLOps. É possível usar a Vertex AI como o aplicativo downstream que exibe os modelos Gemma. Por exemplo, é possível transferir pesos da implementação do Keras do Gemma. A Vertex AI pode ser usada para disponibilizar essa versão do Gemma e receber previsões. Recomendamos o uso da Vertex AI se você quiser recursos de MLOps completos, recursos de ML com valor agregado e uma experiência sem servidor para um desenvolvimento simplificado.
Para começar a usar o Gemma, consulte os seguintes notebooks:
Ajustar o Gemma usando o PEFT e implantar na Vertex AI a partir da Vertex
Ajustar o Gemma usando o PEFT e implantar na Vertex AI a partir da Huggingface
Ajustar o Gemma usando o KerasNLP e, em seguida, implantar na Vertex AI
Ajustar o Gemma com o Ray na Vertex AI e realizar a implantação na Vertex AI
Usar o Gemma em outros produtos do Google Cloud
Você pode usar o Gemma com outros produtos do Google Cloud, como o Google Kubernetes Engine e o Dataflow.
Usar o Gemma com o GKE
O Google Kubernetes Engine (GKE) é a solução do Google Cloud para o Kubernetes gerenciado que oferece escalonabilidade, segurança, resiliência e economia. Recomendamos essa opção se você tiver investimentos atuais no Kubernetes, se sua organização tiver experiência interna em MLOps ou se precisar de controle granular sobre cargas de trabalho complexas de IA/ML com segurança, pipeline de dados e recursos exclusivos de gerenciamento de projetos. Para saber mais, consulte os seguintes tutoriais na documentação do GKE:
- Disponibilizar Gemma com vLLM
- Atender o Gemma com o TGI
- Disponibilizar o Gemma com o Triton e o TensorRT-LLM
- Exibir o Gemma com o JetStream
- Exibir o Gemma com o Saxml
Usar o Gemma com o Dataflow
Você pode usar modelos Gemma com o Dataflow para análise de sentimento. Use o Dataflow para executar pipelines de inferência que usem os modelos Gemma. Para saber mais, consulte Executar pipelines de inferência com modelos abertos do Gemma.
Usar o Gemma com o Colab
Você pode usar o Gemma com o Colaboratory para criar sua solução Gemma. No Colab, você pode usar o Gemma com opções de framework, como PyTorch e JAX. Para saber mais, veja:
- Comece a usar o Gemma com o Keras.
- Comece a usar o Gemma com o PyTorch.
- Ajuste básico com o Gemma usando o Keras.
- Ajuste distribuído com o Gemma usando o Keras.
Tamanhos e recursos de modelos Gemma
Os modelos Gemma estão disponíveis em vários tamanhos para que você possa criar soluções de IA generativa com base nos seus recursos de computação disponíveis, nos recursos necessários e onde quer executá-los. Cada modelo está disponível em uma versão ajustada e uma não ajustada:
Pré-treinado: essa versão do modelo não foi treinada em tarefas ou instruções específicas além do conjunto de treinamento de dados principais do Gemma. Não recomendamos usar esse modelo sem realizar alguns ajustes.
Ajuste por instruções: essa versão do modelo foi treinada com interações de linguagem humana para participar de uma conversa, de maneira semelhante a um simples chatbot.
Se você precisar escolher entre a Gemma 2B e a Gemma 7B, considere a Gemma 2B. Os tamanhos de parâmetro menores do Gemma 2B significam que ele tem requisitos de recursos menores e mais flexibilidade de implantação do que o Gemma 7B.
Nome do modelo | Tamanho dos parâmetros | Entrada | Saída | Versões ajustadas | Plataformas pretendidas |
---|---|---|---|---|---|
Gemma 2B | 2,2 bilhões | Texto | Texto |
|
Dispositivos móveis e laptops |
Gemma 7B | 7 bilhões | Texto | Texto |
|
Computadores desktop e pequenos servidores |
CodeGemma 2B | 2 bilhões | Texto | Texto |
|
Computadores desktop e pequenos servidores |
CodeGemma 7B | 7 bilhões | Texto | Texto |
|
Computadores desktop e pequenos servidores |
A Gemma foi testada usando o hardware de TPU v5e desenvolvido pelo Google e o hardware de GPU L4(padrão G2), A100(padrão A2) e H100(padrão A3) da NVIDIA.