A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Implantar modelos com pesos personalizados

A implantação de modelos com pesos personalizados é uma oferta em prévia. É possível ajustar modelos com base em um conjunto predefinido de modelos básicos e implantar os modelos personalizados no Model Garden da Vertex AI. É possível implantar seus modelos personalizados usando a importação de ponderações personalizadas. Para isso, faça upload dos artefatos do modelo para um bucket do Cloud Storage no seu projeto. Essa é uma experiência de um clique na Vertex AI.

Modelos compatíveis

O pré-lançamento público de Implantar modelos com ponderações personalizadas é compatível com os seguintes modelos de base:

Nome do modelo	Versão
Llama	Llama-2: 7B, 13B Llama-3.1: 8B, 70B Llama-3.2: 1B, 3B Llama-4: Scout-17B, Maverick-17B CodeLlama-13B
Gemma	Gemma-2: 27B Gemma-3: 1B, 4B, 3-12B, 27B Medgemma: 4B, 27B-text
Qwen	Qwen2: 1,5 bilhão Qwen2.5: 0,5B, 1,5B, 7B, 32B Qwen3: 0,6 B, 1,7 B, 8 B, 32 B, Qwen3-Coder-480B-A35B-Instruct
Deepseek	Deepseek-R1 Deepseek-V3
Mistral e Mixtral	Mistral-7B-v0.1 Mixtral-8x7B-v0.1 Mistral-Nemo-Base-2407
Phi-4	Phi-4-reasoning
OSS da OpenAI	gpt-oss: 20B, 120B

Limitações

As ponderações personalizadas não são compatíveis com a importação de modelos quantizados.

Arquivos de modelo

Você precisa fornecer os arquivos do modelo no formato de pesos do Hugging Face. Para mais informações sobre o formato de pesos do Hugging Face, consulte Usar modelos do Hugging Face.

Se os arquivos necessários não forem fornecidos, a implantação do modelo poderá falhar.

Esta tabela lista os tipos de arquivos de modelo, que dependem da arquitetura do modelo:

Conteúdo do arquivo do modelo	Tipo de arquivo
Configuração do modelo	`config.json`
Pesos do modelo	`.safetensors` `.bin`
Índice de pesos	`*.index.json`
Arquivos do tokenizador	`tokenizer.model` `tokenizer.json` `tokenizer_config.json`

Locais

É possível implantar modelos personalizados em todas as regiões usando os serviços do Model Garden.

Pré-requisitos

Esta seção demonstra como implantar seu modelo personalizado.

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

Neste tutorial, presumimos que você esteja usando o Cloud Shell para interagir com Google Cloud. Se você quiser usar um shell diferente em vez do Cloud Shell, execute a seguinte configuração extra:

Install the Google Cloud CLI.
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
To initialize the gcloud CLI, run the following command:
```
gcloud init
```

Implantar o modelo personalizado

Esta seção demonstra como implantar seu modelo personalizado.

Se você estiver usando a interface de linha de comando (CLI), Python ou JavaScript, substitua as seguintes variáveis por um valor para que os exemplos de código funcionem:

REGION: sua região. Por exemplo, uscentral1.
MODEL_GCS: seu modelo Google Cloud . Por exemplo, gs://custom-weights-fishfooding/meta-llama/Llama-3.2-1B-Instruct.
PROJECT_ID: o ID do projeto.
MODEL_ID: o ID do modelo.
MACHINE_TYPE: o tipo de máquina. Por exemplo, g2-standard-12.
ACCELERATOR_TYPE: o tipo de acelerador. Por exemplo, NVIDIA_L4.
ACCELERATOR_COUNT: a contagem de aceleradores.
PROMPT: seu comando de texto.

Console

As etapas a seguir mostram como usar o console do Google Cloud para implantar seu modelo com ponderações personalizadas.

No console Google Cloud , acesse a página Model Garden.

Acessar o Model Garden
Clique em Implantar modelo com ponderações personalizadas. O painel Implantar um modelo com pesos personalizados na Vertex AI vai aparecer.
Na seção Origem do modelo, faça o seguinte:
1. Clique em Procurar, escolha o bucket em que o modelo está armazenado e clique em Selecionar.
2. Opcional: insira o nome do modelo no campo Nome do modelo.
Na seção Configurações de implantação, faça o seguinte:
1. No campo Região, selecione sua região e clique em OK.
2. No campo Especificação da máquina, selecione a especificação da máquina, que é usada para implantar o modelo.
3. Opcional: no campo Nome do endpoint, o endpoint do modelo aparece por padrão. No entanto, é possível inserir um nome de endpoint diferente no campo.
Clique em Implantar modelo com ponderações personalizadas.

CLI da gcloud

Este comando demonstra como implantar o modelo em uma região específica.

gcloud ai model-garden models deploy --model=${MODEL_GCS} --region ${REGION}

Esse comando demonstra como implantar o modelo em uma região específica com o tipo de máquina, o tipo de acelerador e a contagem de aceleradores. Se quiser selecionar uma configuração de máquina específica, defina todos os três campos.

gcloud ai model-garden models deploy --model=${MODEL_GCS} --machine-type=${MACHINE_TYE} --accelerator-type=${ACCELERATOR_TYPE} --accelerator-count=${ACCELERATOR_COUNT} --region ${REGION}

Python

import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden

vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
  gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy(
  machine_type="${MACHINE_TYPE}",
  accelerator_type="${ACCELERATOR_TYPE}",
  accelerator_count="${ACCELERATOR_COUNT}",
  model_display_name="custom-model",
  endpoint_display_name="custom-model-endpoint")

endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)

Como alternativa, não é necessário transmitir um parâmetro para o método custom_model.deploy().

import vertexai
from google.cloud import aiplatform
from vertexai.preview import model_garden

vertexai.init(project=${PROJECT_ID}, location=${REGION})
custom_model = model_garden.CustomModel(
  gcs_uri=GCS_URI,
)
endpoint = custom_model.deploy()

endpoint.predict(instances=[{"prompt": "${PROMPT}"}], use_dedicated_endpoint=True)

curl


curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
  -d '{
    "custom_model": {
    "gcs_uri": "'"${MODEL_GCS}"'"
  },
  "destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
  "model_config": {
     "model_user_id": "'"${MODEL_ID}"'",
  },
}'

Como alternativa, use a API para definir explicitamente o tipo de máquina.


curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:deploy" \
  -d '{
    "custom_model": {
    "gcs_uri": "'"${MODEL_GCS}"'"
  },
  "destination": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'",
  "model_config": {
     "model_user_id": "'"${MODEL_ID}"'",
  },
  "deploy_config": {
    "dedicated_resources": {
      "machine_spec": {
        "machine_type": "'"${MACHINE_TYPE}"'",
        "accelerator_type": "'"${ACCELERATOR_TYPE}"'",
        "accelerator_count": '"${ACCELERATOR_COUNT}"'
      },
      "min_replica_count": 1
    }
  }
}'

Saiba mais sobre modelos autônomos na Vertex AI

Para mais informações sobre modelos autônomos, consulte Visão geral dos modelos autônomos.
Para mais informações sobre o Model Garden, consulte Visão geral do Model Garden.
Para mais informações sobre a implantação de modelos, consulte Usar modelos no Model Garden.
Usar modelos abertos do Gemma
Usar modelos abertos de Llama
Usar modelos abertos do Hugging Face

Implantar modelos com pesos personalizados Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos compatíveis

Limitações

Arquivos de modelo

Locais

Pré-requisitos

Antes de começar

Implantar o modelo personalizado

Console

CLI da gcloud

Python

curl

Saiba mais sobre modelos autônomos na Vertex AI

Implantar modelos com pesos personalizados