Esta página foi traduzida pela API Cloud Translation.

Implantar um modelo nas VMs do Cloud TPU

Google Cloud fornece acesso a aceleradores de machine learning personalizados, chamados Unidades de Processamento de Tensor (TPUs). As TPUs são otimizadas para acelerar o treinamento e a inferência de modelos de machine learning, o que as torna ideais para uma variedade de aplicativos, como processamento de linguagem natural, visão computacional e reconhecimento de fala.

Nesta página, você vai aprender a implantar modelos em um host único do Cloud TPU v5e ou v6e para inferência on-line na Vertex AI.

Só há suporte para o Cloud TPU v5e e v6e. Outras gerações do Cloud TPU não são compatíveis.

Para saber em quais locais as versões v5e e v6e do Cloud TPU estão disponíveis, consulte locais.

Importar o modelo

Para a implantação em Cloud TPUs, é preciso importar o modelo para a Vertex AI e configurá-lo a fim de usar um dos seguintes contêineres:

Contêiner de ambiente de execução otimizado e predefinido do TensorFlow versão nightly, versão 2.15 ou uma versão mais recente
Contêiner predefinido de TPU PyTorch versão 2.1 ou uma versão mais recente
Contêiner personalizado próprio com suporte para TPUs

Contêiner de ambiente de execução otimizado e predefinido do TensorFlow

Para importar e executar um TensorFlow SavedModel em um Cloud TPU, o modelo precisa ser otimizado para TPU. Se o SavedModel do TensorFlow ainda não está otimizado para TPU, há três maneiras de otimizar o modelo:

Otimização manual do modelo: use o conversor de inferência para otimizar e salvar o modelo. Em seguida, transmita as flags --saved_model_tags='serve,tpu' e --disable_optimizer=true ao upload o modelo. Por exemplo:

model = aiplatform.Model.upload(
    display_name='Manually optimized model',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
    serving_container_args=[
        "--saved_model_tags=serve,tpu",
        "--disable_optimizer=true",
    ]
)

Otimização automática do modelo com particionamento automático: quando você importa um modelo, a Vertex AI tenta otimizar esse modelo não otimizado usando um algoritmo de particionamento automático. Essa otimização não funciona em todos os modelos. Se a otimização falhar, otimize manualmente o modelo ou escolha a otimização automática com particionamento manual. Por exemplo:
```
model = aiplatform.Model.upload(
    display_name='TPU optimized model with automatic partitioning',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
    serving_container_args=[
    ]
)
```

Otimização automática do modelo com particionamento manual. Especifique a flag --converter_options_string e ajuste o ConverterOptions.TpuFunction de acordo com suas necessidades. Para um exemplo, consulte Converter uma imagem. Observe que só há suporte para ConverterOptions.TpuFunction, que é tudo o que é necessário para o particionamento manual. Exemplo:

model = aiplatform.Model.upload(
display_name='TPU optimized model with manual partitioning',
  artifact_uri="gs://model-artifact-uri",
  serving_container_image_uri="us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest",
  serving_container_args=[
      "--converter_options_string='tpu_functions { function_alias: \"partitioning function name\" }'"
  ]
)

Para mais informações sobre como importar modelos, consulte Como importar modelos para a Vertex AI.

Contêiner PyTorch predefinido

As instruções para importar e executar um modelo PyTorch no Cloud TPU são iguais às seguidas para importar e executar um modelo PyTorch.

Por exemplo, a inferência do TorchServe para Cloud TPU v5e demonstra como empacotar o modelo Densenet 161 em artefatos de modelo usando o arquivador de modelo do Torch.

Em seguida, faça o upload dos artefatos do modelo para a pasta do Cloud Storage e do modelo conforme abaixo:

model = aiplatform.Model.upload(
    display_name='DenseNet TPU model from SDK PyTorch 2.1',
    artifact_uri="gs://model-artifact-uri",
    serving_container_image_uri="us-docker.pkg.dev/vertex-ai/prediction/pytorch-tpu.2-1:latest",
    serving_container_args=[],
    serving_container_predict_route="/predictions/model",
    serving_container_health_route="/ping",
    serving_container_ports=[8080]
)

Para mais informações, consulte Exportar artefatos de modelo para o PyTorch e o notebook tutorial para Exibir um modelo do PyTorch usando um contêiner pré-criado.

Contêiner personalizado

No caso de contêineres personalizados, o modelo não precisa ser do TensorFlow, mas precisa ser otimizado para TPU. Para informações sobre como produzir um modelo otimizado para TPU, consulte os seguintes guias de frameworks de ML comuns:

Para informações sobre a exibição de modelos treinados com JAX, TensorFlow ou PyTorch no Cloud TPU v5e, consulte Inferência do Cloud TPU v5e.

Verifique se o contêiner personalizado atende aos requisitos de contêiner personalizado.

É preciso aumentar o limite de memória bloqueada para que o driver possa se comunicar com os chips de TPU por acesso direto à memória (DMA). Por exemplo:

Linha de comando

ulimit -l 68719476736

Python

import resource

resource.setrlimit(
    resource.RLIMIT_MEMLOCK,
    (
        68_719_476_736_000,  # soft limit
        68_719_476_736_000,  # hard limit
    ),
  )

Em seguida, consulte Usar um contêiner personalizado para inferência a fim de conferir informações sobre como importar um modelo com um contêiner personalizado. Para implementar a lógica de pré ou pós-processamento, use Rotinas de inferência personalizadas.

Crie um endpoint

As instruções para criar um endpoint para Cloud TPUs são iguais às seguidas a fim de criar qualquer endpoint.

Por exemplo, o seguinte comando cria um recurso endpoint:

endpoint = aiplatform.Endpoint.create(display_name='My endpoint')

A resposta contém o ID do novo endpoint, que você vai usar nas próximas etapas.

Para mais informações sobre como criar um endpoint, consulte Implantar um modelo em um endpoint.

Implantar um modelo

As instruções para implantar um modelo em Cloud TPUs são iguais às seguidas com qualquer modelo, com a exceção de que é preciso especificar um dos seguintes tipos de máquina do Cloud TPU com suporte:

Tipo de máquina	Número de chips do TPU
`ct6e-standard-1t`	1
`ct6e-standard-4t`	4
`ct6e-standard-8t`	8
`ct5lp-hightpu-1t`	1
`ct5lp-hightpu-4t`	4
`ct5lp-hightpu-8t`	8

Os aceleradores de TPU são integrados ao tipo de máquina. Você não precisa especificar o tipo ou a contagem de aceleradores.

Por exemplo, o seguinte comando implanta um modelo chamando deployModel:

machine_type = 'ct5lp-hightpu-1t'

deployed_model = model.deploy(
    endpoint=endpoint,
    deployed_model_display_name='My deployed model',
    machine_type=machine_type,
    traffic_percentage=100,
    min_replica_count=1
    sync=True,
)

Para mais informações, consulte Implantar um modelo em um endpoint.

Receber inferências on-line

A instrução para receber inferências on-line de um Cloud TPU é igual à seguida para receber inferências on-line.

Por exemplo, o comando a seguir envia uma solicitação de inferência on-line chamando predict:

deployed_model.predict(...)

Para contêineres personalizados, consulte os requisitos de solicitação e resposta de inferência para contêineres personalizados.

Como garantir a capacidade

Na maioria das regiões, a TPU v5e and v6e cores per region cota para veiculação de modelos personalizados é 0. Em algumas regiões, ele é limitado.

Para solicitar um aumento de cota, consulte Solicitar um ajuste de cota.

Preços

Os tipos de máquina de TPU são cobrados por hora, assim como todos os outros tipos de máquina na Vertex Prediction. Para mais informações, consulte Preços da previsão.

A seguir

Saiba como receber uma inferência on-line.