O ambiente de execução otimizado do TensorFlow otimiza modelos para inferência mais rápida e mais barata do que contêineres pré-criados do TensorFlow com código aberto. O ambiente de execução otimizado do TensorFlow faz isso usando as tecnologias reservadas e de código aberto do Google.
Quanto maior for um modelo de machine learning (ML), maior poderá ser o custo de disponibilização dele. Com o ambiente de execução otimizado do TensorFlow, o custo de veiculação do modelo de ML e a velocidade de inferência podem ser menores em comparação com um ambiente de execução do TensorFlow baseado em código aberto. Para aproveitar o ambiente de execução otimizado do TensorFlow ao usar a previsão da Vertex AI, não é necessário modificar o código. Em vez disso, escolha uma imagem de contêiner de exibição que a use.
O ambiente de execução otimizado do TensorFlow é compatível com versões anteriores dos contêineres pré-criados do TensorFlow Serving. Se você estiver executando modelos do TensorFlow com um contêiner pré-criado, você poderá alternar para um contêiner de ambiente de execução otimizado do TensorFlow com o mínimo de esforço.
Embora o desempenho do seu modelo melhore quando você usa o ambiente de execução otimizado do TensorFlow, o impacto esperado no desempenho pode variar para diferentes tipos de modelos.
Visão geral do ambiente de execução otimizado do TensorFlow
O ambiente de execução otimizado do TensorFlow usa otimizações de modelo e novas tecnologias proprietárias do Google para aumentar a velocidade e reduzir o custo de inferência em comparação com contêineres pré-criados do TensorFlow Serving de código aberto.
A otimização ocorre quando a Vertex AI faz upload de um modelo antes de ele ser executado. Depois de implantar um modelo em um endpoint, o registro de otimização é adicionado ao registro de previsão. Use esses registros para solucionar problemas que podem ocorrer durante a otimização.
Os tópicos a seguir descrevem as melhorias de otimização no ambiente de execução otimizado do TensorFlow.
Otimizações de modelo
As três otimizações de modelo a seguir estão incluídas no ambiente de execução otimizado do TensorFlow.
Pré-compilação de modelo XLA
Quando um modelo do TensorFlow é executado, todas as operações são executadas individualmente. Há uma pequena sobrecarga ao executar operações individuais. O ambiente de execução otimizado do TensorFlow pode remover parte dessa sobrecarga aproveitando o XLA para pré-compilar todo ou parte do gráfico do TensorFlow em kernels maiores.
A pré-compilação do modelo XLA é opcional e desativada por padrão. Para saber como ativar a pré-compilação do modelo XLA durante uma implantação, consulte Ativar a pré-compilação do modelo XLA.
Otimizações de compactação de modelos
O ambiente de execução otimizado do TensorFlow pode executar alguns modelos mais rapidamente com um pequeno impacto na precisão, permitindo a otimização da compactação do modelo. Quando a otimização de compactação de modelo está ativada, o ambiente de execução otimizado do TensorFlow utiliza técnicas como quantização e remoção de peso para executar modelos mais rapidamente.
O recurso de otimização de compactação de modelo fica desativado por padrão. Para saber como ativar a otimização de compactação de modelos durante uma implantação, consulte Ativar otimização de compactação de modelos.
Desempenho de modelos tabulares aprimorados em GPUs
Os modelos tabulares do TensorFlow geralmente são exibidos em CPUs porque não podem utilizar aceleradores de maneira eficaz. O ambiente de execução otimizado do TensorFlow resolve isso executando partes de computação do modelo em GPUs. O restante do modelo é executado em CPUs, minimizando a comunicação entre o host e o acelerador. Executar as partes caras do modelo em GPUs e o restante em CPUs torna a disponibilização de modelos tabulares mais rápida e barata.
O ambiente de execução otimizado do TensorFlow otimiza a veiculação dos seguintes tipos de modelos tabulares.
- Modelos tabulares do Keras
- Modelos de estimador tabular e de ampliação e profundidade (descontinuados)
Otimização automática de modelos para o Cloud TPU
Os contêineres de ambiente de execução otimizados e pré-criados do TensorFlow que são compatíveis com Cloud TPUs podem particionar e otimizar automaticamente os modelos para execução em TPUs. Para mais informações, consulte Implantar na Cloud TPU.
Uso do ambiente de execução do TensorFlow (TFRT)
O ambiente de execução otimizado do TensorFlow pode usar o TensorFlow Runtime (TFRT). O TFRT usa CPUs de host com várias linhas de execução, é compatível com modelos de programação assíncrona e está otimizado para eficiência de baixo nível.
A CPU do TFRT é ativada em todas as imagens de contêiner de CPU do ambiente de execução otimizado do TensorFlow, exceto a versão 2.8. Para desativar a CPU do TFRT, defina a flag use_tfrt
como false
.
A GPU TFRT está disponível em imagens de contêiner de GPU de ambiente de execução do TensorFlow otimizadas para noites e imagens de contêiner de GPU de ambiente de execução do TensorFlow otimizadas para versões 2.13 e posteriores. Para ativar a GPU TFRT,
defina as flags use_tfrt
e allow_precompilation
como true
.
O TFRT em uma imagem de contêiner de GPU minimiza a sobrecarga de transferência de dados entre a CPU host e a GPU. Depois que você ativa o TFRT, ele trabalha com a compilação de XLA. Como a pré-compilação de XLA está ativada, é possível que você tenha alguns efeitos colaterais, como maior latência na primeira solicitação.
Para mais informações, consulte Ativar pré-compilação de XLA de modelo.
Uso do ambiente de execução do Google
Como o ambiente de execução otimizado do TensorFlow é criado usando a camada interna do Google, ele pode aproveitar a execução no ambiente de execução reservado do Google.
Imagens de contêiner do ambiente de execução otimizado do TensorFlow
O Vertex AI Prediction oferece dois tipos de imagens otimizadas de contêiner de ambiente de execução do TensorFlow: estável e noturna.
Imagens de contêiner estáveis
Os contêineres estáveis do ambiente de execução otimizado do TensorFlow estão vinculados a uma versão específica do TensorFlow, assim como os contêineres pré-criados do TensorFlow Serving baseados em código aberto. Os contêineres otimizados do ambiente de execução do TensorFlow vinculados a uma versão específica são mantidos pela mesma duração da versão de código aberto vinculada à mesma versão. As versões do ambiente de execução otimizado do TensorFlow têm as mesmas propriedades que as versões de código aberto do TensorFlow, mas com inferência mais rápida.
Os modelos de criação são compatíveis com versões anteriores. Isso significa que é possível executar modelos treinados em versões mais antigas do TensorFlow usando um contêiner mais recente. Os contêineres recentes precisam ter um desempenho melhor do que os mais antigos. Em raras exceções, um modelo treinado em uma versão mais antiga do TensorFlow pode não funcionar com um contêiner mais recente.
Imagens de contêineres noturnos
Os builds do ambiente de execução do TensorFlow otimizados à noite incluem as melhorias e otimizações mais recentes,
mas talvez não sejam tão confiáveis quanto os builds estáveis. Eles são usados principalmente para
fins experimentais. Os nomes das versões noturnas incluem o identificador nightly
. Ao contrário
das imagens de contêiner estáveis, os contêineres noturnos não são cobertos pelo
Contrato de nível de serviço (SLA) da
Vertex AI.
Imagens de contêiner disponíveis
As seguintes imagens de contêiner estável e noturno do Docker do ambiente de execução otimizado do TensorFlow estão disponíveis.
Versão do framework de MLs | Aceleradores compatíveis (e a versão CUDA, se aplicável) | Fim do patch e da data de suporte | Fim da disponibilidade | Imagens compatíveis |
---|---|---|---|---|
noturno | Somente CPU | Não relevante | Não relevante |
|
noturno | GPU (CUDA 12.x) | Não relevante | Não relevante |
|
noturno | Cloud TPU | Não relevante | Não relevante |
|
2,16 | Somente CPU | 26 de abril de 2024 | 26 de abril de 2025 |
|
2,16 | GPU (CUDA 12.x) | 26 de abril de 2024 | 26 de abril de 2025 |
|
2,16 | Cloud TPU | 26 de abril de 2024 | 26 de abril de 2025 |
|
2.15 | Somente CPU | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2.15 | GPU (CUDA 12.x) | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2.15 | Cloud TPU | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2.14 | Somente CPU | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2.14 | GPU (CUDA 12.x) | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2,13 | Somente CPU | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2,13 | GPU (CUDA 11.x) | 15 de agosto de 2024 | 15 de agosto de 2025 |
|
2,12 | Somente CPU | 15 de maio de 2024 | 15 de maio de 2025 |
|
2,12 | GPU (CUDA 11.x) | 15 de maio de 2024 | 15 de maio de 2025 |
|
2.11 | Somente CPU | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.11 | GPU (CUDA 11.x) | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.10 | Somente CPU | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.10 | GPU (CUDA 11.x) | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.9 | Somente CPU | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.9 | GPU (CUDA 11.x) | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.8 | Somente CPU | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
2.8 | GPU (CUDA 11.x) | 15 de novembro de 2023 | 15 de novembro de 2024 |
|
Usar o ambiente de execução otimizado do TensorFlow com um endpoint particular
O uso de endpoints particulares para exibir previsões on-line com a Vertex AI oferece uma conexão segura e de baixa latência ao serviço de previsão on-line da Vertex AI mais rápido do que usar endpoints públicos. O ambiente de execução otimizado do TensorFlow provavelmente veicula modelos sensíveis à latência. Por isso, considere usá-lo com endpoints particulares. Para mais informações, consulte Usar endpoints particulares para previsão on-line.
Implantar um modelo usando o ambiente de execução otimizado do TensorFlow
O processo de implantação de um modelo para previsão usando o ambiente de execução otimizado do TensorFlow é quase
igual ao de implantação de modelos usando
contêineres pré-criados do TensorFlow Serving com base em código aberto. As únicas diferenças são que você especifica uma imagem de contêiner que usa o ambiente de execução otimizado do TensorFlow ao criar seu modelo. É possível ativar as sinalizações de otimização descritas anteriormente neste tópico. Por exemplo, se você tiver implantado seu modelo com o contêiner us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-8:latest
, será possível exibir o mesmo modelo com o ambiente de execução otimizado do TensorFlow usando o contêiner us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-8:latest
.
O exemplo de código a seguir mostra como criar um modelo com o contêiner otimizado do ambiente de execução do TensorFlow us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest
. Para implantar esse modelo, use o mesmo processo utilizado para implantar um modelo com outros contêineres pré-criados do TensorFlow Serving.
Para mais informações sobre o ModelServiceClient
usado neste exemplo, consulte
Class ModelServiceClient.
Para mais informações sobre como implantar modelos usando a Vertex AI, consulte
Implantar um modelo usando a API Vertex AI.
Para mais informações sobre as configurações de allow_precompilation
e allow_compression
, consulte as
Otimizações de modelo descritas anteriormente neste tópico.
from google.cloud.aiplatform import gapic as aip PROJECT_ID = PROJECT_ID REGION = LOCATION API_ENDPOINT = f"{REGION}-aiplatform.googleapis.com" PARENT = f"projects/{PROJECT_ID}/locations/{REGION}" client_options = {"api_endpoint": API_ENDPOINT} model_service_client = aip.ModelServiceClient(client_options=client_options) tf_opt_model_dict = { "display_name": "DISPLAY_NAME", "metadata_schema_uri": "", "artifact_uri": "MODEL_URI", "container_spec": { "image_uri": "us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest", "args": [ # The optimized TensorFlow runtime includes the following # options that can be set here. # "--allow_precompilation=true" - enable XLA precompilation # "--allow_compression=true" - enable # model compression optimization ], }, } tf_opt_model = model_service_client.upload_model( parent=PARENT, model=tf_opt_model_dict).result(timeout=180).model
Sinalizações de otimização de modelo
Ao implantar um modelo usando o ambiente de execução otimizado do TensorFlow, é possível ativar dois recursos que podem otimizar ainda mais a exibição de modelos do TensorFlow.
É possível ativar a pré-compilação do modelo XLA e a otimização da compactação de modelos ao mesmo tempo. Os tópicos a seguir descrevem como ativar essas opções usando sinalizações durante a implantação.
Ativar a pré-compilação do XLA do modelo
Para configurar o ambiente de execução otimizado do TensorFlow para pré-compilar modelos, defina a sinalização allow_precompilation
como true
. A pré-compilação de modelo XLA funciona para diferentes tipos de modelos e,
na maioria dos casos, melhora o desempenho. A pré-compilação do XLA funciona melhor para solicitações com
tamanhos de lote grandes.
A pré-compilação de modelo XLA acontece quando a primeira solicitação com o novo tamanho do lote chega. Para garantir que o ambiente de execução seja inicializado antes da primeira solicitação, inclua um arquivo de solicitações de aquecimento. Para mais informações, consulte Aquecimento do SavedModel, no site do TensorFlow.
A pré-compilação XLA leva vários segundos e vários minutos para ser concluída, dependendo da complexidade do modelo. Se você usar a pré-compilação de modelo XLA, considere o seguinte.
Se você usar um arquivo de aquecimento, tente incluir solicitações com tamanhos de lotes que representem os tamanhos de lotes que você espera que seu modelo receba. Fornecer um grande número de solicitações no arquivo de aquecimento torna a inicialização do servidor do modelo mais lenta.
Se você espera que seu modelo receba solicitações com diferentes tamanhos de lotes, convém ativar os lotes do lado do servidor com um conjunto de valores fixos para
allow_batch_sizes
. Para mais informações sobre como ativar do lado do servidorservidor, consulte Ativar processamento de lotes de solicitações do lado do servidor para o Tensorflow no site do Tensorflow.
Como a pré-compilação XLA adiciona sobrecarga à memória, alguns modelos grandes podem falhar com um erro de falta de memória na GPU.
É recomendável testar a pré-compilação XLA no seu modelo antes de ativar esse recurso na produção.
Ativar a otimização de compactação de modelo
Para configurar o ambiente de execução otimizado do TensorFlow para usar a otimização de compactação de modelos,
defina o flag allow_compression
como true
. Teste como a ativação desse flag afeta
a precisão do modelo e determine se você quer ativá-la na produção.
Desativar otimizações
Para configurar o ambiente de execução otimizado do TensorFlow para executar modelos sem otimização,
defina o flag disable_optimizer
como true
.
Limites otimizados de ambiente de execução do TensorFlow
O ambiente de execução otimizado do TensorFlow tem as seguintes limitações:
- O ambiente de execução otimizado do TensorFlow não é compatível com GPUs NVIDIA mais antigas, como Tesla K80, Tesla P4 e Tesla P100.
- No momento, o ambiente de execução otimizado do TensorFlow oferece suporte apenas para a explicação da amostragem do Shapely.
Preços
A implantação de modelos usando o ambiente de execução otimizado do TensorFlow não inclui cobranças extras. É igual a outras implantações de previsão em que você é cobrado com base no número de VMs e aceleradores usados. Para mais informações, consulte Preços da Vertex AI.