O que é uma carga de trabalho de IA?

Uma carga de trabalho de IA é o conjunto de tarefas e processos computacionais que alimentam sistemas de inteligência artificial ou machine learning (ML). Pense nisso como a computação pesada necessária para que um aplicativo de IA aprenda, faça previsões ou gere novos conteúdos. Essas cargas de trabalho podem ser essenciais para profissionais que criam IA, porque abrangem as principais etapas que impulsionam os sistemas de machine learning: preparação de dados, treinamento de modelos, inferência e monitoramento.

Opções de orquestração de cargas de trabalho de IA

Tipos de cargas de trabalho de IA

As cargas de trabalho de IA e ML podem ser amplamente categorizadas de duas maneiras

Entender esses tipos ajuda os responsáveis pelas decisões técnicas a planejar a infraestrutura, a capacidade de computação e as estratégias de orquestração específicas que cada um exige.

Tipo de carga de trabalho de IA

Função principal no ciclo de vida da IA

Foco computacional necessário

Preparação de dados


Limpar, transformar e formatar dados brutos para que estejam prontos para o modelo.

Alto uso de E/S (entrada/saída) e processamento intenso de CPU para manipulação de dados.

Treinamento de modelo

Usar dados preparados para ensinar o modelo de IA, ajustando os parâmetros de maneira iterativa para garantir a acurácia.

Poder de computação extremo (GPUs/TPUs), alta memória e processamento paralelo.

Inferência de modelo

Implantar o modelo treinado para fazer previsões em tempo real ou gerar saídas com base em novos dados.

Baixa latência e alta capacidade de processamento, geralmente exigindo hardware de nuvem ou de borda especializado.

IA generativa

Criação de novos conteúdos, como texto, imagens ou código, usando grandes modelos de fundação.

Inferência e ajuste de detalhes em grande escala, exigindo GPUs/TPUs de ponta.

Visão computacional


Permitir que as máquinas interpretem e atuem com base em dados visuais, como imagens e vídeos.

Alto volume de capacidade de processamento de dados e aceleração especializada de aprendizado profundo.

Processamento de linguagem natural (PLN)

Processar e entender a linguagem humana para tarefas como tradução e resumo.

Uma combinação de treinamento acelerado por GPU e disponibilização de baixa latência para aplicativos em tempo real.

Tipo de carga de trabalho de IA

Função principal no ciclo de vida da IA

Foco computacional necessário

Preparação de dados


Limpar, transformar e formatar dados brutos para que estejam prontos para o modelo.

Alto uso de E/S (entrada/saída) e processamento intenso de CPU para manipulação de dados.

Treinamento de modelo

Usar dados preparados para ensinar o modelo de IA, ajustando os parâmetros de maneira iterativa para garantir a acurácia.

Poder de computação extremo (GPUs/TPUs), alta memória e processamento paralelo.

Inferência de modelo

Implantar o modelo treinado para fazer previsões em tempo real ou gerar saídas com base em novos dados.

Baixa latência e alta capacidade de processamento, geralmente exigindo hardware de nuvem ou de borda especializado.

IA generativa

Criação de novos conteúdos, como texto, imagens ou código, usando grandes modelos de fundação.

Inferência e ajuste de detalhes em grande escala, exigindo GPUs/TPUs de ponta.

Visão computacional


Permitir que as máquinas interpretem e atuem com base em dados visuais, como imagens e vídeos.

Alto volume de capacidade de processamento de dados e aceleração especializada de aprendizado profundo.

Processamento de linguagem natural (PLN)

Processar e entender a linguagem humana para tarefas como tradução e resumo.

Uma combinação de treinamento acelerado por GPU e disponibilização de baixa latência para aplicativos em tempo real.

Perguntas frequentes sobre cargas de trabalho de IA

As cargas de trabalho de IA são caracterizadas principalmente por serem intensivas em dados, processando conjuntos de dados massivos e muitas vezes não estruturados, e intensivas em computação, exigindo hardware de processamento paralelo especializado, como GPUs para treinamento. Cargas de trabalho tradicionais, como bancos de dados relacionais ou servidores da Web simples, são mais focadas na capacidade de processamento transacional consistente e geralmente são otimizadas para arquiteturas de CPU padrão.

Você escolhe cargas de trabalho de treinamento quando precisa criar um novo modelo ou melhorar significativamente um modelo atual alimentando-o com novos dados, o que pode exigir alto custo e alto poder de computação.

Você usa cargas de trabalho de inferência quando o modelo está pronto e implantado na produção e precisa que ele faça previsões em tempo real ou em lote, que priorizam baixa latência e alta capacidade de processamento a um custo menor por transação.

Os maiores desafios normalmente envolvem a orquestração, que é a coordenação eficiente de grandes clusters de GPUs e TPUs; o gerenciamento de dados, que é garantir acesso rápido e confiável a petabytes de dados; e o controle de custos, que é gerenciar o consumo de recursos de computação caros para evitar gastos excessivos em infraestrutura ociosa.

As tendências emergentes incluem o uso de plataformas sem servidor com suporte a GPU para abstrair o gerenciamento de infraestrutura, a adoção de orquestração multicloud para utilização flexível de recursos e o aproveitamento de modelos de fundação que exigem menos treinamento do zero e se concentram mais no ajuste detalhado e na disponibilização eficiente.

Casos de uso comuns para cargas de trabalho de IA

As cargas de trabalho de IA estão no centro da transformação digital, oferecendo aplicativos de alto impacto e do mundo real em quase todos os setores, transformando dados em valor prático.

Experiências personalizadas para os clientes.

As cargas de trabalho de IA podem alimentar mecanismos de recomendação para empresas de varejo, e-commerce e mídia. Por exemplo, uma empresa de streaming usa um modelo de ML sofisticado, treinado com bilhões de hábitos de visualização, para fornecer sugestões de conteúdo altamente personalizadas.

Manutenção preditiva na fabricação

Os fabricantes implantam sensores em equipamentos essenciais, gerando grandes quantidades de dados de série temporal. As cargas de trabalho de IA podem analisar continuamente esses dados para prever falhas mecânicas com dias ou semanas de antecedência, permitindo a manutenção programada.

Detecção de fraudes e análise de riscos financeiros

As instituições financeiras usam cargas de trabalho de machine learning para analisar milhões de transações em tempo real. Esses modelos podem identificar padrões indicativos de fraude, e alguns sistemas detectam transações não autorizadas com um alto grau de precisão e baixa taxa de falsos positivos.

Imagens e diagnósticos na área da saúde

As cargas de trabalho de visão computacional são usadas para analisar imagens médicas, como raios X, tomografias computadorizadas e ressonâncias magnéticas. Esses modelos de IA podem sinalizar possíveis anomalias, como tumores em estágio inicial, geralmente com velocidade e consistência que ajudam os médicos a fazer diagnósticos mais rápidos e precisos.

IA generativa e produção de conteúdo

As cargas de trabalho baseadas em modelos de IA generativa estão ajudando a transformar campos criativos e técnicos. Eles são usados para gerar automaticamente textos de marketing, sintetizar imagens realistas para publicidade, criar resumos de reuniões virtuais ou até mesmo ajudar desenvolvedores sugerindo e completando blocos de código.

Implementar cargas de trabalho de IA no Google Cloud

O Google Cloud oferece um ecossistema unificado e poderoso criado na infraestrutura que impulsiona os próprios avanços de IA do Google, o que o torna uma plataforma ideal para hospedar, escalonar, orquestrar e governar suas cargas de trabalho de IA e ML.

A Vertex AI é uma plataforma unificada de machine learning que reúne todos os serviços de nuvem para criar, implantar e escalonar modelos de ML. Ele pode fornecer um ambiente único para todo o ciclo de vida de MLOps, permitindo que cientistas e engenheiros de dados se concentrem no desenvolvimento de modelos em vez da integração de ferramentas.

O Google Cloud oferece uma ampla variedade de opções de computação, incluindo Cloud TPU e Cloud GPU. As TPUs do Cloud (unidades de processamento de tensor) são criadas especificamente para fornecer modelos de IA em grande escala. As GPUs do Cloud são alimentadas por unidades de processamento gráfico (GPUs) da NVIDIA e oferecem computação flexível e de alto desempenho para uma ampla variedade de cargas de trabalho de IA e HPC.


O Vertex AI Pipelines permite automatizar, gerenciar e monitorar todo o fluxo de trabalho de machine learning usando ferramentas de código aberto como o Kubeflow. Isso pode ser essencial para criar processos confiáveis e repetíveis para preparação, treinamento e implantação de dados.

O Identity and Access Management (IAM) do Google Cloud oferece controles detalhados para gerenciar quem pode acessar e gerenciar seus recursos, dados e modelos de IA. Isso garante que apenas pessoal e serviços autorizados possam interagir com suas cargas de trabalho de IA sensíveis, ajudando a atender a padrões regulatórios e de segurança rigorosos.

O Google Kubernetes Engine (GKE) é um serviço do Kubernetes totalmente gerenciado e escalonável que é essencial para executar cargas de trabalho de IA conteinerizadas. Ele permite orquestrar e gerenciar clusters complexos, com flexibilidade em aceleradores de hardware, e pode estender seu ambiente de IA de maneira integrada na nuvem pública e em sistemas no local.

Benefícios das cargas de trabalho de IA

A implantação de cargas de trabalho de IA pode trazer vantagens significativas para os negócios e a tecnologia, principalmente ao focar na eficiência, escalonabilidade superior e capacidade de impulsionar a inovação orientada por dados com rapidez. Elas podem permitir que as organizações façam a transição de operações reativas para uma estratégia mais proativa e inteligente.

Escalonabilidade e desempenho acelerado

As cargas de trabalho de IA, principalmente na nuvem, podem escalonar recursos, como adicionar centenas de GPUs, sob demanda para lidar com conjuntos de dados enormes e modelos complexos sem precisar de um grande investimento inicial.

Custos operacionais otimizados

As plataformas de IA baseadas na nuvem permitem que você pague apenas pelos recursos de computação que realmente usa, oferecendo ajuda na otimização de custos em vez de manter clusters de hardware locais dedicados que ficam ociosos por períodos.

Pipelines de implantação padronizados e simplificados

As plataformas para cargas de trabalho de IA usam ferramentas de MLOps (operações de machine learning) para automatizar e padronizar o ciclo de vida completo, desde a preparação de dados até a implantação e o monitoramento de modelos.

Integração de segurança e governança

Uma plataforma de nuvem oferece recursos de segurança integrados, como gerenciamento de identidade e acesso (IAM) e segurança de rede, diretamente integrados ao seu ambiente de IA. Isso ajuda a simplificar o processo de atendimento aos requisitos de governança e conformidade regulamentar.

Suporte para ambientes híbridos e multicloud

As soluções de IA são projetadas para serem executadas de forma flexível. Eles podem usar contêineres e ferramentas de orquestração para gerenciar e executar cargas de trabalho de forma consistente em provedores de nuvem pública.

Etapas para implantar uma carga de trabalho de inferência de modelo com a Vertex AI

A implantação de um modelo de machine learning treinado para inferência pode ser uma etapa fundamental na produção de uma carga de trabalho de IA. A Vertex AI simplifica esse processo ao fornecer serviços gerenciados que cuidam da infraestrutura.

Fazer upload do modelo treinado no Model Registry

  • A primeira etapa é pegar o artefato do modelo treinado e fazer upload dele no Vertex AI Model Registry. Esse repositório central armazena e controla as versões dos seus modelos de forma segura, deixando-os prontos para a implantação.

Criar um endpoint gerenciado

  • Em seguida, você cria um endpoint, que é um servidor HTTP dedicado em tempo real para seu modelo. Esse endpoint é o URL que seus aplicativos vão chamar para receber previsões. Você define o tipo de recursos de computação que ele vai usar, como uma máquina de CPU N1 ou um tipo específico de GPU para desempenho acelerado.

Implante o modelo no endpoint

  • Depois de criar o endpoint, você implanta uma versão específica do modelo nele. Essa etapa envolve especificar a imagem do contêiner que inclui o modelo e o código do servidor de previsão (geralmente uma imagem pré-criada fornecida pela Vertex AI). Você também configura divisões de tráfego, que permitem testar uma nova versão do modelo com uma pequena porcentagem de tráfego ativo antes de implantá-la completamente.

Enviar e receber previsões on-line

  • Depois de implantado, o modelo fica disponível para previsão on-line. Seu aplicativo envia dados de entrada (a carga útil) por meio de uma solicitação HTTP para o URL do endpoint, e o serviço gerenciado lida com a carga de trabalho de inferência, retornando a previsão ou o resultado quase em tempo real.

Monitorar e governar o endpoint

  • A última etapa é o monitoramento contínuo. Você usa as ferramentas integradas da Vertex AI para monitorar a integridade do endpoint (latência, taxas de erro, utilização de recursos) e o desempenho do modelo em si (desvio, distorção e qualidade da previsão) para garantir que a carga de trabalho de inferência permaneça confiável e precisa ao longo do tempo.

Resolva seus desafios comerciais com o Google Cloud

Clientes novos recebem US$ 300 em créditos para usar no Google Cloud.

Outros recursos

  • Introdução às cargas de trabalho de IA/ML no GKE: o Google Kubernetes Engine oferece uma plataforma gerenciada para implantar e escalonar cargas de trabalho de IA e machine learning em contêineres, compatível com treinamento e inferência em grande escala com aceleradores de hardware, como GPUs e TPUs.
  • Planejar armazenamento para cargas de trabalho de IA e ML: este guia ajuda você a planejar estratégias de armazenamento para fluxos de trabalho de IA e machine learning, recomendando serviços como o Cloud Storage e o Lustre gerenciado com base em requisitos específicos de latência, capacidade de processamento e capacidade.

Vá além

Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.

Google Cloud