Uma carga de trabalho de IA é o conjunto de tarefas e processos computacionais que alimentam sistemas de inteligência artificial ou machine learning (ML). Pense nisso como a computação pesada necessária para que um aplicativo de IA aprenda, faça previsões ou gere novos conteúdos. Essas cargas de trabalho podem ser essenciais para profissionais que criam IA, porque abrangem as principais etapas que impulsionam os sistemas de machine learning: preparação de dados, treinamento de modelos, inferência e monitoramento.
As cargas de trabalho de IA e ML podem ser amplamente categorizadas de duas maneiras
Entender esses tipos ajuda os responsáveis pelas decisões técnicas a planejar a infraestrutura, a capacidade de computação e as estratégias de orquestração específicas que cada um exige.
Tipo de carga de trabalho de IA | Função principal no ciclo de vida da IA | Foco computacional necessário |
Preparação de dados | Limpar, transformar e formatar dados brutos para que estejam prontos para o modelo. | Alto uso de E/S (entrada/saída) e processamento intenso de CPU para manipulação de dados. |
Treinamento de modelo | Usar dados preparados para ensinar o modelo de IA, ajustando os parâmetros de maneira iterativa para garantir a acurácia. | Poder de computação extremo (GPUs/TPUs), alta memória e processamento paralelo. |
Inferência de modelo | Implantar o modelo treinado para fazer previsões em tempo real ou gerar saídas com base em novos dados. | Baixa latência e alta capacidade de processamento, geralmente exigindo hardware de nuvem ou de borda especializado. |
IA generativa | Criação de novos conteúdos, como texto, imagens ou código, usando grandes modelos de fundação. | Inferência e ajuste de detalhes em grande escala, exigindo GPUs/TPUs de ponta. |
Visão computacional | Permitir que as máquinas interpretem e atuem com base em dados visuais, como imagens e vídeos. | Alto volume de capacidade de processamento de dados e aceleração especializada de aprendizado profundo. |
Processamento de linguagem natural (PLN) | Processar e entender a linguagem humana para tarefas como tradução e resumo. | Uma combinação de treinamento acelerado por GPU e disponibilização de baixa latência para aplicativos em tempo real. |
Tipo de carga de trabalho de IA
Função principal no ciclo de vida da IA
Foco computacional necessário
Preparação de dados
Limpar, transformar e formatar dados brutos para que estejam prontos para o modelo.
Alto uso de E/S (entrada/saída) e processamento intenso de CPU para manipulação de dados.
Treinamento de modelo
Usar dados preparados para ensinar o modelo de IA, ajustando os parâmetros de maneira iterativa para garantir a acurácia.
Poder de computação extremo (GPUs/TPUs), alta memória e processamento paralelo.
Inferência de modelo
Implantar o modelo treinado para fazer previsões em tempo real ou gerar saídas com base em novos dados.
Baixa latência e alta capacidade de processamento, geralmente exigindo hardware de nuvem ou de borda especializado.
IA generativa
Criação de novos conteúdos, como texto, imagens ou código, usando grandes modelos de fundação.
Inferência e ajuste de detalhes em grande escala, exigindo GPUs/TPUs de ponta.
Visão computacional
Permitir que as máquinas interpretem e atuem com base em dados visuais, como imagens e vídeos.
Alto volume de capacidade de processamento de dados e aceleração especializada de aprendizado profundo.
Processamento de linguagem natural (PLN)
Processar e entender a linguagem humana para tarefas como tradução e resumo.
Uma combinação de treinamento acelerado por GPU e disponibilização de baixa latência para aplicativos em tempo real.
As cargas de trabalho de IA são caracterizadas principalmente por serem intensivas em dados, processando conjuntos de dados massivos e muitas vezes não estruturados, e intensivas em computação, exigindo hardware de processamento paralelo especializado, como GPUs para treinamento. Cargas de trabalho tradicionais, como bancos de dados relacionais ou servidores da Web simples, são mais focadas na capacidade de processamento transacional consistente e geralmente são otimizadas para arquiteturas de CPU padrão.
Você escolhe cargas de trabalho de treinamento quando precisa criar um novo modelo ou melhorar significativamente um modelo atual alimentando-o com novos dados, o que pode exigir alto custo e alto poder de computação.
Você usa cargas de trabalho de inferência quando o modelo está pronto e implantado na produção e precisa que ele faça previsões em tempo real ou em lote, que priorizam baixa latência e alta capacidade de processamento a um custo menor por transação.
Os maiores desafios normalmente envolvem a orquestração, que é a coordenação eficiente de grandes clusters de GPUs e TPUs; o gerenciamento de dados, que é garantir acesso rápido e confiável a petabytes de dados; e o controle de custos, que é gerenciar o consumo de recursos de computação caros para evitar gastos excessivos em infraestrutura ociosa.
As tendências emergentes incluem o uso de plataformas sem servidor com suporte a GPU para abstrair o gerenciamento de infraestrutura, a adoção de orquestração multicloud para utilização flexível de recursos e o aproveitamento de modelos de fundação que exigem menos treinamento do zero e se concentram mais no ajuste detalhado e na disponibilização eficiente.
As cargas de trabalho de IA estão no centro da transformação digital, oferecendo aplicativos de alto impacto e do mundo real em quase todos os setores, transformando dados em valor prático.
As cargas de trabalho de IA podem alimentar mecanismos de recomendação para empresas de varejo, e-commerce e mídia. Por exemplo, uma empresa de streaming usa um modelo de ML sofisticado, treinado com bilhões de hábitos de visualização, para fornecer sugestões de conteúdo altamente personalizadas.
Os fabricantes implantam sensores em equipamentos essenciais, gerando grandes quantidades de dados de série temporal. As cargas de trabalho de IA podem analisar continuamente esses dados para prever falhas mecânicas com dias ou semanas de antecedência, permitindo a manutenção programada.
As instituições financeiras usam cargas de trabalho de machine learning para analisar milhões de transações em tempo real. Esses modelos podem identificar padrões indicativos de fraude, e alguns sistemas detectam transações não autorizadas com um alto grau de precisão e baixa taxa de falsos positivos.
As cargas de trabalho de visão computacional são usadas para analisar imagens médicas, como raios X, tomografias computadorizadas e ressonâncias magnéticas. Esses modelos de IA podem sinalizar possíveis anomalias, como tumores em estágio inicial, geralmente com velocidade e consistência que ajudam os médicos a fazer diagnósticos mais rápidos e precisos.
As cargas de trabalho baseadas em modelos de IA generativa estão ajudando a transformar campos criativos e técnicos. Eles são usados para gerar automaticamente textos de marketing, sintetizar imagens realistas para publicidade, criar resumos de reuniões virtuais ou até mesmo ajudar desenvolvedores sugerindo e completando blocos de código.
O Google Cloud oferece um ecossistema unificado e poderoso criado na infraestrutura que impulsiona os próprios avanços de IA do Google, o que o torna uma plataforma ideal para hospedar, escalonar, orquestrar e governar suas cargas de trabalho de IA e ML.
A Vertex AI é uma plataforma unificada de machine learning que reúne todos os serviços de nuvem para criar, implantar e escalonar modelos de ML. Ele pode fornecer um ambiente único para todo o ciclo de vida de MLOps, permitindo que cientistas e engenheiros de dados se concentrem no desenvolvimento de modelos em vez da integração de ferramentas.
O Google Cloud oferece uma ampla variedade de opções de computação, incluindo Cloud TPU e Cloud GPU. As TPUs do Cloud (unidades de processamento de tensor) são criadas especificamente para fornecer modelos de IA em grande escala. As GPUs do Cloud são alimentadas por unidades de processamento gráfico (GPUs) da NVIDIA e oferecem computação flexível e de alto desempenho para uma ampla variedade de cargas de trabalho de IA e HPC.
O Vertex AI Pipelines permite automatizar, gerenciar e monitorar todo o fluxo de trabalho de machine learning usando ferramentas de código aberto como o Kubeflow. Isso pode ser essencial para criar processos confiáveis e repetíveis para preparação, treinamento e implantação de dados.
O Identity and Access Management (IAM) do Google Cloud oferece controles detalhados para gerenciar quem pode acessar e gerenciar seus recursos, dados e modelos de IA. Isso garante que apenas pessoal e serviços autorizados possam interagir com suas cargas de trabalho de IA sensíveis, ajudando a atender a padrões regulatórios e de segurança rigorosos.
O Google Kubernetes Engine (GKE) é um serviço do Kubernetes totalmente gerenciado e escalonável que é essencial para executar cargas de trabalho de IA conteinerizadas. Ele permite orquestrar e gerenciar clusters complexos, com flexibilidade em aceleradores de hardware, e pode estender seu ambiente de IA de maneira integrada na nuvem pública e em sistemas no local.
A implantação de cargas de trabalho de IA pode trazer vantagens significativas para os negócios e a tecnologia, principalmente ao focar na eficiência, escalonabilidade superior e capacidade de impulsionar a inovação orientada por dados com rapidez. Elas podem permitir que as organizações façam a transição de operações reativas para uma estratégia mais proativa e inteligente.
Escalonabilidade e desempenho acelerado
As cargas de trabalho de IA, principalmente na nuvem, podem escalonar recursos, como adicionar centenas de GPUs, sob demanda para lidar com conjuntos de dados enormes e modelos complexos sem precisar de um grande investimento inicial.
Custos operacionais otimizados
As plataformas de IA baseadas na nuvem permitem que você pague apenas pelos recursos de computação que realmente usa, oferecendo ajuda na otimização de custos em vez de manter clusters de hardware locais dedicados que ficam ociosos por períodos.
Pipelines de implantação padronizados e simplificados
As plataformas para cargas de trabalho de IA usam ferramentas de MLOps (operações de machine learning) para automatizar e padronizar o ciclo de vida completo, desde a preparação de dados até a implantação e o monitoramento de modelos.
Integração de segurança e governança
Uma plataforma de nuvem oferece recursos de segurança integrados, como gerenciamento de identidade e acesso (IAM) e segurança de rede, diretamente integrados ao seu ambiente de IA. Isso ajuda a simplificar o processo de atendimento aos requisitos de governança e conformidade regulamentar.
Suporte para ambientes híbridos e multicloud
As soluções de IA são projetadas para serem executadas de forma flexível. Eles podem usar contêineres e ferramentas de orquestração para gerenciar e executar cargas de trabalho de forma consistente em provedores de nuvem pública.
A implantação de um modelo de machine learning treinado para inferência pode ser uma etapa fundamental na produção de uma carga de trabalho de IA. A Vertex AI simplifica esse processo ao fornecer serviços gerenciados que cuidam da infraestrutura.
Fazer upload do modelo treinado no Model Registry
Criar um endpoint gerenciado
Implante o modelo no endpoint
Enviar e receber previsões on-line
Monitorar e governar o endpoint
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.