A inferência de IA é a parte de "execução" da inteligência artificial. É o momento em que um modelo treinado para de aprender e começa a trabalhar, transformando o conhecimento em resultados reais.
Pense assim: se o treinamento é como ensinar uma nova habilidade a uma IA, a inferência é a IA usando essa habilidade para realizar um trabalho. Ele recebe novos dados (como uma foto ou um texto) e produz uma saída instantânea, como uma previsão, gera uma foto ou toma uma decisão. É aqui que a IA gera valor comercial. Para quem trabalha com IA, entender como fazer inferências rápidas, escalonáveis e econômicas é a chave para criar soluções bem-sucedidas.
O ciclo de vida completo da IA envolve tudo, desde a coleta de dados até o monitoramento de longo prazo, mas a jornada central de um modelo, da criação à execução, tem três etapas principais. As duas primeiras são sobre aprendizado, enquanto a última é sobre colocar esse aprendizado em prática.
Esta tabela resume as principais diferenças:
Treinamento de IA | Ajuste de detalhes da IA | Inferência de IA | Serviço de IA | |
Objetivo | Crie um novo modelo do zero. | Adaptar um modelo pré-treinado para uma tarefa específica. | Use um modelo treinado para fazer predições. | Implantar e gerenciar o modelo para lidar com solicitações de inferência. |
Processo | Aprende de forma iterativa com um grande conjunto de dados. | Ajusta um modelo atual com um conjunto de dados menor. | Uma única "passagem direta" rápida de novos dados. | Empacotar o modelo e expô-lo como uma API |
Dados | Conjuntos de dados grandes, históricos e rotulados. | Conjuntos de dados menores e específicos para tarefas. | Dados ao vivo, reais e não rotulados. | N/A |
Foco dos negócios | Acurácia e capacidade do modelo. | Eficiência e personalização. | Velocidade (latência), escala e economia. | Confiabilidade, escalonabilidade e gerenciamento do endpoint de inferência. |
Treinamento de IA
Ajuste de detalhes da IA
Inferência de IA
Serviço de IA
Objetivo
Crie um novo modelo do zero.
Adaptar um modelo pré-treinado para uma tarefa específica.
Use um modelo treinado para fazer predições.
Implantar e gerenciar o modelo para lidar com solicitações de inferência.
Processo
Aprende de forma iterativa com um grande conjunto de dados.
Ajusta um modelo atual com um conjunto de dados menor.
Uma única "passagem direta" rápida de novos dados.
Empacotar o modelo e expô-lo como uma API
Dados
Conjuntos de dados grandes, históricos e rotulados.
Conjuntos de dados menores e específicos para tarefas.
Dados ao vivo, reais e não rotulados.
N/A
Foco dos negócios
Acurácia e capacidade do modelo.
Eficiência e personalização.
Velocidade (latência), escala e economia.
Confiabilidade, escalonabilidade e gerenciamento do endpoint de inferência.
A inferência de IA envolve três etapas que transformam novos dados em uma saída útil.
Vamos analisar um exemplo simples: um modelo de IA criado para identificar objetos em fotos.
Embora uma única inferência seja rápida, atender a milhões de usuários em tempo real aumenta a latência e o custo e exige hardware otimizado. As unidades de processamento gráfico (GPUs) especializadas em IA e as unidades de processamento de tensor do Google foram projetadas para lidar com essas tarefas de maneira eficiente, além da orquestração com o Google Kubernetes Engine, ajudando a aumentar a capacidade de processamento e reduzir a latência.
Essa é a abordagem mais comum, em que a inferência é executada em servidores remotos potentes em um data center. A nuvem oferece escalonabilidade e recursos computacionais imensos, o que a torna ideal para lidar com conjuntos de dados massivos e modelos complexos. Na nuvem, geralmente há dois modos principais de inferência:
Essa abordagem realiza a inferência diretamente no dispositivo em que os dados são gerados, como um smartphone ou um sensor industrial. Ao evitar uma viagem de ida e volta à nuvem, a inferência de borda oferece vantagens exclusivas:
Para ajudar você a escolher a melhor abordagem para suas necessidades específicas, aqui está uma comparação rápida das principais características e casos de uso para cada tipo de inferência de IA:
Recurso | Inferência em lote | Inferência em tempo real | Inferência de borda |
Local principal | Cloud (data centers) | Cloud (data centers) | Dispositivo local (como smartphone, sensor de IoT, robô) |
Latência/capacidade de resposta | Alto (previsões retornadas após o processamento em lote) | Muito baixa (milissegundos a segundos por solicitação) | Extremamente baixa (quase instantânea, sem salto de rede) |
Volume de dados | Conjuntos de dados grandes (como terabytes) | Eventos/solicitações individuais | Eventos/solicitações individuais (no dispositivo) |
Fluxo de dados | Dados enviados para a nuvem, processados e resultados retornados | Cada solicitação enviada, processada e retornada à nuvem | Dados processados no dispositivo, resultados usados no dispositivo |
Casos de uso típicos | Categorização de documentos em grande escala, análise financeira noturna, manutenção preditiva periódica | Recomendações de produtos, chatbots, tradução ao vivo, alertas de fraude em tempo real | Direção autônoma, câmeras inteligentes, assistentes de voz off-line, controle de qualidade industrial |
Principais benefícios | Econômico para tarefas grandes e não urgentes | Respostas imediatas para apps voltados ao usuário | Latência mínima, privacidade aprimorada, capacidade off-line, custos de largura de banda reduzidos |
Recurso
Inferência em lote
Inferência em tempo real
Inferência de borda
Local principal
Cloud (data centers)
Cloud (data centers)
Dispositivo local (como smartphone, sensor de IoT, robô)
Latência/capacidade de resposta
Alto (previsões retornadas após o processamento em lote)
Muito baixa (milissegundos a segundos por solicitação)
Extremamente baixa (quase instantânea, sem salto de rede)
Volume de dados
Conjuntos de dados grandes (como terabytes)
Eventos/solicitações individuais
Eventos/solicitações individuais (no dispositivo)
Fluxo de dados
Dados enviados para a nuvem, processados e resultados retornados
Cada solicitação enviada, processada e retornada à nuvem
Dados processados no dispositivo, resultados usados no dispositivo
Casos de uso típicos
Categorização de documentos em grande escala, análise financeira noturna, manutenção preditiva periódica
Recomendações de produtos, chatbots, tradução ao vivo, alertas de fraude em tempo real
Direção autônoma, câmeras inteligentes, assistentes de voz off-line, controle de qualidade industrial
Principais benefícios
Econômico para tarefas grandes e não urgentes
Respostas imediatas para apps voltados ao usuário
Latência mínima, privacidade aprimorada, capacidade off-line, custos de largura de banda reduzidos
A inferência de IA está transformando setores ao permitir novos níveis de automação, tomada de decisões mais inteligente e aplicativos inovadores. Para desenvolvedores corporativos, estas são algumas áreas críticas em que a inferência oferece valor comercial tangível:
A inferência de IA apresenta um conjunto distinto de desafios técnicos, incluindo o gerenciamento da latência, o controle dos custos e a garantia da escalonabilidade. O Google Cloud oferece um caminho flexível para a inferência, permitindo que você escolha as ferramentas certas com base na complexidade do modelo, nas necessidades de desempenho e na capacidade operacional. Você pode começar com soluções totalmente gerenciadas e adotar progressivamente uma infraestrutura mais personalizada à medida que seus requisitos evoluem.
Essa abordagem é ideal para desenvolvedores de qualquer nível de habilidade, incluindo aqueles que são novos na IA e querem integrar recursos avançados de IA rapidamente. Ele exige a realização de chamadas de API simples, sem a necessidade de gerenciar modelos ou infraestrutura.
Use os modelos Gemini do Google e uma seleção de modelos de código aberto com um endpoint de API simples. Ele lida com as complexidades de hospedagem e escalonamento, para que você possa se concentrar no seu aplicativo e obter resultados poderosos para tarefas de IA generativa. |
Use os modelos Gemini do Google e uma seleção de modelos de código aberto com um endpoint de API simples. Ele lida com as complexidades de hospedagem e escalonamento, para que você possa se concentrar no seu aplicativo e obter resultados poderosos para tarefas de IA generativa.
Essa opção é para desenvolvedores que já criaram um modelo personalizado. É possível implantá-lo no serviço gerenciado do Google Cloud, o que significa que não precisa lidar com a configuração ou orquestração complexa do servidor. Você se concentra no modelo, não na infraestrutura.
A Vertex AI Prediction é um serviço gerenciado que implanta modelos de machine learning como endpoints escalonáveis, usando aceleradores de hardware como GPUs para o processamento rápido de dados em tempo real e em lote. | |
Implante modelos conteinerizados com escalonamento automático para zero e preços por solicitação. Isso é ideal para cargas de trabalho altamente variáveis e intermitentes ou serviços da Web simples. |
A Vertex AI Prediction é um serviço gerenciado que implanta modelos de machine learning como endpoints escalonáveis, usando aceleradores de hardware como GPUs para o processamento rápido de dados em tempo real e em lote.
Implante modelos conteinerizados com escalonamento automático para zero e preços por solicitação. Isso é ideal para cargas de trabalho altamente variáveis e intermitentes ou serviços da Web simples.
Oferece aos desenvolvedores e profissionais de MLOps controle granular e flexibilidade para implantar, gerenciar e escalonar serviços de inferência conteinerizados personalizados, geralmente com hardware especializado, em ambientes de nuvem ou híbridos.
O GKE oferece controle granular sobre o hardware, incluindo CPUs, GPUs e TPUs, o que é ideal para personalizar e otimizar o desempenho e o custo da veiculação de modelos de machine learning muito grandes ou complexos. |
O GKE oferece controle granular sobre o hardware, incluindo CPUs, GPUs e TPUs, o que é ideal para personalizar e otimizar o desempenho e o custo da veiculação de modelos de machine learning muito grandes ou complexos.
Se você trabalha com SQL, agora pode receber previsões de modelos de IA diretamente onde seus dados já estão. Isso elimina a necessidade de mover dados para uma plataforma separada, simplificando seu fluxo de trabalho.
Usar o BigQuery para inferência permite executar modelos de machine learning diretamente nos seus dados com comandos SQL simples, eliminando a necessidade de mover dados e reduzindo a complexidade e a latência. É um método altamente eficiente para tarefas de processamento em lote, como segmentação de clientes ou previsão de demanda, especialmente quando os dados já estão armazenados no BigQuery. |
Usar o BigQuery para inferência permite executar modelos de machine learning diretamente nos seus dados com comandos SQL simples, eliminando a necessidade de mover dados e reduzindo a complexidade e a latência. É um método altamente eficiente para tarefas de processamento em lote, como segmentação de clientes ou previsão de demanda, especialmente quando os dados já estão armazenados no BigQuery.
Tudo pronto para levar suas habilidades de inferência de IA a outro patamar? Confira alguns recursos valiosos para saber mais e começar:
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.