Professional Machine Learning Engineer
Guia do exame de certificação
Um Professional Machine Learning Engineer cria, avalia, prepara e otimiza modelos de ML usando as tecnologias do Google Cloud e o conhecimento de técnicas e modelos comprovados. O engenheiro de ML lida com conjuntos de dados grandes e complexos e cria códigos que podem ser repetidos e reutilizados. O engenheiro de ML considera a IA responsável e a imparcialidade durante todo o processo de desenvolvimento do modelo de ML. Além disso, ele colabora com outras funções para garantir o sucesso a longo prazo de aplicativos baseados em ML. O engenheiro de ML tem fortes habilidades de programação e experiência com plataformas de dados e ferramentas de processamento de dados distribuídas. O engenheiro de ML é proficiente nas áreas de arquitetura de modelos, criação de pipelines de ML e dados e interpretação de métricas. O engenheiro de ML está familiarizado com os conceitos básicos de MLOps, desenvolvimento de aplicativos, gerenciamento de infraestrutura, engenharia de dados e governança de dados. O engenheiro de ML torna o ML acessível e capacita equipes em toda a organização. Ao treinar, retreinar, implantar, programar, monitorar e aprimorar os modelos, o engenheiro de ML projeta e cria soluções escalonáveis e de alto desempenho.
*Observação: o exame não avalia diretamente a habilidade em programação. Se você tem proficiência mínima em Python e Cloud SQL, sabe interpretar perguntas sobre snippets de código.
O exame Professional Machine Learning Engineer não aborda a IA generativa, porque as ferramentas usadas para desenvolver soluções baseadas em IA generativa estão evoluindo rapidamente. Se você tiver interesse em IA generativa, consulte o programa de aprendizado de introdução à IA generativa (todos os públicos-alvo) ou a página programa de aprendizado de IA generativa para desenvolvedores (público-alvo técnico). Se você é um parceiro, consulte os cursos de parceiros de IA generativa: programa de aprendizado de introdução à IA generativa e IA generativa para engenheiros de ML e IA generativa para desenvolvedores.
Seção 1: como arquitetar soluções de ML com pouco código (cerca de 12% do exame)
1.1 Desenvolver modelos de ML usando o BigQuery ML. As considerações incluem:
● Criar o modelo apropriado do BigQuery ML (por exemplo, classificação linear e binária, regressão, série temporal, fatoração de matrizes, árvores otimizadas, codificadores automáticos) com base no problema de negócios
● Engenharia ou seleção de atributos usando o BigQuery ML
● Gerar previsões usando o BigQuery ML;
1.2 Criar soluções de IA usando APIs de ML. As considerações incluem:
● Criar aplicativos usando APIs de ML (por exemplo, API Cloud Vision, API Natural Language, API Cloud Speech, Translation)
● Criar aplicativos usando APIs específicas do setor (por exemplo, API Document AI, API Retail)
1.3 Treinamento de modelos usando o AutoML. As considerações incluem:
● Preparar dados para o AutoML (por exemplo, seleção de atributos, rotulagem de dados, fluxos de trabalho tabulares no AutoML)
● Usar dados disponíveis (por exemplo, tabular, texto, fala, imagens, vídeos) para treinar modelos personalizados
● Usar o AutoML para dados tabulares
● Criar modelos de previsão usando o AutoML
● Configurar e depurar modelos treinados
Seção 2: colaboração dentro e entre equipes para gerenciar dados e modelos (cerca de 16% do exame)
2.1 Explorar e pré-processar dados em toda a organização (por exemplo, Cloud Storage, BigQuery, Cloud Spanner, Cloud SQL, Apache Spark e Apache Hadoop). As considerações incluem:
● Organização de diferentes tipos de dados (por exemplo, tabulares, de texto, fala, imagens, vídeos) para um treinamento eficiente
● Gerenciamento de conjuntos de dados na Vertex AI
● Pré-processamento de dados (por exemplo, Dataflow, TensorFlow Extended [TFX], BigQuery)
● Criar e consolidar atributos no Feature Store da Vertex AI
● Implicações de privacidade de uso e/ou coleta de dados (por exemplo, processamento de dados confidenciais, como informações de identificação pessoal [PII] e informações protegidas de saúde [PHI])
2.2 Prototipagem de modelo usando notebooks Jupyter. As considerações incluem:
● Escolher o back-end do Jupyter apropriado no Google Cloud (por exemplo, Vertex AI Workbench, notebooks no Dataproc)
● Aplicar as práticas recomendadas de segurança no Vertex AI Workbench
● Usar kernels do Spark
● Integração com repositórios de origem de código
● Desenvolver modelos no Vertex AI Workbench usando frameworks comuns (por exemplo, TensorFlow, PyTorch, sklearn, Spark e JAX)
2.3 Acompanhamento e execução de experimentos de ML. As considerações incluem:
● Escolher o ambiente adequado do Google Cloud para desenvolvimento e experimentação (por exemplo, experimentos da Vertex AI, Kubeflow Pipelines, TensorBoard da Vertex AI com TensorFlow e PyTorch) com base no framework
Seção 3: escalonamento de protótipos em modelos de ML (cerca de 18% do exame)
3.1 Compilar modelos. As considerações incluem:
● Escolher o framework de ML e a arquitetura do modelo
● Técnicas de modelagem de acordo com os requisitos de interpretabilidade
3.2 Treinar modelos As considerações incluem:
● Organizar dados de treinamento (por exemplo, tabular, texto, fala, imagens, vídeos) no Google Cloud (por exemplo, Cloud Storage e BigQuery)
● Ingestão de vários tipos de arquivos (por exemplo, CSV, JSON, imagens, Hadoop, bancos de dados) no treinamento
● Treinamento usando SDKs diferentes (por exemplo, treinamento personalizado da Vertex AI, Kubeflow no Google Kubernetes Engine, AutoML, fluxos de trabalho tabulares)
● Usar treinamento distribuído para organizar pipelines confiáveis
● Ajuste de hiperparâmetro
● Solução de problemas de falhas no treinamento de modelos de ML
3.3 Escolher o hardware adequado para treinamento. As considerações incluem:
Avaliação de opções de computação e acelerador (por exemplo, dispositivos perimetrais de CPU, GPU, TPU e borda)
● Treinamento distribuído com TPUs e GPUs (por exemplo, servidor de redução na Vertex AI, Horovod)
Seção 4: veiculação e ampliação de modelos (cerca de 19% do exame)
4.1 Exibir modelos. As considerações incluem:
● Inferência em lote e on-line (por exemplo, Vertex AI, Dataflow, BigQuery ML, Dataproc)
● Usar frameworks diferentes (por exemplo, PyTorch, XGBoost) para exibir modelos.
● Organizar um registro de modelos
● Testes A/B de diferentes versões de um modelo
4.2 Escalonamento de disponibilização de modelos on-line. As considerações incluem:
● Vertex AI Feature Store
● Endpoints públicos e particulares da Vertex AI
● Escolher o hardware adequado (por exemplo, CPU, GPU, TPU, borda)
● Escalonamento do back-end de exibição com base na capacidade de processamento (por exemplo, Vertex AI Prediction, disponibilização em contêiner)
● Ajustar modelos de ML para treinamento e disponibilização na produção (por exemplo, técnicas de simplificação, otimização da solução de ML para aumento de desempenho, latência, memória e capacidade de processamento)
Seção 5: automatizar e orquestrar pipelines de ML (cerca de 21% do exame)
5.1 Desenvolver pipelines completos de ML. As considerações incluem:
● Validação de modelos e dados
● Como garantir um pré-processamento consistente de dados entre o treinamento e a disponibilização
● Hospedar pipelines de terceiros no Google Cloud (por exemplo, MLFlow)
● Identificar componentes, parâmetros, gatilhos e necessidades de computação (por exemplo, Cloud Build e Cloud Run)
● Framework de orquestração (por exemplo, Kubeflow Pipelines, Vertex AI Pipelines e Cloud Composer)
● Estratégias híbridas ou de várias nuvens
● Projeto do sistema com componentes do TFX ou DSL do Kubeflow (por exemplo, Dataflow)
5.2 Automatizar o retreinamento do modelo. As considerações incluem:
● Determinar uma política de retreinamento adequada
● Implantação do modelo de integração contínua e entrega contínua (CI/CD, por exemplo, Cloud Build e Jenkins)
5.3 Rastrear e auditar metadados. As considerações incluem:
● Rastrear e comparar artefatos e versões de modelos (por exemplo, Vertex AI Experiments Vertex ML Metadata
● Como conectar ao controle de versões do modelo e do conjunto de dados
● Linhagem de dados e modelo
Seção 6: monitoramento de soluções de ML (aproximadamente 14% do exame)
6.1 Identificar riscos nas soluções de ML. As considerações incluem:
● Criar sistemas seguros de ML (por exemplo, proteção contra exploração não intencional de dados ou modelos, invasão)
● Como se alinhar às práticas de IA responsável do Google (por exemplo, vieses)
● Avaliar a prontidão da solução de ML (por exemplo, viés de dados, imparcialidade)
● Explicabilidade do modelo na Vertex AI (por exemplo, previsão da Vertex AI)
6.2 Monitorar, testar e solucionar problemas de soluções de ML. As considerações incluem:
● Estabelecer métricas de avaliação contínua (por exemplo, Vertex AI Model Monitoring, Explainable AI)
● Monitoramento de desvios de treinamento/disponibilização
● Monitoramento de desvios de atribuição de recursos
Monitoramento de desempenho do modelo em relação a valores de referência, modelos mais simples e na dimensão de tempo
● Erros comuns de treinamento e disponibilização