Aceda às notificações de software
Verifique as seguintes ferramentas para receber notificações quando um problema aparecer nos componentes de software da sua plataforma:
- O painel de controlo de software comum: para notificações sobre informações de estado do sistema, como componentes, clusters, serviços e VMs do GKE Enterprise.
- A sua caixa de correio: para receber notificações por email que incluem informações básicas sobre o problema, como códigos de erro.
Clique numa notificação para ver a página do componente problemático e aceder aos registos relevantes.
Configure os destinatários das notificações
Configure os seguintes canais de comunicação para receber alertas, mesmo que estejam desligados do painel de controlo:
- Mensagens SMS
- Notificações por email
- PagerDuty
Organize o tipo de notificação e a função do destinatário, como faturação, software e hardware.
Compreenda os erros de software
Siga estas práticas para aceder a informações relevantes sobre erros em componentes de software, resolver o problema e interagir com o apoio técnico de forma eficaz:
- Encontre o código de erro de cada erro.
- Use códigos de erro para pesquisar a documentação local e online.
- A interface do utilizador fornece fragmentos de informações sobre erros específicos. Passe o cursor do rato sobre um código de erro para ver os fragmentos.
Limpe as informações de resolução de problemas de software de dados confidenciais
Limpar as informações de resolução de problemas dos componentes de software, incluindo configurações, registos, estado e métricas de todos os dados confidenciais, e agir em conformidade com os requisitos de soberania.
O Google Distributed Cloud (GDC) air-gapped fornece uma lista de palavras-chave sensíveis predefinidas para ocultar e remover. Siga estes passos para limpar as informações de resolução de problemas:
- Personalize a lista predefinida adicionando e removendo palavras-chave personalizadas.
- Receber um relatório de todas as ocorrências ocultadas.
- Receba avisos sobre potenciais informações confidenciais restantes.
Os itens críticos a ocultar incluem:
- Nomes do domínio totalmente qualificados (FQDNs)
- Endereços IP
- Nomes de utilizadores
- Nomes de anfitriões
- Nomes das cargas de trabalho
- Hashes
- Certificados
- Nomes de clientes
Crie um instantâneo do sistema de software
Crie uma captura instantânea dos seus componentes de software para reunir todas as informações necessárias para resolver o problema e interagir eficazmente com o apoio técnico:
- Selecione os componentes a incluir.
- Gere um ficheiro TAR com todas as configurações, registos, estado e métricas necessários.
- Especifique o componente a depurar.
- Especifique como limpar os dados.
Partilhe informações com o apoio técnico
A Google oferece apoio técnico de nível 1 (L1) e nível 2 (L2) para o GDC.
Aplique políticas à partilha de instantâneos
Siga estas práticas para garantir que os dados de instantâneos que partilha com o apoio técnico são seguros, protegidos e sujeitos a políticas de retenção de dados que controla:
- Defina e aplique políticas de controlo de acesso à imagem instantânea.
- Defina e aplique políticas de retenção de dados para a imagem instantânea.
- Configure um canal seguro para carregar a captura de ecrã para o portal de apoio técnico.
Aceda às notificações de hardware
Verifique as notificações de quando um problema aparece nos componentes de hardware da sua plataforma. As notificações aparecem no Gestor do sistema com informações de estado do sistema de componentes de hardware, como racks, servidores, comutadores e armazenamento.
Também pode receber notificações por email. Incluem informações básicas sobre o problema, como códigos de erro. Clique na notificação para ver a página do componente problemático e aceder aos registos relevantes.
Peça atualizações de capacidade
Monitorize, preveja e peça capacidade de hardware adicional para garantir o estado de funcionamento e a escalabilidade das suas cargas de trabalho.
Processar o instantâneo do sistema
Antes de processar a captura de ecrã do sistema, certifique-se de que cumpre os seguintes requisitos:
- A ferramenta de instantâneo tem uma ligação a um cluster em execução.
- Tem as seguintes autorizações necessárias para ler a configuração e os registos no cluster:
- Os operadores de aplicações têm capacidades administrativas.
- Os administradores da plataforma têm autorizações de acesso restritas às informações atribuídas.
Para processar a captura instantânea do sistema, selecione os componentes do sistema a capturar. A ferramenta liga-se ao seu cluster para extrair informações de cada componente selecionado. Após a obtenção de dados, os dados passam por um pós-processamento para filtrar dados confidenciais. Em seguida, a ferramenta agrupa as informações num ficheiro ZIP.
Opcionalmente, pode inspecionar o ficheiro ZIP e o respetivo conteúdo para garantir que não está a capturar dados sensíveis antes de os partilhar com o apoio técnico.
Aceda à documentação de apoio técnico
Aceda à seguinte documentação e manuais para ajudar a resolver o problema do cliente em questão:
- Guias interativos de apoio técnico
- Documentação pública, práticas recomendadas, Perguntas frequentes e base de conhecimentos
- A comunidade de utilizadores
Um parceiro pode fornecer apoio técnico de Nível 1 e Nível 2, pelo que estes artefatos têm de estar disponíveis publicamente.
Encaminhe um problema de software para o Nível 3
Siga estes passos para encaminhar um problema de software para a Google para apoio técnico de nível 3 (L3) ou avançado:
- Solicite autorização para partilhar dados de instantâneos com a Google.
- Abra um pedido de apoio técnico junto da Google.
- Conceda à Google acesso à sua foto instantânea.
- Monitorizar e fornecer visibilidade sobre as operações que a Google realiza na imagem instantânea.
Encaminhe um problema de hardware para o Nível 3
Siga estes passos para encaminhar para a Google um problema causado por uma falha de hardware:
- Extrair e limpar as informações mínimas para resolver problemas dos componentes de hardware:
- Registos
- Estado e configurações
- Métrica
- Informações físicas, como um número de rack, um tipo de componente, um número de série e a localização física.
- Solicite autorização para partilhar dados de instantâneos com a Google.
- Abra um pedido de apoio técnico junto da Google.
- Conceda à Google acesso à sua foto instantânea.
- Monitorizar e fornecer visibilidade sobre as operações que a Google realiza na imagem instantânea.
Abra um registo de apoio técnico de hardware
A Google tem acesso às mesmas ferramentas de resolução de problemas para diagnosticar a captura de ecrã do cliente. Abra um registo de apoio ao cliente com o parceiro de hardware como serviço (HWaaS) para receber apoio técnico de hardware através do sistema de pedidos partilhado.
Os pedidos de apoio técnico têm os seguintes níveis de prioridade com os contratos de nível de serviço (SLA) correspondentes:
- Crítico
- Alto
- Médio
Partilhe dados de clientes com o parceiro de HWaaS
Siga estes passos para partilhar dados de hardware do sistema com o parceiro de hardware e ativar a resolução de problemas de hardware:
- Pedir autorização para partilhar dados de instantâneos com um parceiro de HWaaS.
- Certifique-se de que cumpre os requisitos de soberania: nacionalidade e localização do agente de apoio técnico.
- Conceda ao parceiro de HWaaS acesso seguro à captura instantânea do hardware do cliente, incluindo o número de série, a localização física, os registos, as métricas e os ficheiros de configuração.
- Notificar a pessoa a quem concedeu acesso.
- Aplique a expiração automática dos privilégios de acesso.
- Registar todas as atividades e partilhá-las com todas as partes envolvidas.
Notifique a Google dos resultados da resolução de problemas e corrija a cronologia
Comunicar à Google a causa principal do problema e oferecer uma correção gradual para que a Google possa notificar o cliente final e o parceiro. Use um sistema de pedidos de apoio técnico para fornecer detalhes da tarefa de correção necessária e uma cronologia estimada para a conclusão.
Coordene o acesso ao centro de dados
Coordenar a logística e as autorizações para acesso seguro ao centro de dados e realizar a correção de hardware necessária.
O parceiro de HWaaS garante a conformidade com os requisitos de soberania, como a nacionalidade do agente de apoio técnico. Precisa das seguintes informações:
- Os detalhes do ponto de contacto do centro de dados e da localização.
- A localização exata do componente e do rack com problemas no centro de dados.
- Um processo para obter autorização e autorização para aceder ao centro de dados numa hora acordada.
- Um processo para agendar uma intervenção no local num centro de dados.
Obtenha apoio técnico de hardware para o SLO e o SLA
A Google oferece apoio técnico através de um parceiro OEM (fabricante de equipamento original) de hardware. O processo é o seguinte:
- A Google negoceia o apoio técnico de hardware para objetivos ao nível do serviço (SLO) e contratos de nível de serviço (SLA) com um parceiro de HWaaS.
- O SLO e o SLA variam consoante a criticidade do incidente, que pode ser crítica, elevada ou média.
- O parceiro de HWaaS atualiza o pedido com o estado e o tempo estimado para a resolução.
- O parceiro de HWaaS confirma quando o problema é resolvido.
Atualize a capacidade
Para responder a um pedido de aumento da capacidade, use a capacidade adicional incorporada, se disponível. Desloque-se ao local e atualize a capacidade física se não estiver disponível capacidade adicional nos racks.
Agende revisões recorrentes com a Google
Configure revisões periódicas com o parceiro de HWaaS para verificar o estado atual das implementações e planear intervenções agendadas.
Realize as seguintes ações durante as revisões recorrentes:
- Verifique as atualizações agendadas necessárias para o sistema operativo, o hardware e o firmware.
- Reveja o estado das implementações existentes.
- Planeie novas implementações.
Comunique a manutenção e as atualizações agendadas
Comunique com os clientes existentes sobre os planos de manutenção agendados futuros. Realize as seguintes ações com eles:
- Selecione os recursos a atualizar.
- Especificar por que motivo as atualizações têm um bom desempenho no estado atual.
- Determine quem vai fazer as atualizações e quando, onde e como.
- Planeie o possível impacto e os tempos de inatividade.
Defina a manutenção agendada
Agende uma manutenção preventiva regular e certifique-se de que o sistema está atualizado e tem um bom desempenho. O HWaaS comunica a conclusão da manutenção. Precisa dos seguintes processos:
- Um processo para obter autorização para aceder ao centro de dados.
- Um processo para agendar uma intervenção no local no centro de dados.