Compatibilidade

Acessar notificações de software

Verifique as seguintes ferramentas para receber notificações quando um problema aparecer nos componentes de software da sua plataforma:

  • O painel de software comum:para notificações sobre informações de integridade do sistema, como componentes, clusters, serviços e VMs do GKE Enterprise.
  • Sua caixa de e-mail:para notificações por e-mail que incluem informações básicas sobre o problema, como códigos de erro.

Clique em uma notificação para acessar a página do componente problemático e os registros relevantes.

Configurar destinatários de notificações

Configure os seguintes canais de comunicação para receber alertas, mesmo que estejam desconectados do painel:

  • Mensagens SMS
  • Notificações por e-mail
  • PagerDuty

Organize o tipo de notificação e a função do destinatário, como faturamento, software e hardware.

Entender erros de software

Siga estas práticas para acessar informações relevantes sobre erros em componentes de software, resolver o problema e interagir com o suporte de maneira eficaz:

  • Encontre o código de cada erro.
  • Use códigos de erro para pesquisar a documentação local e on-line.
  • A interface do usuário fornece snippets de informações sobre erros específicos. Mantenha o ponteiro do mouse sobre um código de erro para ver os snippets.

Remova dados sensíveis das informações de solução de problemas de software

Limpe as informações de solução de problemas dos componentes de software, incluindo configurações, registros, status e métricas de todos os dados sensíveis, e obedeça aos requisitos de soberania.

O Google Distributed Cloud (GDC) com isolamento físico oferece uma lista de palavras-chave sensíveis padrão para ofuscar e remover. Siga estas etapas para limpar as informações de solução de problemas:

  1. Personalize a lista padrão adicionando e removendo palavras-chave personalizadas.
  2. Receber um relatório de todas as ocorrências ofuscadas.
  3. Receber avisos sobre possíveis informações sensíveis restantes.

Os itens críticos a serem ofuscados incluem:

  • Nomes de domínio totalmente qualificados (FQDNs)
  • Endereços IP
  • Nomes de usuário
  • Nomes de host
  • Nomes das cargas de trabalho
  • Hashes
  • Certificados
  • Nomes de clientes

Criar um snapshot do sistema de software

Crie um snapshot dos seus componentes de software para reunir todas as informações necessárias para resolver o problema e interagir com o suporte de maneira eficaz:

  1. Selecione os componentes que você quer incluir.
  2. Gere um arquivo tar com todas as configurações, registros, status e métricas necessários.
  3. Especifique o componente a ser depurado.
  4. Especifique como limpar os dados.

Compartilhar informações com o suporte

O Google oferece suporte de nível 1 (L1) e nível 2 (L2) para o GDC.

Aplicar políticas ao compartilhamento de snapshots

Siga estas práticas para garantir que os dados de snapshot compartilhados com o suporte estejam seguros, protegidos e sujeitos às políticas de retenção de dados que você controla:

  • Defina e aplique políticas de controle de acesso ao snapshot.
  • Defina e aplique políticas de retenção de dados para o snapshot.
  • Configure um canal seguro para fazer upload do instantâneo no portal de suporte.

Acessar notificações de hardware

Verifique as notificações de quando um problema aparece nos componentes de hardware da sua plataforma. As notificações aparecem no System Manager com informações de integridade do sistema de componentes de hardware, como racks, servidores, switches e armazenamento.

Você também pode receber notificações por e-mail. Elas incluem informações básicas sobre o problema, como códigos de erro. Clique na notificação para acessar a página do componente problemático e os registros relevantes.

Solicitar upgrades de capacidade

Monitore, preveja e solicite mais capacidade de hardware para garantir a integridade e a escalonabilidade das suas cargas de trabalho.

Processar o snapshot do sistema

Antes de processar o snapshot do sistema, verifique se você atende aos seguintes requisitos:

  • A ferramenta de snapshot tem uma conexão com um cluster em execução.
  • Você tem as seguintes permissões necessárias para ler a configuração e os registros no cluster:
    • Os operadores de aplicativos têm recursos administrativos.
    • Os administradores da plataforma têm permissões de acesso restritas às informações atribuídas.

Para processar o snapshot do sistema, selecione os componentes que você quer incluir. A ferramenta se conecta ao cluster para extrair informações de cada componente selecionado. Depois da recuperação, os dados passam por um pós-processamento para filtrar informações sensíveis. Em seguida, a ferramenta agrupa as informações em um arquivo ZIP.

Se quiser, inspecione o arquivo ZIP e o conteúdo dele para garantir que você não está capturando dados sensíveis antes de compartilhar com o suporte.

Acessar a documentação de suporte

Acesse a documentação e os playbooks a seguir para ajudar a resolver o problema do cliente:

  • Playbooks de suporte
  • Documentação pública, práticas recomendadas, perguntas frequentes e base de conhecimento
  • A comunidade de usuários

Um parceiro pode oferecer suporte L1 e L2, então esses artefatos precisam estar disponíveis publicamente.

Encaminhar um problema de software para o L3

Siga estas etapas para encaminhar um problema de software ao Google para suporte de nível 3 (L3) ou avançado:

  1. Peça permissão para compartilhar dados de snapshots com o Google.
  2. Abra um tíquete de suporte com o Google.
  3. Conceda ao Google acesso ao seu snapshot.
  4. Monitorar e fornecer visibilidade das operações que o Google realiza no snapshot.

Encaminhar um problema de hardware para o nível 3

Siga estas etapas para encaminhar ao Google um problema causado por uma falha de hardware:

  1. Extraia e limpe as informações mínimas para resolver problemas nos componentes de hardware:
    • Registros
    • Status e configurações
    • Métricas
    • Informações físicas, como número do rack, tipo de componente, número de série e local físico.
  2. Peça permissão para compartilhar dados de snapshots com o Google.
  3. Abra um tíquete de suporte com o Google.
  4. Conceda ao Google acesso ao seu snapshot.
  5. Monitorar e fornecer visibilidade das operações que o Google realiza no snapshot.

Abrir um caso de suporte de hardware

O Google tem acesso às mesmas ferramentas de solução de problemas para diagnosticar o snapshot do cliente. Abra um caso de suporte com o parceiro de hardware como serviço (HWaaS) para receber suporte de hardware pelo sistema de tíquetes compartilhado.

Os tíquetes de suporte têm os seguintes níveis de prioridade com os respectivos contratos de nível de serviço (SLA):

  • Crítico
  • Alta
  • Médio

Compartilhar dados de clientes com o parceiro de HWaaS

Siga estas etapas para compartilhar dados de hardware do sistema com o parceiro de hardware e ativar a solução de problemas de hardware:

  1. Solicitar permissão para compartilhar dados de snapshots com um parceiro de HWaaS.
  2. Verifique se você atende aos requisitos de soberania: nacionalidade e local do representante de suporte.
  3. Conceda ao parceiro de HWaaS acesso seguro ao snapshot de hardware do cliente, incluindo o número de série, a localização física, os registros, as métricas e os arquivos de configuração.
  4. Notifique quem recebeu acesso.
  5. Impor o vencimento automático dos privilégios de acesso.
  6. Registre todas as atividades e compartilhe com todas as partes envolvidas.

Notificar o Google sobre os resultados da solução de problemas e corrigir a linha do tempo

Informe ao Google a causa raiz do problema e ofereça uma correção gradual para que o Google possa notificar o cliente final e o parceiro. Use um sistema de tíquetes para fornecer detalhes da tarefa de correção necessária e um cronograma estimado para a conclusão dela.

Coordenar o acesso ao data center

Coordene a logística e as permissões para acesso seguro ao data center e faça a correção de hardware necessária.

O parceiro de HWaaS garante a conformidade com os requisitos de soberania, como a nacionalidade do agente de suporte. Eles precisam das seguintes informações:

  • Os detalhes do ponto de contato do data center e do local.
  • A localização exata do rack e do componente com problema no data center.
  • Um processo para receber autorização e permissão de acesso ao data center em um horário acordado.
  • Um processo para programar intervenções no local em um data center.

Receber suporte de hardware para SLO e SLA

O Google oferece suporte por meio de um parceiro fabricante de equipamento original (OEM) de hardware. O processo é o seguinte:

  1. O Google negocia o suporte de hardware para objetivos de nível de serviço (SLOs) e contratos de nível de serviço (SLAs) com um parceiro de HWaaS.
  2. O SLO e o SLA variam de acordo com a gravidade do incidente, que pode ser crítica, alta ou média.
  3. O parceiro de HWaaS atualiza o tíquete com o status e o tempo estimado para correção.
  4. O parceiro de HWaaS confirma quando o problema é resolvido.

Fazer upgrade da capacidade

Para responder a uma solicitação de aumento de capacidade, use a capacidade extra integrada, se disponível. Vá até o local e faça upgrade da capacidade física se não houver capacidade extra disponível nos racks.

Agendar análises recorrentes com o Google

Faça revisões periódicas com o parceiro de HWaaS para verificar o status atual das implantações e planejar intervenções programadas.

Siga estas etapas durante as análises recorrentes:

  • Verifique as atualizações programadas necessárias para o sistema operacional, o hardware e o firmware.
  • Revise o status das implantações atuais.
  • Planejar novas implantações.

Comunicar manutenções e upgrades programados

Comunique aos clientes atuais sobre os próximos planos de manutenção programada. Faça o seguinte com eles:

  • Selecione os recursos que você quer fazer upgrade.
  • Especifique por que os upgrades serão executados no estado atual.
  • Determine quem vai fazer os upgrades e quando, onde e como.
  • Planeje o possível impacto e os períodos de inatividade.

Definir manutenção programada

Agende manutenções preventivas regulares e garanta que o sistema esteja atualizado e funcionando bem. O HWaaS informa sobre a conclusão da manutenção. Ele precisa dos seguintes processos:

  • Um processo para receber autorização de acesso ao data center.
  • Um processo para programar intervenções no local do data center.