Armazenamento de arquivos no Compute Engine

Last reviewed 2023-12-20 UTC

O armazenamento de arquivos, também conhecido como armazenamento conectado à rede (NAS, na sigla em inglês), fornece acesso de nível de arquivo a aplicativos para ler e atualizar informações que podem ser compartilhadas em várias máquinas. Algumas soluções de armazenamento de arquivos no local têm uma arquitetura de escalonamento vertical e adicionam armazenamento a uma quantidade fixa de recursos de computação. Outras soluções de armazenamento de arquivos têm uma arquitetura de escalonamento horizontal, em que a capacidade e a computação (desempenho) podem ser adicionadas gradualmente a um sistema de arquivos existente conforme necessário. Nas duas arquiteturas de armazenamento, uma ou várias máquinas virtuais (VMs) podem acessar o armazenamento.

Um cliente POSIX nativo é usado em alguns sistemas de arquivos, mas em muitos sistemas de armazenamento é usado um protocolo que permite às máquinas clientes a ativação de um sistema de arquivos e o acesso aos arquivos como se eles estivessem hospedados localmente. Os protocolos mais comuns para exportar compartilhamentos de arquivos são o Network File System (NFS) para Linux (e, em alguns casos, Windows) e o Server Message Block (SMB) para Windows.

Esta solução descreve as opções a seguir para compartilhar arquivos:

Um fator básico no desempenho e previsibilidade de todos os serviços do Google Cloud é a pilha de rede que o Google desenvolveu ao longo de muitos anos. Com o Jupiter Fabric, o Google criou uma pilha de rede potente, escalonável e estável que pode continuar a evoluir sem afetar suas cargas de trabalho. À medida que o Google aprimora e melhora internamente as capacidades da rede, sua solução de compartilhamento de arquivos se beneficia do desempenho agregado.

Um recurso do Google Cloud que você aproveitar ao máximo seu investimento é a capacidade de especificar tipos de VM personalizados. Ao selecionar o tamanho do servidor, escolha exatamente a combinação ideal de memória e CPU. Assim, a operação do servidor terá o desempenho máximo, sem que haja inscrições em excesso.

Além disso, é importante escolher a capacidade correta de disco permanente do Compute Engine e o número de vCPUs para garantir que os dispositivos de armazenamento do servidor de arquivos recebam a largura de banda de armazenamento e as IOPs necessárias, além da largura de banda da rede. Uma VM recebe 2 Gbps de capacidade de rede para cada vCPU (até o máximo). Para ajustar o disco permanente, consulte Como otimizar o disco permanente e o desempenho do SSD local.

O Cloud Storage também é uma ótima maneira de armazenar petabytes de dados com altos níveis de redundância a um baixo custo. No entanto, essa solução tem um perfil de desempenho e uma API diferentes dos servidores de arquivos discutidos nesta página.

Resumo das soluções do servidor de arquivos

A tabela a seguir resume as soluções e os recursos do servidor de arquivos:

Solução Conjunto de dados ideal Capacidade de processamento Suporte gerenciado Protocolos de exportação
Filestore básico De 1 TiB a 64 TiB Até 1,2 GiB/s Totalmente gerenciado pelo Google NFSv3
Filestore Zonal De 1 TiB a 100 TiB Até 26 GiB/s Totalmente gerenciado pelo Google NFSv3
Filestore Enterprise De 1 TiB a 10 TiB Até 1,2 GiB/s Totalmente gerenciado pelo Google NFSv3
Google Cloud NetApp Volumes 1 GiB a 100 TiB MBs/s para 4,5 GiB/s Totalmente gerenciado pelo Google NFSv3, NFSv4.1, SMB2, SMB3
NetApp Cloud Volumes ONTAP De 1 GiB a 1 PiB varia Gerenciado pelo cliente NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni Dezenas de TB a > 1 PB Até 1,2 Gbps Gerenciado pelo cliente e pela Nasuni NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Persistent Disk somente leitura Até 64 TB De 240 a 1.200 Mbps No Anexo direto

Persistent Disk e SSD local

Se você tiver dados que só precisam ser acessados por uma única VM ou que não mudam com o tempo, é possível usar os volumes do Persistent Disk do Compute Engine e evitar totalmente um servidor de arquivos. Com discos permanentes, é possível formatá-los com um sistema de arquivos como Ext4 ou XFS e anexar volumes nos modos de leitura/gravação ou somente leitura. Isso significa que é possível, primeiro, anexar um volume a uma instância, carregá-lo com os dados necessários e, por fim, anexá-lo a um disco somente leitura para centenas de VMs simultaneamente. O uso de discos permanentes somente leitura não funciona para todos os casos de uso, mas pode reduzir muito a complexidade se comparado ao uso de um servidor de arquivos.

Os discos permanentes oferecem um desempenho consistente. Todos os discos do mesmo tamanho (e para discos permanentes de SSD, o mesmo número de vCPUs) que você anexa à sua instância têm as mesmas características de desempenho. Não é necessário fazer testes nos discos permanentes antes de usá-los na produção.

O custo dos discos permanentes é simples de determinar porque não há custos de E/S a serem considerados após o provisionamento do volume. Os discos permanentes também podem ser redimensionados quando necessário. É possível começar com um volume de baixo custo e baixa capacidade e não é necessário criar instâncias ou discos extras para escalonar a capacidade.

Se a capacidade total de armazenamento for o principal requisito, use discos permanentes padrão de baixo custo. Para o melhor desempenho com a manutenção da durabilidade, é possível usar discos permanentes SSD.

Se os dados forem temporários e precisarem de latência de menos de 1 milissegundo e alto número de operações de E/S por segundo (IOPS), será possível aproveitar até 9 TB de SSDs locais para dispor de desempenho excepcional. Os SSDs locais fornecem GBps de largura de banda e milhões de IOPS, sem usar toda a largura de banda de rede cotada das instâncias. No entanto, é importante lembrar que os SSDs locais têm determinadas compensações de disponibilidade, durabilidade e flexibilidade.

Para ver uma comparação dos vários tipos de disco disponíveis para instâncias do Compute Engine, consulte a documentação para armazenamento em blocos.

Considerações ao escolher uma solução de armazenamento de arquivos

Para escolher uma solução de armazenamento de arquivos, é preciso analisar a relação entre custos, gerenciamento, desempenho e escalonabilidade. Tomar a decisão será mais fácil se você tiver uma carga de trabalho bem definida, o que geralmente não é o caso. Nos casos em que as cargas de trabalho aumentam ao longo do tempo ou são muito variáveis, é prudente deixar de lado o fator custo e se concentrar em flexibilidade e elasticidade para que você possa ampliar a solução. Por outro lado, se você tiver uma carga de trabalho temporal e bem conhecida, poderá criar uma arquitetura de armazenamento de arquivos personalizada que pode ser desativada e recriada para atender às suas necessidades imediatas de armazenamento.

Uma das primeiras decisões a tomar é se você quer pagar por um serviço de armazenamento gerenciado, uma solução que inclua suporte ao produto ou uma solução não compatível.

  • Os serviços de armazenamento de arquivos gerenciados são os mais fáceis de operar, porque o Google ou um parceiro está lidando com todas as operações. Esses serviços podem até fornecer um contrato de nível de serviço (SLA) para disponibilidade como a maioria dos outros serviços do Google Cloud.
  • Soluções não gerenciadas e com serviço de suporte oferecem flexibilidade adicional. Os parceiros podem ajudar com qualquer problema, mas a operação diária da solução de armazenamento é deixada para o usuário.
  • Soluções sem serviço de suporte ao produto exigem o máximo de esforço para implantar e manter, deixando todos os problemas a cargo do usuário. Essas soluções não são abordadas neste documento.

A próxima decisão envolve a determinação dos requisitos de durabilidade e disponibilidade da solução. A maioria das soluções de arquivos é zonal e não fornece proteção por padrão se a zona falhar. Por isso, é importante considerar se é necessária uma solução de recuperação de desastre (DR) que proteja contra falhas zonais. Também é importante entender os requisitos de durabilidade e disponibilidade do aplicativo. Por exemplo, a escolha de SSDs locais ou discos permanentes na sua implantação tem um grande impacto, assim como a configuração do software da solução de arquivos. Cada solução requer um planejamento cuidadoso para gerar alta durabilidade, disponibilidade e até mesmo proteção contra falhas zonais e regionais.

Por fim, analise os locais (isto é, zonas, regiões e data centers no local) onde você precisa acessar os dados. Os locais das torres de servidores que acessam seus dados influenciarão sua escolha da solução de arquivador, porque apenas algumas soluções permitem acesso híbrido no local e na nuvem.

Soluções de armazenamento de arquivos gerenciado

Nesta seção, descrevemos as soluções para armazenamento de arquivos gerenciadas pelo Google.

Filestore básico

Filestore é a solução NAS totalmente gerenciada do Google.

As instâncias do Filestore Basic são adequadas para compartilhamento de arquivos, desenvolvimento de software e cargas de trabalho do GKE. Para armazenar os dados, é possível escolher HDD ou SSD. O SSD oferece melhor desempenho. Com qualquer uma das opções, a capacidade é escalonada verticalmente de maneira incremental, e é possível proteger os dados usando backups.

Filestore Zonal

O Filestore Zonal simplifica o armazenamento corporativo e o gerenciamento de dados no Google Cloud e entre nuvens híbridas. O Filestore Zonal oferece acesso paralelo econômico e de alto desempenho a dados globais, mantendo uma consistência rigorosa, viabilizada por um sistema de arquivos distribuído e escalonável dinamicamente. Com o Filestore Zonal, os aplicativos de NFS e os fluxos de trabalho NAS atuais podem ser executados na nuvem sem exigir refatoração, mas ainda mantendo os benefícios dos serviços de dados corporativos (alta disponibilidade, compactação, eliminação de duplicação e assim por diante). O driver Filestore CSI permite persistência, portabilidade e compartilhamento de dados sem interrupções para cargas de trabalho conteinerizadas.

É possível escalonar instâncias do Filestore Zonal sob demanda. Com isso, você cria e expande a infraestrutura do sistema de arquivos quando necessário, garantindo que o desempenho e a capacidade do armazenamento estejam sempre alinhados aos requisitos dinâmicos do fluxo de trabalho. À medida que um cluster do Filestore Zonal se expande, os metadados e o desempenho de E/S são escalonados linearmente. Esse escalonamento permite aprimorar e acelerar uma ampla variedade de fluxos de trabalho com muitos dados, incluindo computação de alto desempenho, análises, agregação de dados entre sites, DevOps e muito mais. Como resultado, o Filestore Zonal é ideal para uso em setores centrados em dados, como ciências da vida (por exemplo, sequenciamento genômico), serviços financeiros e mídia e entretenimento.

Filestore Enterprise

O Filestore Enterprise é uma solução NFS nativa da nuvem totalmente gerenciada que permite implantar aplicativos críticos baseados em arquivos no Google Cloud, com um SLA que fornece disponibilidade regional de 99,99%. Com um SLA de 99,99% de disponibilidade regional, o Filestore Enterprise foi projetado para aplicativos que exigem alta disponibilidade. Com poucos cliques do mouse (ou alguns comandos gcloud ou chamadas de API), é possível provisionar compartilhamentos do NFS que são replicados de maneira síncrona em três zonas dentro de uma região. Se alguma zona da região ficar indisponível, o Filestore Enterprise continuará exibindo dados para o aplicativo de maneira transparente, sem qualquer intervenção operacional da sua parte.

Para proteger ainda mais os dados críticos, o Filestore também permite tirar e manter snapshots periódicos do sistema de arquivos. Com o Filestore, é possível recuperar um arquivo individual ou um sistema de arquivos inteiro em menos de 10 minutos de qualquer um dos pontos de recuperação anteriores.

Para aplicativos essenciais, como o SAP, os níveis de banco de dados e de aplicativos precisam ser altamente disponíveis. Para atender a esse requisito, é possível implantar o nível do banco de dados SAP no Persistent Disk, em várias zonas, usando a alta disponibilidade integrada do banco de dados. Da mesma forma, o nível do aplicativo NetWeaver, que requer executáveis compartilhados em várias VMs, pode ser implantado no Filestore Enterprise, que replica os dados do Netweaver em várias zonas de uma região. O resultado final é uma arquitetura de aplicativo essencial de três camadas altamente disponível.

As organizações de TI também estão cada vez mais implantando aplicativos com estado em contêineres no Google Kubernetes Engine (GKE). Isso faz com que repensem frequentemente a infraestrutura de armazenamento a ser usada para oferecer compatibilidade a esses aplicativos. É possível usar o armazenamento em blocos (Persistent Disk), o armazenamento de arquivos (Filestore Basic, Zonal ou Enterprise) ou o armazenamento de objetos (Cloud Storage). O Filestore Enterprise, com o driver Filestore CSI gerenciado e o suporte a compartilhamento múltiplo, permite que as organizações que precisam de vários pods do GKE tenham acesso a arquivos compartilhados, fornecendo um nível maior de disponibilidade para cargas de trabalho críticas.

NetApp Volumes

O NetApp Volumes é um serviço totalmente gerenciado do Google que permite ativar rapidamente o armazenamento de arquivos compartilhados nas suas instâncias de computação do Google Cloud. O NetApp Volumes é compatível com acesso SMB, NFS e vários protocolos. O NetApp Volumes oferece alto desempenho para aplicativos com baixa latência, com recursos robustos de proteção de dados: snapshots, cópias, replicação entre regiões e backup. O serviço é adequado para aplicativos que exigem cargas de trabalho sequenciais e aleatórias, que podem ser escalonadas em centenas ou milhares de instâncias do Compute Engine. Em segundos, volumes de 100 GiB a 100 TiB podem ser provisionados e protegidos com recursos robustos de proteção de dados. Com três níveis de serviço (Standard, Premium e Extreme) que podem ser alterados sob demanda, o NetApp Volumes oferece o desempenho adequado para sua carga de trabalho, sem afetar a disponibilidade. Para informações sobre os locais do Google Cloud onde os NetApp Volumes está disponível, consulte este link.

Soluções de parceiros no Cloud Marketplace

As soluções fornecidas por parceiros a seguir estão disponíveis no Cloud Marketplace.

NetApp Cloud Volumes ONTAP

O NetApp Cloud Volumes ONTAP (NetApp CVO) é uma solução baseada na nuvem gerenciada pelo cliente que traz para o Google Cloud o conjunto completo de recursos do ONTAP, sistema operacional líder para gerenciamento de dados da NetApp. O NetApp CVO é implantado na sua VPC, com faturamento e suporte do Google. O software ONTAP é executado em uma VM do Compute Engine e usa uma combinação de discos permanentes e buckets do Cloud Storage (se os níveis estiverem ativados) para armazenar os dados NAS. O arquivador integrado acomoda os volumes NAS usando provisionamento fino para que você pague apenas pelo armazenamento que usar. À medida que os dados aumentam, mais discos permanentes são adicionados ao pool de capacidade agregada.

O NetApp CVO abstrai a infraestrutura subjacente e permite criar volumes de dados virtuais formados pelo pool agregado consistentes com todos os outros volumes do ONTAP em qualquer ambiente de nuvem ou local. Os volumes de dados criados são compatíveis com todas as versões de NFS, SMB, NFS/SMB com vários protocolos e iSCSI. Eles são compatíveis com uma ampla variedade de cargas de trabalho baseadas em arquivos, incluindo conteúdo da Web e rich media, usadas em muitos setores, como automação de design eletrônico (EDA) e mídia e entretenimento.

O NetApp CVO é compatível com snapshots instantâneos e pontuais que economizam espaço, backup permanente incremental integrado no Cloud Storage e replicação assíncrona entre regiões para recuperação de desastres. A opção de selecionar o tipo de instância do Compute Engine e discos permanentes permite alcançar o desempenho que você quer para suas cargas de trabalho. Mesmo ao operar em uma configuração de alto desempenho, o NetApp CVO implementa capacidades de armazenamento, como eliminação de duplicação, compactação e compressão, bem como definição automática de níveis para dados usados com pouca frequência no bucket do Cloud Storage, permitindo armazenar petabytes de dados e reduzir significativamente os custos gerais de armazenamento.

DDN EXAScaler Cloud

A plataforma EXAScaler Cloud da DDN é uma solução de arquivos compartilhados paralelo líder do setor para processamento de dados de alto desempenho e para gerenciar os grandes volumes de dados necessários para oferecer suporte a cargas de trabalho de IA, HPC e análise. Ciências da vida, energia, veículos autônomos, serviços financeiros e outros clientes que consomem muitos dados podem aproveitar o EXAScaler Cloud para IA e análises na nuvem para maximizar o retorno dos recursos do Google Cloud e criar fluxos de trabalho ágeis com bursting de nuvem e retenção de dados de longo prazo.

Os usos ideais do EXAScaler Cloud incluem aplicativos de aprendizado profundo e IA de inferência, arquiteturas de nuvem híbrida para bursting de nuvem para se beneficiar do processamento de alto desempenho sob demanda e como um repositório para manter ativos de longo prazo de uma implantação do EXAScaler local. O EXAScaler baseado na nuvem é simples de implantar e aproveita o sistema de arquivos paralelo da DDN, que alimenta mais de dois terços dos 100 maiores supercomputadores.

O EXAScaler Cloud foi projetado para otimizar cargas de trabalho de nuvem com uso intensivo de dados a fim de reduzir o tempo de obtenção insights, reduzindo a contenção de E/S e fornecendo acesso resiliente ao armazenamento compartilhado para um grande número de clientes. O EXAScaler Cloud otimiza todo o ambiente para um alto desempenho, desde o aplicativo até os dispositivos de armazenamento, incluindo a própria rede e as próprias instâncias de computação.

Com configurações flexíveis, o EXAScaler Cloud é útil para cargas de trabalho de rascunho de alto desempenho, IOPs mais persistentes ou aplicativos orientados por capacidade e até mesmo dados permanentes de longo prazo. Ao imitar arquiteturas locais na nuvem, os clientes podem fazer a transição das cargas de trabalho sem interrupções, o que ajuda a minimizar a interrupção dos aplicativos para os usuários finais durante a migração das cargas de trabalho.

O DDN EXAScaler Cloud lida com cargas de trabalho escalonáveis e conta com a experiência apoiada nos maiores ambientes de dados do mundo. Com opções de suporte premium, os clientes têm a mesma experiência de suporte especializada no local e na nuvem.

Para ver mais informações, consulte os seguintes tópicos:

Armazenamento de arquivos em nuvem da Nasuni

A Nasuni substitui servidores de arquivos corporativos e dispositivos NAS e todas as infraestruturas associadas, incluindo hardware de backup e DR, com uma alternativa mais simples e de baixo custo na nuvem. A Nasuni usa o armazenamento de objetos do Google Cloud para oferecer uma solução de armazenamento de software como serviço (SaaS) mais eficiente que é escalonada para lidar com o crescimento dos dados de arquivos rápidos e não estruturados. A Nasuni é projetada para lidar com compartilhamentos de arquivos de departamentos, projetos e organizacionais e fluxos de trabalho de aplicativos para todos os funcionários, onde quer que eles trabalhem.

Armazenamento de arquivos na nuvem da Nasuni.

A Nasuni oferece três pacotes, com preços para empresas e organizações de todos os tamanhos, para que possam crescer e se expandir conforme necessário.

Os benefícios incluem:

  • Armazenamento de arquivos principal na nuvem por até 70% menos. A arquitetura da Nasuni aproveita as políticas integradas do Gerenciamento do ciclo de vida de objetos. Essas políticas permitem total flexibilidade para uso com classes do Cloud Storage, incluindo Standard, Nearline, Coldline e Archive. Ao usar a classe Archive de acesso imediato para armazenamento principal com a Nasuni, é possível perceber uma economia de custos de 70%.

  • Compartilhamentos de arquivos administrativos e organizacionais na nuvem. A arquitetura baseada em nuvem da Nasuni oferece um único namespace global nas regiões do Google Cloud, sem limites no número de arquivos, tamanhos de arquivos ou snapshots, permitindo que você armazene arquivos diretamente da sua área de trabalho no Google Cloud por meio de protocolos de mapeamento de unidade NAS (SMB) padrão.

  • Backup e recuperação de desastres integrados. As operações "set-it and forget-it" da Nasuni simplificam o gerenciamento do armazenamento global de arquivos. O backup e a DR estão inclusos, e um único console de gerenciamento permite supervisionar e controlar o ambiente em qualquer lugar, a qualquer momento.

  • Substitui os servidores de arquivo antigos. A Nasuni simplifica a migração dos servidores de arquivos do Microsoft Windows e de outros sistemas de armazenamento de arquivos atuais para o Google Cloud, reduzindo os custos e a complexidade de gerenciamento desses ambientes.

Para ver mais informações, consulte os seguintes tópicos:

Sycomp Storage impulsionado pela IBM Spectrum Scale

O Sycomp Storage Fueled by IBM Spectrum Scale no Google Cloud Marketplace permite executar computação de alto desempenho (HPC), inteligência artificial (IA), machine learning (ML) e cargas de trabalho de Big Data no Google Cloud. Com o Sycomp Storage, é possível acessar dados simultaneamente de milhares de VMs, reduzir custos gerenciando automaticamente níveis de armazenamento e executar seu aplicativo no local ou no Google Cloud. O Sycomp Storage Fueled by IBM Spectrum Scale está disponível no Cloud Marketplace, pode ser implantado rapidamente e permite acesso aos seus dados via NFS e pelo cliente do IBM Spectrum Scale.

O IBM Spectrum Scale é um sistema de arquivos paralelo que ajuda a gerenciar com segurança grandes volumes (PBs, na sigla em inglês) de dados. O sistema de arquivos paralelo do IBM Spectrum Scale é adequado para aplicativos de HPC, IA, ML, Big Data e outros que exigem um sistema de arquivos compartilhados em conformidade com o POSIX. Com capacidade de armazenamento adaptável e escalonamento de desempenho, o Sycomp Storage é compatível com cargas de trabalho de HPC, IA e ML pequenas e grandes.

Depois de implantar um cluster no Google Cloud, você decide como quer usá-lo. Escolha se você quer usá-lo apenas na nuvem ou no modo híbrido. Para isso, conecte-se a um cluster local do IBM Spectrum Scale.

Para ver mais informações, consulte os seguintes tópicos:

Registro de alterações

Esta seção fornece um resumo das alterações técnicas significativas neste guia.

Data Descrição das mudanças
19 de dezembro de 2023
  • Atualização da definição de nomes e do empacotamento do Filestore High Scale (agora Filestore Zonal).
  • Atualização do suporte do Filestore Zonal ao driver CSI.
  • Adição do Google Cloud NetApp Volumes como uma solução de arquivos gerenciada.
  • Remoção do NetApp Cloud Volume Service como um produto do Cloud Marketplace.
30 de novembro de 2023
  • Remoção do Dell PowerScale como solução de parceiro do Cloud Marketplace.
  • Remoção da Panzura como solução de parceiro do Cloud Marketplace.

Colaboradores

Autor: Sean Derrington | Gerente de produtos externos do grupo, Armazenamento

Outros colaboradores: