O armazenamento de ficheiros, também conhecido como armazenamento associado à rede (NAS), fornece acesso ao nível do ficheiro às aplicações para ler e atualizar informações que podem ser partilhadas em vários computadores. Algumas soluções de armazenamento de ficheiros no local têm uma arquitetura de expansão vertical e adicionam simplesmente armazenamento a uma quantidade fixa de recursos de computação. Outras soluções de armazenamento de ficheiros têm uma arquitetura de expansão horizontal em que a capacidade e o processamento (desempenho) podem ser adicionados incrementalmente a um sistema de ficheiros existente, conforme necessário. Em ambas as arquiteturas de armazenamento, uma ou várias máquinas virtuais (VMs) podem aceder ao armazenamento.
Embora alguns sistemas de ficheiros usem um cliente POSIX nativo, muitos sistemas de armazenamento usam um protocolo que permite que as máquinas cliente montem um sistema de ficheiros e acedam aos ficheiros como se estivessem alojados localmente. Os protocolos mais comuns para exportar partilhas de ficheiros são o Network File System (NFS) para Linux (e, em alguns casos, Windows) e o Server Message Block (SMB) para Windows.
Este documento descreve as seguintes opções para partilhar ficheiros:
- Google Cloud Hyperdisk, Persistent Disk ou SSD local
- Soluções geridas:
- Soluções de parceiros no Google Cloud Marketplace:
Um fator subjacente no desempenho e na previsibilidade de todos os Google Cloud serviços é a pilha de rede que a Google desenvolveu ao longo de muitos anos. Com a estrutura Jupiter, a Google criou uma pilha de rede robusta, escalável e estável que pode continuar a evoluir sem afetar as suas cargas de trabalho. À medida que a Google melhora e reforça as respetivas capacidades de rede internamente, a sua solução de partilha de ficheiros beneficia do desempenho adicional.
Uma funcionalidade do Google Cloud que pode ajudar a tirar o máximo partido do seu investimento é a capacidade de especificar tipos de VMs personalizados. Ao escolher o tamanho do seu filer, pode escolher exatamente a combinação certa de memória e CPU, para que o filer esteja a funcionar com o desempenho ideal sem estar em excesso de subscrição.
Tenha em atenção que o Cloud Storage também é uma excelente forma de armazenar petabytes ou exabytes de dados com elevados níveis de redundância a um baixo custo, mas o Cloud Storage tem um perfil de desempenho e uma API diferentes dos servidores de ficheiros abordados aqui.
Resumo das soluções de servidor de ficheiros
A tabela seguinte resume as soluções e as funcionalidades do servidor de ficheiros:
Solução | Conjunto de dados ideal | Débito | Apoio técnico gerido | Protocolos de exportação |
---|---|---|---|---|
Filestore Basic | 1 TiB a 64 TiB | Até 1,2 GiB/s | Totalmente gerido pela Google | NFSv3 |
Filestore Zonal | 1 TiB a 100 TiB | Até 26 GiB/s | Totalmente gerido pela Google | NFSv3, NFSv4.1 |
Filestore Regional | 1 TiB a 100 TiB | Até 26 GiB/s | Totalmente gerido pela Google | NFSv3, NFSv4.1 |
Managed Lustre | 18 TiB a 8 PiB | Até 1 TB/s | Totalmente gerido pela Google | POSIX |
NetApp Volumes | 1 GiB a 1 PiB | 1 MB/s a 30 GiB/s | Totalmente gerido pela Google | NFSv3, NFSv4.1, SMB3 |
Disco persistente só de leitura | < 64 TB | 240 a 1200 MBps | Não | Anexo direto |
Discos duradouros e SSD local
Se tiver dados que só precisam de ser acedidos por uma única VM ou que não se alteram ao longo do tempo, pode evitar completamente um servidor de ficheiros usando os discos duráveis oferecidos pelo Compute Engine: Hyperdisk ou disco persistente. Pode formatar volumes curtos do Hyperdisk e do disco persistente com um sistema de ficheiros, como Ext4 ou XFS, e anexá-los a VMs no modo de leitura/escrita ou só de leitura. Isto significa que pode primeiro associar um volume a uma instância, carregá-lo com os dados de que precisa e, em seguida, associá-lo como um disco só de leitura a centenas de VMs em simultâneo. A utilização de discos só de leitura não funciona para todos os exemplos de utilização, mas pode reduzir significativamente a complexidade em comparação com a utilização de um servidor de ficheiros.
Os discos duradouros oferecem um desempenho consistente. Todos os volumes de discos persistentes do mesmo tamanho (e, para discos persistentes SSD, o mesmo número de vCPUs) que anexar à sua instância têm as mesmas caraterísticas de desempenho. Não precisa de pré-aquecer nem testar os discos antes de os usar em produção.
O custo dos discos persistentes é simples de determinar porque não existem custos de E/S a considerar após o aprovisionamento do volume. Também é possível redimensionar os discos persistentes quando necessário. Isto permite-lhe começar com um volume de baixo custo e baixa capacidade, e não precisa de criar instâncias nem discos adicionais para dimensionar a sua capacidade.
Se a capacidade de armazenamento total for o principal requisito, pode usar discos persistentes padrão de baixo custo. Para ter o melhor desempenho possível e continuar a ser duradouro, pode usar discos persistentes SSD.
Além disso, é importante que escolha a capacidade do disco persistente do Compute Engine e o número de vCPUs corretos para garantir que os dispositivos de armazenamento do servidor de ficheiros recebem a largura de banda de armazenamento, os IOPS e a largura de banda de rede necessários. A largura de banda da rede para VMs depende do tipo de máquina que escolher. Por exemplo, as VMs A4 têm uma largura de banda máxima da rede de até 3600 Gbps. Para mais informações, consulte o recurso de famílias de máquinas e o guia de comparação. Para obter informações sobre a otimização de discos persistentes, consulte o artigo Acerca do desempenho do disco persistente.
Se os seus dados forem efémeros e exigirem uma latência inferior a um milissegundo e um elevado número de operações de E/S por segundo (IOPS), pode tirar partido de até 9 TB de SSDs locais para um desempenho extremo. Os SSDs locais oferecem GB/s de largura de banda e milhões de IOPS, tudo isto sem usar a largura de banda de rede atribuída às suas instâncias. No entanto, é importante lembrar que os SSDs locais têm determinadas desvantagens em termos de disponibilidade, durabilidade e flexibilidade.
Para mais informações sobre as opções de armazenamento do Compute Engine, consulte o artigo Crie uma estratégia de armazenamento ideal para a sua carga de trabalho na nuvem.
Considerações ao escolher uma solução de armazenamento de ficheiros
A escolha de uma solução de armazenamento de ficheiros requer compromissos relativamente à capacidade de gestão, ao custo, ao desempenho e à escalabilidade. Tomar a decisão é mais fácil se tiver uma carga de trabalho bem definida, o que nem sempre acontece. Quando as cargas de trabalho evoluem ao longo do tempo ou são altamente variáveis, é prudente trocar as poupanças de custos por flexibilidade e elasticidade, para que possa desenvolver a sua solução. Por outro lado, se tiver uma carga de trabalho temporal e bem conhecida, pode criar uma arquitetura de armazenamento de ficheiros criada especificamente que pode desativar e reconstruir para satisfazer as suas necessidades de armazenamento imediatas.
Uma das primeiras decisões a tomar é se quer pagar um serviço de armazenamento gerido, uma solução que inclui apoio técnico para produtos ou uma solução não suportada.
- Os serviços de armazenamento de ficheiros geridos são os mais fáceis de operar, porque a Google ou um parceiro processa todas as operações. Estes serviços podem mesmo fornecer um contrato de nível de serviço (SLA) para disponibilidade, como a maioria dos outros Google Cloud serviços.
- As soluções não geridas, mas suportadas, oferecem flexibilidade adicional. Os parceiros podem ajudar com quaisquer problemas, mas a operação diária da solução de armazenamento é da responsabilidade do utilizador.
- As soluções não suportadas exigem o maior esforço para implementação e manutenção, deixando todos os problemas ao utilizador. Estas soluções não estão abordadas neste documento.
A sua próxima decisão envolve determinar os requisitos de durabilidade e disponibilidade da solução. A maioria das soluções de ficheiros são soluções zonais e não oferecem proteção por predefinição se a zona falhar. Por isso, é importante considerar se é necessária uma solução de recuperação de desastres (RD) que proteja contra falhas zonais. Também é importante compreender os requisitos de aplicação para durabilidade e disponibilidade. Por exemplo, a escolha de SSDs locais ou discos persistentes na sua implementação tem um grande impacto, tal como a configuração do software da solução de ficheiros. Cada solução requer um planeamento cuidadoso para alcançar uma elevada durabilidade, disponibilidade e até proteção contra falhas zonais e regionais.
Por último, considere as localizações (ou seja, zonas, regiões, centros de dados no local) onde precisa de aceder aos dados. As localizações dos clusters de computação que acedem aos seus dados influenciam a sua escolha da solução de arquivo porque apenas algumas soluções permitem o acesso híbrido no local e na nuvem.
Soluções de armazenamento de ficheiros geridas
Esta secção descreve as soluções geridas pela Google para o armazenamento de ficheiros.
Filestore Basic
As instâncias do Filestore Basic são adequadas para a partilha de ficheiros, o desenvolvimento de software e as cargas de trabalho do GKE. Pode escolher um HDD ou um SSD para armazenar dados. O SSD oferece um melhor desempenho. Com qualquer uma das opções, a capacidade é aumentada de forma incremental e pode proteger os dados através de cópias de segurança.
Filestore zonal
O Filestore Zonal simplifica o armazenamento empresarial e a gestão de dados no Google Cloud e em nuvens híbridas. O Filestore Zonal oferece acesso paralelo económico e de elevado desempenho a dados globais, ao mesmo tempo que mantém uma consistência rigorosa com tecnologia de um sistema de ficheiros distribuído e dinamicamente escalável. Com o Filestore Zonal, as aplicações NFS existentes e os fluxos de trabalho NAS podem ser executados na nuvem sem necessidade de refatoração, mas mantêm as vantagens dos serviços de dados empresariais (por exemplo, instantâneos e cópias de segurança). O controlador CSI do Filestore permite a persistência, a portabilidade e a partilha de dados sem problemas para cargas de trabalho em contentores.
Pode dimensionar as instâncias zonais do Filestore a pedido. Isto permite-lhe criar e expandir a infraestrutura do sistema de ficheiros quando necessário, garantindo que o desempenho e a capacidade de armazenamento estão sempre alinhados com os requisitos do seu fluxo de trabalho dinâmico. À medida que um cluster zonal do Filestore se expande, o desempenho de metadados e de E/S é dimensionado linearmente. Esta escalabilidade permite-lhe melhorar e acelerar uma vasta gama de fluxos de trabalho com grande volume de dados, incluindo computação de alto desempenho, estatísticas, agregação de dados em vários sites, DevOps e muito mais. Como resultado, o Filestore Zonal é adequado para utilização em setores centrados em dados, como ciências da vida (por exemplo, sequenciação do genoma), serviços financeiros e meios de comunicação e entretenimento.
Para proteger ainda mais os dados críticos, o Filestore zonal também lhe permite tirar e manter capturas de ecrã periódicas, criar cópias de segurança e replicar para outra região. Com o Filestore, pode recuperar um ficheiro individual ou um sistema de ficheiros completo em menos de 10 minutos a partir de qualquer um dos pontos de recuperação anteriores.
Filestore Regional
O Filestore Regional é uma solução NFS nativa da nuvem totalmente gerida que lhe permite implementar aplicações críticas baseadas em ficheiros no Google Cloud, suportada por um SLA que oferece uma disponibilidade regional de 99,99%. Com um SLA de disponibilidade regional de 99,99%,
o Filestore Regional foi concebido para aplicações que exigem
elevada disponibilidade. Com alguns cliques do rato (ou alguns comandos gcloud
ou chamadas de API), pode aprovisionar partilhas NFS replicadas de forma síncrona em três zonas numa região. Se alguma zona na região ficar indisponível, o Filestore Regional continua a fornecer dados de forma transparente à aplicação sem intervenção operacional.
Para proteger ainda mais os dados críticos, o Filestore Regional também lhe permite tirar e manter instantâneos periódicos, criar cópias de segurança e replicar para outra região. Com o Filestore, pode recuperar um ficheiro individual ou um sistema de ficheiros completo em menos de 10 minutos a partir de qualquer um dos pontos de recuperação anteriores.
Para proteger ainda mais os dados críticos, o Filestore também lhe permite tirar e manter instantâneos periódicos do sistema de ficheiros. Com o Filestore, pode recuperar um ficheiro individual ou um sistema de ficheiros completo em menos de 10 minutos a partir de qualquer um dos pontos de recuperação anteriores.
Para aplicações críticas, como o SAP, os níveis da base de dados e da aplicação têm de estar altamente disponíveis. Para satisfazer este requisito, pode implementar a camada da base de dados SAP no Google Cloud Hyperdisk Extreme em várias zonas através da elevada disponibilidade da base de dados incorporada. Da mesma forma, a camada de aplicação NetWeaver, que requer executáveis partilhados em várias VMs, pode ser implementada no Filestore Regional, que replica os dados do NetWeaver em várias zonas numa região. O resultado final é uma arquitetura de aplicação de serviço crítico de três camadas altamente disponível.
As organizações de TI também estão a implementar cada vez mais aplicações com estado em contentores no Google Kubernetes Engine (GKE). Isto faz com que repensem frequentemente a infraestrutura de armazenamento a usar para suportar essas aplicações. Pode usar o armazenamento em blocos (Hyperdisk ou disco persistente), o armazenamento de ficheiros (Filestore Basic, zonal ou regional) ou o armazenamento de objetos (Cloud Storage). O Filestore Basic HDD para GKE e o Filestore multishares para GKE combinados com o controlador CSI do Filestore permitem que as organizações que requerem vários pods do GKE tenham acesso partilhado a ficheiros, o que oferece um nível de disponibilidade aumentado para cargas de trabalho críticas.
Managed Lustre
O Lustre gerido é um serviço gerido pela Google que oferece armazenamento de elevado débito e baixa latência para cargas de trabalho de HPC estreitamente associadas. Acelera significativamente as cargas de trabalho de HPC e a preparação e a inferência de IA, oferecendo acesso de elevado débito e baixa latência a conjuntos de dados massivos. Para informações sobre a utilização do Managed Lustre para cargas de trabalho de IA e ML, consulte o artigo Conceba armazenamento para cargas de trabalho de IA e ML no Google Cloud. O Lustre gerido distribui dados por vários nós de armazenamento, o que permite o acesso simultâneo por muitas VMs. Este acesso paralelo elimina os estrangulamentos que ocorrem com os sistemas de ficheiros convencionais e permite que as cargas de trabalho ingiram e processem rapidamente as grandes quantidades de dados necessárias.
NetApp Volumes
O NetApp Volumes é um serviço Google totalmente gerido que lhe permite montar rapidamente o armazenamento de ficheiros partilhado nas suas Google Cloud instâncias de computação. Os volumes NetApp suportam o acesso SMB, NFS e multiprotocolo. Os volumes da NetApp oferecem um elevado desempenho às suas aplicações com uma latência baixa, com capacidades robustas de proteção de dados: instantâneos, cópias, replicação entre regiões e cópia de segurança. O serviço é adequado para aplicações que requerem cargas de trabalho sequenciais e aleatórias, que podem ser dimensionadas em centenas ou milhares de instâncias do Compute Engine. Em segundos, é possível aprovisionar e proteger volumes com tamanhos que variam entre GiBs e um PiB com capacidades de proteção de dados robustas. Com vários níveis de serviço (Flex, Standard, Premium e Extreme), os volumes da NetApp oferecem o desempenho adequado para a sua carga de trabalho, sem afetar a disponibilidade.
Soluções de parceiros no Cloud Marketplace
As seguintes soluções facultadas por parceiros estão disponíveis no Cloud Marketplace.
NetApp Cloud Volumes ONTAP
O NetApp Cloud Volumes ONTAP (NetApp CVO) é uma solução baseada na nuvem gerida pelo cliente que oferece o conjunto completo de funcionalidades do ONTAP, o principal sistema operativo de gestão de dados da NetApp, para a Google Cloud. O CVO da NetApp é implementado na sua VPC, com faturação e apoio técnico da Google. O software ONTAP é executado numa VM do Compute Engine e usa uma combinação de discos persistentes e contentores do Cloud Storage (se a hierarquização estiver ativada) para armazenar os dados NAS. O gestor de ficheiros integrado acomoda os volumes NAS através do aprovisionamento reduzido, para que pague apenas pelo armazenamento que usa. À medida que os dados aumentam, são adicionados discos persistentes adicionais ao conjunto de capacidade agregado.
O CVO da NetApp abstrai a infraestrutura subjacente e permite-lhe criar volumes de dados virtuais extraídos do conjunto agregado que são consistentes com todos os outros volumes do ONTAP em qualquer nuvem ou ambiente no local. Os volumes de dados que cria suportam todas as versões de NFS, SMB, NFS/SMB multiprotocolo e iSCSI. Suportam uma vasta gama de cargas de trabalho baseadas em ficheiros, incluindo conteúdo multimédia e da Web, usado em vários setores, como a automação de design eletrónico (EDA) e os meios de comunicação e entretenimento.
O CVO da NetApp suporta instantâneos de um momento específico que poupam espaço, cópias de segurança incrementais ao nível do bloco incorporadas para sempre no Cloud Storage e replicação assíncrona entre regiões para recuperação de desastres. A opção para selecionar o tipo de instância do Compute Engine e os discos persistentes permite-lhe alcançar o desempenho pretendido para as suas cargas de trabalho. Mesmo quando funciona numa configuração de alto desempenho, o NetApp CVO implementa eficiências de armazenamento, como desduplicação, compactação e compressões, bem como a organização automática de dados usados com pouca frequência no contentor do Cloud Storage, o que lhe permite armazenar petabytes de dados e reduzir significativamente os custos de armazenamento gerais.
DDN Infinia
Se precisar de orquestração de dados de IA avançada, pode usar o DDN Infinia, que está disponível no Google Cloud Marketplace. A Infinia oferece uma solução de inteligência de dados focada na IA que está otimizada para inferência, preparação e estatísticas em tempo real. Permite o carregamento de dados ultrarrápido, a indexação com metadados e a integração perfeita com frameworks de IA, como o TensorFlow e o PyTorch.
Seguem-se as principais funcionalidades do DDN Infinia:
- Alto desempenho: oferece uma latência inferior a um milissegundo e uma taxa de transferência de vários TB/s.
- Escalabilidade: suporta a escalabilidade de terabytes para exabytes e pode acomodar mais de 100 000 GPUs e um milhão de clientes em simultâneo numa única implementação.
- Multi-tenancy com qualidade de serviço (QoS) previsível: oferece ambientes seguros e isolados para vários inquilinos com QoS previsível para um desempenho consistente em todas as cargas de trabalho.
- Acesso unificado aos dados: permite a integração perfeita com aplicações e fluxos de trabalho existentes através do suporte multiprotocolo integrado, incluindo para Amazon S3 compatível, CSI e Cinder.
- Segurança avançada: inclui encriptação integrada, codificação de eliminação com reconhecimento de domínio de falhas e capturas de ecrã que ajudam a garantir a proteção e a conformidade dos dados.
Nasuni Cloud File Storage
A Nasuni substitui os servidores de ficheiros empresariais e os dispositivos NAS, bem como todas as infraestruturas associadas, incluindo o hardware de cópia de segurança e de recuperação de desastres, por uma alternativa na nuvem mais simples e de baixo custo. A Nasuni usa o Google Cloud armazenamento de objetos para oferecer uma solução de armazenamento de software como serviço (SaaS) mais eficiente que é dimensionada para processar o crescimento rápido e não estruturado dos dados de ficheiros. O Nasuni foi concebido para processar partilhas de ficheiros de departamentos, projetos e organizacionais, bem como fluxos de trabalho de aplicações para todos os funcionários, onde quer que trabalhem.
A Nasuni oferece três pacotes com preços para empresas e organizações de todos os tamanhos, para que possam crescer e expandir-se conforme necessário.
As vantagens incluem o seguinte:
Armazenamento de ficheiros principal baseado na nuvem até 70% mais barato. A arquitetura da Nasuni tira partido das políticas de gestão do ciclo de vida de objetos incorporadas. Estas políticas permitem uma flexibilidade total para utilização com classes do Cloud Storage, incluindo Standard, Nearline, Coldline e Archive. Ao usar a classe de arquivo de acesso imediato para armazenamento principal com o Nasuni, pode obter uma poupança de custos de até 70%.
Partilhas de ficheiros departamentais e organizacionais na nuvem. A arquitetura baseada na nuvem da Nasuni oferece um único espaço de nomes global emGoogle Cloud regiões, sem limites no número de ficheiros, tamanhos de ficheiros ou capturas de ecrã, o que lhe permite armazenar ficheiros diretamente a partir do seu computador emGoogle Cloud através de protocolos de mapeamento de unidades NAS (SMB) padrão.
Cópia de segurança e recuperação de desastres integradas. As operações "configure e esqueça" da Nasuni facilitam a gestão do armazenamento de ficheiros global. A cópia de segurança e a RD estão incluídas, e uma única consola de gestão permite-lhe supervisionar e controlar o ambiente em qualquer lugar e em qualquer altura.
Substitui servidores de ficheiros antigos. A Nasuni simplifica a migração de servidores de ficheiros Microsoft Windows e outros sistemas de armazenamento de ficheiros existentes para o Google Cloud, reduzindo os custos e a complexidade de gestão destes ambientes.
Para mais informações, consulte o seguinte:
- Visita guiada do Nasuni
- Nasuni e Google Cloud parceria
- Breve solução de armazenamento de ficheiros empresariais da Nasuni (PDF) Google Cloud
- Nasuni Cloud File Storage no Cloud Marketplace
- Nasuni e Google Cloud blogue
Plataforma de armazenamento de dados inteligente da Sycomp
A plataforma de armazenamento de dados inteligente da Sycomp, que está disponível no Google Cloud Marketplace, permite-lhe executar as suas cargas de trabalho de computação de alto desempenho (HPC), IA e AA, e de grandes volumes de dados no Google Cloud. Com o Sycomp Storage, pode aceder em simultâneo a dados de milhares de VMs, reduzir os custos através da gestão automática dos níveis de armazenamento e executar a sua aplicação no local ou na Google Cloud. O armazenamento Sycomp pode ser implementado rapidamente e suporta o acesso aos seus dados através do NFS e do cliente IBM Storage Scale.
O IBM Storage Scale é um sistema de ficheiros paralelo que ajuda a gerir em segurança grandes volumes (PBs) de dados. O Sycomp Storage Scale é um sistema de ficheiros paralelo adequado para HPC, IA, ML, Big Data e outras aplicações que requerem um sistema de ficheiros partilhado compatível com POSIX. Com uma capacidade de armazenamento adaptável e um dimensionamento do desempenho, o armazenamento da Sycomp pode suportar cargas de trabalho de HPC, IA e ML de pequena a grande escala.
Depois de implementar um cluster no Google Cloud, decide como quer usá-lo. Escolha se quer usar o cluster apenas na nuvem ou no modo híbrido, ligando-se a clusters IBM Storage Scale no local existentes, soluções NAS NFS de terceiros ou outras soluções de armazenamento baseadas em objetos.
Colaboradores
Autor: Sean Derrington | Group Product Manager, Storage
Outros colaboradores:
- Dean Hildebrand | Technical Director, Office of the CTO
- Kumar Dhanagopal | Cross-Product Solution Developer