Almacenamiento de archivos en Compute Engine

El almacenamiento de archivos (también conocido como almacenamiento conectado a la red [NAS]) proporciona acceso a nivel de archivo a las aplicaciones para leer y actualizar información que se puede compartir en varias máquinas. Algunas soluciones de almacenamiento de archivos locales tienen una arquitectura de escalamiento vertical y solo agregan almacenamiento a una cantidad fija de recursos de procesamiento. Otras soluciones de almacenamiento de archivos tienen una arquitectura de escalamiento horizontal en la que la capacidad y el procesamiento (rendimiento) se pueden agregar de forma incremental a un sistema de archivos existente según sea necesario. En ambas arquitecturas de almacenamiento, una o varias máquinas virtuales (VM) pueden acceder al almacenamiento.

Aunque algunos sistemas de archivos usan un cliente POSIX nativo, muchos sistemas de almacenamiento usan un protocolo que habilita a las máquinas cliente para activar un sistema de archivos y acceder a los archivos como si estuvieran alojados de forma local. Los protocolos más comunes a fin de exportar archivos compartidos son el sistema de archivos de red (NFS) para Linux (y, en algunos casos, Windows) y el bloque de mensajes del servidor (SMB) para Windows.

En esta solución, se describen las siguientes opciones para compartir archivos:

Discos persistentes de Compute Engine y SSD locales

Soluciones de almacenamiento de archivos administradas:

Soluciones de archivador compatibles en Cloud Marketplace:

Un factor subyacente en el rendimiento y la previsibilidad de todos los servicios de Google Cloud es la pila de red que Google desarrolló durante muchos años. Con Jupiter Fabric, Google creó una pila de herramientas de redes sólida, escalable y estable que puede continuar evolucionando sin afectar tus cargas de trabajo. A medida que Google mejora y refuerza sus capacidades de red internamente, la solución para compartir archivos se beneficia del rendimiento agregado. Para obtener más detalles sobre Jupiter Fabric, consulta el documento de 2015 en el que se describe su evolución.

Una de las características de Google Cloud que puede ayudarte a aprovechar al máximo tu inversión es la capacidad de especificar Tipos de VM personalizadas. Cuando eliges el tamaño del archivador, puedes optar por la combinación correcta de memoria y CPU, de modo que el archivador funcione con un rendimiento óptimo sin que se lo suscriba en exceso.

Además, es importante elegir la capacidad de disco persistente correcta de Compute Engine y la cantidad de CPU virtuales para garantizar que los dispositivos de almacenamiento del servidor de archivos reciban el ancho de banda de almacenamiento y los IOPS requeridos, así como el ancho de banda de la red. Una VM recibe 2 Gb/s de capacidad de procesamiento de red para cada CPU virtual (hasta el máximo). Para ajustar el disco persistente, consulta Optimiza el rendimiento del SSD local y del disco persistente.

Ten en cuenta que Cloud Storage también es una excelente manera de almacenar petabytes de datos con altos niveles de redundancia a un costo bajo, pero Cloud Storage presenta un perfil de rendimiento y una API diferentes a los servidores de archivos que se analizan aquí.

Resumen de opciones de servidores de archivos

En la siguiente tabla, se resumen las características de los discos persistentes y las opciones de servidores de archivos:

Solución de servidor de archivos Conjunto de datos óptimo Capacidad de procesamiento Asistencia administrada Protocolos de exportación
Filestore Basic De 1 TB a 64 TB Hasta 1.2 GB/s Servicio completamente administrado por Google NFSv3
Filestore High Scale De 1 TB a 100 TB Hasta 25 GB/s Servicio completamente administrado por Google NFSv3
Cloud Volumes de NetApp De 20 MB a 2 PB De 10s a 100s Gb/s Servicio completamente administrado por NetApp NFSv3, NFSv4.x, SMB2, SMB3, iSCSI
Dell EMC PowerScale 25 TiB hasta 33 PiB Hasta 100 s de GB/s Servicio completamente administrado por Google y Dell Technologies NFSv3, NFSv4, SMB1, SMB2, SMB3, HDFS
Panzura De 10 s de TB a > 1 PB Hasta varios GB/s Panzura NFSv3, NFSv4, SMB1, SMB2, SMB3
Nasuni De 10 s de TB a > 1 PB Hasta 1.2 GB/s Nasuni y administrado por el cliente NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Disco persistente de solo lectura < 64 TB De 240 a 1,200 MB/s No Adjunto directo

Discos persistentes de Compute Engine y SSD locales

Si tienes datos a los que solo puede acceder una VM o que no cambian con el tiempo, puedes usar los discos persistentes de Compute Engine y evitar un servidor de archivos por completo. Con los discos persistentes, puedes formatear los datos con un sistema de archivos, como Ext4 o XFS, y conectar volúmenes en modo de lectura-escritura o de solo lectura. Esto significa que primero puedes conectar un volumen a una instancia, cargarlo con los datos que necesites y, luego, conectarlo como un disco de solo lectura a cientos de VM al mismo tiempo El empleo de discos persistentes de solo lectura no funciona en todos los casos prácticos, pero puede reducir considerablemente la complejidad, en comparación con el uso de un servidor de archivos.

Los discos persistentes ofrecen un rendimiento coherente. Todos los discos del mismo tamaño (y la misma cantidad de CPU virtuales para discos persistentes SSD) que conectes a la instancia presentarán las mismas características de rendimiento. No necesitas probar o preparar los discos persistentes antes de usarlos para la producción.

El costo de los discos persistentes es fácil de determinar, ya que no hay costos de E/S que debas tener en cuenta después de aprovisionar el volumen. También se puede cambiar el tamaño de los discos persistentes sobre la marcha, lo que te permite comenzar con un costo y un volumen de capacidad bajos; además, no es necesario que inicies instancias o discos adicionales para escalar la capacidad.

Si la capacidad de almacenamiento total es el requisito principal, puedes usar discos persistentes estándar de costo bajo. Para obtener el mejor rendimiento y, al mismo tiempo, asegurarte de que sea duradero, usa discos persistentes SSD.

Si tus datos son efímeros y requieren una latencia de menos de un milisegundo, así como operaciones de E/S por segundo (IOPS) altas, puedes aprovechar los SSD locales de hasta 9 TB para obtener un máximo rendimiento. Los SSD locales proporcionan GB/s de ancho de banda y millones de IOPS, siempre que no agoten el ancho de banda de red asignado a tus instancias. Es importante recordar que las SSD locales tienen ciertas compensaciones en cuanto a disponibilidad, durabilidad y flexibilidad.

Si deseas ver una comparación de los distintos tipos de discos disponibles para las instancias de Compute Engine, consulta la documentación de almacenamiento en bloque.

Consideraciones para elegir una solución de almacenamiento de archivos

Elegir una solución de almacenamiento de archivos requiere realizar compensaciones con respecto al costo, la administración, el rendimiento y la escalabilidad. Es más fácil elegir si tienes una carga de trabajo bien definida, lo que no suele ser el caso. Cuando las cargas de trabajo evolucionan con el tiempo o son muy variables, es prudente cambiar los ahorros en costos por flexibilidad y elasticidad a fin de que tu solución sea más eficiente. Por otro lado, si tienes una carga de trabajo temporal y conocida, puedes crear una arquitectura de almacenamiento de archivos diseñada con una finalidad específica, que puedes eliminar y volver a compilar fácilmente para satisfacer tus necesidades de almacenamiento inmediatas.

Una de las primeras decisiones que debes tomar es si deseas pagar por un servicio de almacenamiento administrado, una solución que incluya asistencia para productos o una solución sin asistencia.

  • Los servicios de almacenamiento de archivos administrados son más fáciles de operar, ya que Google o un socio se encargan de todas las operaciones. Es posible que estos servicios de servidores de archivos proporcionen un ANS de disponibilidad, al igual que la mayoría de los demás servicios de Google Cloud.
  • Las soluciones no administradas, pero compatibles, ofrecen flexibilidad adicional. Los socios pueden ayudar con cualquier problema, pero la operación diaria de la solución de almacenamiento es tarea del usuario.
  • Las soluciones no compatibles requieren mayor esfuerzo de implementación y mantenimiento, lo que deja todos los problemas a cargo del usuario. Estas soluciones no se tratan en este documento.

La siguiente decisión implica determinar los requisitos de durabilidad y disponibilidad de la solución. La mayoría de las soluciones de archivos son zonales y, si la zona falla, no incluyen protección de forma predeterminada. Por lo tanto, es importante considerar si se requiere una solución de recuperación ante desastres (DR) que otorgue protección contra fallas zonales. También es importante comprender los requisitos de la aplicación respecto a la durabilidad y la disponibilidad. Por ejemplo, la elección de SSD locales o discos persistentes en la implementación tiene un gran impacto, al igual que la configuración del software de solución de archivos. Cada solución requiere una planificación adecuada para lograr una durabilidad, una disponibilidad y una protección que sean eficaces contra fallas zonales y regionales.

Por último, considera las ubicaciones (es decir, las zonas, las regiones, los centros de datos locales) desde las cuales necesitas acceder a los datos. Las ubicaciones de las granjas de procesamiento que acceden a tus datos influyen en la elección de la solución de servidor de archivos, porque solo algunas soluciones permiten el acceso híbrido local y en la nube.

Soluciones de almacenamiento de archivos administradas

Filestore Basic

Filestore es la solución de NAS completamente administrada de Google.

Puedes activar con facilidad archivos compartidos de Filestore en VM de Compute Engine. Filestore también se encuentra estrechamente integrado a Google Kubernetes Engine, de modo que los contenedores pueden hacer referencia a los mismos datos compartidos.

Filestore ofrece dos niveles de rendimiento: Estándar y Premium. Ambos niveles proporcionan un rendimiento coherente y costos predecibles.

Para obtener más información, consulta estos vínculos:

Filestore High Scale

Filestore High Scale simplifica el almacenamiento empresarial y la administración de datos en Google Cloud y en nubes híbridas. Filestore High Scale ofrece un acceso paralelo rentable y de alto rendimiento a los datos globales, y al mismo tiempo mantiene una coherencia estricta con la tecnología de un sistema de archivos distribuido y escalable de forma dinámica. Con High Scale, las aplicaciones NFS existentes y los flujos de trabajo de NAS pueden ejecutarse en la nube sin necesidad de refactorizar, pero retienen los beneficios de los servicios de datos empresariales (disponibilidad alta, compresión, anulación de duplicación, etcétera.). La integración basada en la nube con Google Kubernetes Engine permite la persistencia, la portabilidad y el uso compartido de los datos sin interrupciones para las cargas de trabajo en contenedores.

La escala masiva se puede implementar y escalar con solo presionar un botón. Te permite crear y expandir la infraestructura del sistema de archivos de forma sencilla y según la demanda, lo cual asegura que el rendimiento y la capacidad de almacenamiento estén siempre alineados con los requisitos de flujo de trabajo dinámico. A medida que se expande un clúster de escala masiva, tanto los metadatos como el rendimiento de E/S se ajustan de forma lineal. Este escalamiento te permite mejorar y acelerar un rango amplio de flujos de trabajo con uso intensivo de datos, que incluyen computación de alto rendimiento, estadísticas, agregación de datos entre sitios, DevOps y muchas opciones más. Por lo tanto, la escala masiva es una muy buena opción para usar en industrias centradas en datos, como las ciencias biológicas (por ejemplo, la secuenciación del genoma), los servicios financieros y los medios de comunicación y entretenimiento.

Cloud Volumes de NetApp

Cloud Volumes ONTAP de NetApp es una solución completamente administrada y basado en la nube que brinda el conjunto completo de funciones de ONTAP, el sistema operativo de administración de datos líder de NetApp, a Google Cloud. Cloud Volumes ONTAP se implementa dentro de la VPC, incluida la facturación y la asistencia de Google. El software ONTAP se ejecuta en una máquina virtual de Compute Engine y usa una combinación de discos persistentes (PD) y buckets de Cloud Storage para almacenar los datos de NAS. El archivador integrado se adapta a los volúmenes de NAS mediante el aprovisionamiento delgado, por lo que solo pagues por el almacenamiento que uses. A medida que los datos crecen, se agregan PD adicionales al grupo de capacidad agregada. Cloud Volumes se entrega como un servicio administrado por arquitectura de escalamiento vertical llamado Cloud Volumes Service o como una solución administrada por arquitectura de escalamiento horizontal llamada Cloud Volumes ONTAP.

El servicio te permite activar con rapidez el almacenamiento compartido persistente en las instancias de procesamiento de Google Cloud. Este almacenamiento entrega una alta capacidad de procesamiento a tus aplicaciones con baja latencia, con capacidades sólidas de protección de datos (instantáneas y copias). Con una arquitectura de nivel empresarial, el servicio proporciona un alto rendimiento para cargas de trabajo secuenciales y aleatorias, que pueden escalar en cientos o miles de instancias de procesamiento de Compute Engine. En segundos, los volúmenes que varían en tamaño de 20 MB a 2 PB se pueden aprovisionar y proteger con instantáneas automatizadas y eficientes en el uso del espacio. Con tres niveles de servicio (estándar, premium y extremo) que puedes cambiar a pedido, Cloud Volumes Service ofrece el rendimiento que se adecúa a tu carga de trabajo, sin afectar su disponibilidad.

Cloud Volumes ONTAP abstrae la infraestructura subyacente y te permite crear volúmenes de datos virtuales tallados en el grupo agregado que son coherentes con todos los otros volúmenes ONTAP en cualquier nube o entorno local. Los volúmenes de datos que creas admiten todas las versiones de NFS, SMB, NFS/SMB de varios protocolos y iSCS, y admiten una amplia gama de cargas de trabajo basadas en archivos, incluido el contenido web y de rich media que se usa en muchas industrias, como la automatización de diseño electrónico (EDA), multimedia y entretenimiento.

Arquitectura del NetApp Cloud Volumes Service.

La arquitectura de HA de Cloud Volumes ONTAP incluye la duplicación síncrona de los datos entre 2 zonas diferentes con un mediador en una tercera zona, conmutación por error automática y conmutación por recuperación para garantizar, al menos, una disponibilidad del 99.99%, RPO=0 (sin pérdida de datos) y RTO de menos de 60 segundos, según lo requieren las cargas de trabajo esenciales. Cloud Volumes ONTAP admite instantáneas de un momento determinado que ahorran espacio, almacenamiento integrado a nivel de bloque, copia de seguridad incremental permanente en Cloud Storage y replicación asíncrona interregión para la recuperación ante desastres. La opción de seleccionar el tipo de instancia de Compute Engine y PD te permite lograr el rendimiento que deseas para tus cargas de trabajo. Incluso cuando se opera en una configuración de alto rendimiento, Cloud Volumes ONTAP implementa eficiencias de almacenamiento, como anulación de duplicación, compactación y compresión, además de datos de nivel automático que se usan con poca frecuencia al bucket de Cloud Storage, lo que te permite almacenar petabytes de datos y, de este modo, reducir de forma significativa los costos generales de almacenamiento.

Para obtener más información, sigue estos vínculos:

Dell EMC PowerScale para Google Cloud

Dell EMC PowerScale para Google Cloud es un servicio integrado de archivos nativos de la nube de usuarios de Google Cloud con la tecnología de Dell EMC PowerScale, el sistema de almacenamiento NAS N.º 1 de la industria. Esta oferta predeterminada, administrada por Dell Technologies Services, combina el rendimiento y la capacidad a gran escala de PowerScale OneFS, la flexibilidad y la economía de costos de Google Cloud.

PowerScale para Google Cloud es un servicio simple y fácil de usar con suscripciones anuales y precios predecibles y garantizados. Los clientes lo piden de Cloud Marketplace y, una vez aprovisionado, pueden configurar y administrar sus clústeres de OneFS directamente desde Google Cloud Console. Google envía una sola factura mensual, y la asistencia de Google, mientras que los expertos en Dell Technologies proporcionan una administración completa del ciclo de vida del entorno.

Con PowerScale para Google Cloud, las organizaciones pueden implementar una instancia de PowerScale dedicada y segura con acceso a la latencia inferior a un milisegundo a los servicios de procesamiento y estadísticas de Google Cloud, a la vez que conservan el valor que disfrutan con PowerScale sin tener que realizar cambios en sus aplicaciones. PowerScale para Google Cloud proporciona acceso de varios protocolos y escalamiento horizontal de hasta 33 PiB en un solo espacio de nombres, junto con otras funciones de clase empresarial, como acceso a varios protocolos, instantáneas y replicación nativa. Con el respaldo de los ANS de tiempo de actividad y ANS de rendimiento a nivel empresarial, los clientes pueden expandir las capacidades de almacenamiento de archivos existentes y nuevas, y capacidades nuevas, todo sin inversiones adicionales en su centro de datos, instalaciones, personas, hardware, ingeniería o integración.

Google Cloud ofrece una amplia variedad de servicios de procesamiento y estadísticas para el procesamiento local de costo rentable y el análisis de cargas de trabajo basadas en archivos, con alta capacidad de procesamiento. Juntos, PowerScale para Google Cloud permite a las empresas ejecutar las cargas de trabajo basadas en archivos más exigentes en la nube, desde el análisis de macrodatos, la inteligencia artificial, el aprendizaje automático hasta la secuenciación del genoma y el entretenimiento y los medios de comunicación, y aprovechar los modelos flexibles de consumo en la nube y la economía en la nube.

Arquitectura de Cloud PowerScale para Google Cloud de Dell Technologies.

Para obtener más información, sigue estos vínculos:

DDN EXAScaler Cloud

La plataforma EXAScaler Cloud de DDN es una solución de archivos compartidos en paralelo líder de la industria para el procesamiento de datos de alto rendimiento y la administración de grandes volúmenes de datos necesarios para admitir cargas de trabajo de IA, HPC y estadísticas. Las ciencias biológicas, la energía, los vehículos autónomos, los servicios financieros y otros clientes que consumen muchos datos pueden aprovechar EXAScaler Cloud para IA y estadísticas en la nube a fin de maximizar el retorno de los recursos de Google Cloud y crear flujos de trabajo ágiles con aumentos de actividad en la nube y retención de datos a largo plazo.

Los usos ideales de EXAScaler Cloud incluyen aplicaciones de IA de inferencia y aprendizaje profundo, arquitecturas de nube híbrida para aumentos de actividad en la nube a fin de aprovechar el procesamiento de alto rendimiento a pedido y como un repositorio para almacenar a largo plazo desde una implementación de EXAScaler local. EXAScaler basado en la nube es fácil de implementar y aprovecha el sistema de archivos paralelo de DDN, en el que se basan más de dos tercios de las 100 supercomputadoras principales.

EXAScaler Cloud está diseñado para optimizar las cargas de trabajo en la nube con uso intensivo de datos a fin de reducir el tiempo necesario para obtener estadísticas, ya que reduce la contención de E/S y entrega un acceso resiliente al almacenamiento compartido para una gran cantidad de clientes. EXAScaler Cloud optimiza todo el entorno para un rendimiento alto desde la aplicación hasta los dispositivos de almacenamiento, incluidas la red y las instancias de procesamiento.

Diferencias de aplicaciones de HPC.

Con parámetros de configuración flexible, EXAScaler Cloud es útil para cargas de trabajo temporales de alto rendimiento, más IOPS persistentes o aplicaciones orientadas a la capacidad de procesamiento, e incluso datos persistentes a largo plazo. Mediante la imitación de las arquitecturas locales en la nube, los clientes pueden realizar la transición de las cargas de trabajo sin problemas y ayudar a minimizar las interrupciones de las aplicaciones del usuario final a medida que se mueven las cargas de trabajo.

DDN EXAScaler Cloud controla las cargas de trabajo escalables y cuenta con el conocimiento experto que adquirieron para los entornos de datos más grandes del mundo. Con las opciones de asistencia premium, los clientes obtienen la misma experiencia de asistencia de expertos de forma local y en la nube.

Para obtener más información, sigue estos vínculos:

Soluciones de archivador compatibles en Cloud Marketplace:

Las siguientes soluciones están disponibles en Cloud Marketplace.

Panzura

Panzura es líder en la administración de datos no estructurados en la nube. Las empresas de medios de comunicación y entretenimiento, genómica, ciencias biológicas, atención médica y servicios financieros, entre otras, eligen Panzura Freedom NAS para consolidar sus islas de datos en una sola fuente de información en Google Cloud sin sacrificar el rendimiento o las reescrituras de aplicaciones. Si consolidas datos no estructurados (NFS, SMB y Object) en Google Cloud, acedes a todos tus datos, colaborar en estos datos, además de analizarlos y controlarlos para garantizar su cumplimiento.

Panzura CloudFS es la base de Freedom Family y es un sistema de archivos distribuido que se escala horizontalmente creado para la nube. Incorpora servicios de archivos inteligentes con un respaldo de 26 patentes. La familia de productos Freedom te permite abordar de manera rentable los siguientes casos de uso: migración a la nube, colaboración global, y búsqueda y estadísticas.

Panzura Freedom junto con Google Cloud permiten a los líderes de TI realizar las siguientes acciones:

  • Migrar miles de aplicaciones heredadas a Google Cloud sin tener que volver a escribir, cambiar los flujos de trabajo ni sacrificar el rendimiento
  • Quitar la subutilización de datos de copia para la copia de seguridad y el almacenamiento secundario mediante la consolidación de los datos en una sola fuente de información
  • Colaborar de forma global en proyectos a gran escala para mejorar la productividad y el tiempo de salida al mercado
  • Modernizar el NAS heredado y, al mismo tiempo, obtener un ahorro de costos del 70% y reducir la infraestructura de archivos en el centro de datos en un 90%
  • Rehidratar los datos de cinta heredados para obtener estadísticas avanzadas y aprendizaje automático

Más información:

Nasuni Cloud File Storage

Nasuni reemplaza los servidores de archivos empresariales, los dispositivos NAS y todas las infraestructuras asociadas, incluidas las copias de seguridad y el hardware de DR, por una alternativa a la nube más simple y de bajo costo. Nasuni usa el almacenamiento de objetos de Google Cloud para ofrecer una solución de almacenamiento de software como servicio (SaaS) más eficiente que escala con facilidad a fin de controlar el crecimiento de datos de archivos no estructurado y rápido. Nasuni está diseñado a fin de controlar flujos de trabajo de aplicaciones, departamentos y proyectos, y flujos de trabajo de aplicaciones para cada empleado, sin importar dónde trabaje.

Nasuni Cloud File Storage.

Nasuni ofrece tres paquetes con precios para empresas y organizaciones de todos los tamaños, de modo que puedan crecer y expandirse según sea necesario.

Sus beneficios incluyen los siguientes:

  • El almacenamiento de archivos principales basado en la nube cuesta hasta un 70% menos. La arquitectura de Nasuni aprovecha las políticas de administración del ciclo de vida de objetos nativos de Google Cloud. Estas políticas permiten una flexibilidad total para usar las clases de almacenamiento de objetos de Cloud Storage, incluidos Standard, Nearline, Coldline y Archive. Si usas el almacenamiento de objetos de clase Archive único de acceso inmediato para el almacenamiento principal con Nasuni, puedes ahorrar hasta un 70% en costos.
  • Archivos compartidos de nivel de organización y departamento en la nube. La arquitectura basada en la nube de Nasuni ofrece un espacio de nombres global único entre regiones de Google Cloud, sin límites para la cantidad de archivos, tamaños de archivos o instantáneas, lo que te permite almacenar archivos directamente desde tu escritorio en Google Cloud mediante protocolos de asignación de unidad de NAS (SMB) estándar.
  • Copia de seguridad integrada y recuperación ante desastres. Las operaciones “configurar y olvidar” de Nasuni facilitan la administración del almacenamiento global de archivos. La copia de seguridad y DR integradas se incluyen en una sola consola de administración en la que puedes supervisar y controlar el entorno en cualquier momento y lugar.
  • Reemplaza los servidores de archivos antiguos. Nasuni facilita la migración de los servidores de archivos de Microsoft Windows y otros sistemas de almacenamiento de archivos existentes a Google Cloud, lo que reduce los costos y la complejidad de la administración de estos entornos.

Recursos adicionales