Almacenamiento de archivos en Compute Engine

Last reviewed 2023-12-20 UTC

El almacenamiento de archivos, también conocido como almacenamiento conectado a la red (NAS), proporciona acceso a nivel de archivo a las aplicaciones para leer y actualizar información que se puede compartir en varias máquinas. Algunas soluciones de almacenamiento de archivos locales tienen una arquitectura de escalamiento vertical y solo agregan almacenamiento a una cantidad fija de recursos de procesamiento. Otras soluciones de almacenamiento de archivos tienen una arquitectura de escalamiento horizontal en la que la capacidad y el procesamiento (rendimiento) se pueden agregar de forma incremental a un sistema de archivos existente según sea necesario. En ambas arquitecturas de almacenamiento, una o varias máquinas virtuales (VMs) pueden acceder al almacenamiento.

Aunque algunos sistemas de archivos usan un cliente POSIX nativo, muchos sistemas de almacenamiento usan un protocolo que habilita a las máquinas cliente para activar un sistema de archivos y acceder a los archivos como si estuvieran alojados de forma local. Los protocolos más comunes a fin de exportar archivos compartidos son el sistema de archivos de red (NFS) para Linux (y, en algunos casos, Windows) y el Bloque de mensajes del servidor (SMB) para Windows.

En este documento, se describen las siguientes opciones para compartir archivos:

Disco persistente de Compute Engine y SSD locales
Soluciones administradas:
Soluciones de socios en Google Cloud Marketplace:

Un factor subyacente en el rendimiento y la previsibilidad de todos los servicios de Google Cloud es la pila de red que Google desarrolló durante muchos años. Con Jupiter Fabric, Google creó una pila de herramientas de redes sólida, escalable y estable que puede continuar evolucionando sin afectar tus cargas de trabajo. A medida que Google mejora y refuerza sus capacidades de red internamente, la solución para compartir archivos se beneficia del rendimiento agregado.

Una de las características de Google Cloud que puede ayudarte a aprovechar al máximo tu inversión es la capacidad de especificar Tipos de VM personalizadas. Cuando eliges el tamaño del archivador, puedes optar por la combinación correcta de memoria y CPU, de modo que el archivador funcione con un rendimiento óptimo sin que se lo suscriba en exceso.

Además, es importante elegir la capacidad de disco persistente correcta de Compute Engine y la cantidad de CPU virtuales para garantizar que los dispositivos de almacenamiento del servidor de archivos reciban el ancho de banda de almacenamiento y los IOPS requeridos, así como el ancho de banda de la red. Una VM recibe 2 Gbps de capacidad de procesamiento de red para cada CPU virtual (hasta el máximo). Para ajustar el disco persistente, consulta Optimiza el rendimiento del SSD local y del disco persistente.

Ten en cuenta que Cloud Storage también es una excelente manera de almacenar petabytes de datos con altos niveles de redundancia a un costo bajo, pero Cloud Storage presenta un perfil de rendimiento y una API diferentes a los servidores de archivos que se analizan aquí.

Resumen de las soluciones de servidores de archivos

En la siguiente tabla, se resumen las soluciones y las funciones de servidores de archivos:

Solución	Conjunto de datos óptimo	Capacidad de procesamiento	Asistencia administrada	Protocolos de exportación
Filestore Basic	1 TiB a 64 TiB	Hasta 1.2 GiB/s	Completamente administrado por Google	NFSv3
Filestore Zonal	1 TiB a 100 TiB	Hasta 26 GiB/s	Completamente administrado por Google	NFSv3
Filestore Enterprise	1 TiB a 10 TiB	Hasta 1.2 GiB/s	Completamente administrado por Google	NFSv3
Google Cloud NetApp Volumes	1 GiB a 100 TiB	MB/s a 4.5 GiB/s	Completamente administrado por Google	NFSv3, NFSv4.1, SMB2, SMB3
Cloud Volumes ONTAP de NetApp	1 GiB a 1 PiB	varía	Administrada por el cliente	NFSv3, NFSv4.1, SMB2, SMB3, iSCSI
Nasuni	De decenas de TB a > 1 PB	Hasta 1.2 Gbps	Nasuni y administrado por el cliente	NFSv3, NFSv4, NFSv4.1, NFSv4.2, SMB2, SMB3
Disco persistente de solo lectura	< 64 TB	De 240 a 1,200 Mbps	No	Adjunto directo

Discos persistentes y SSD locales

Si tienes datos a los que solo puede acceder una VM o que no cambian con el tiempo, puedes usar los volúmenes de discos persistentes de Compute Engine y evitar un servidor de archivos por completo. Con los discos persistentes, puedes formatear los datos con un sistema de archivos, como Ext4 o XFS, y adjuntar volúmenes en modo de lectura-escritura o de solo lectura. Esto significa que primero puedes adjuntar un volumen a una instancia, cargar ese volumen con los datos que necesites y, luego, adjuntarlo como disco de solo lectura a cientos de VMs de manera simultánea. El empleo de discos persistentes de solo lectura no funciona en todos los casos de uso, pero puede reducir de forma considerable la complejidad, en comparación con el uso de un servidor de archivos.

Los discos persistentes ofrecen un rendimiento coherente. Todos los discos del mismo tamaño (y la misma cantidad de CPU virtuales para discos persistentes SSD) que conectes a la instancia presentarán las mismas características de rendimiento. No necesitas probar o preparar los discos persistentes antes de usarlos para la producción.

El costo de los discos persistentes es fácil de determinar, ya que no hay costos de E/S que debas tener en cuenta después de aprovisionar el volumen. También se puede cambiar el tamaño de los discos persistentes cuando sea necesario. Esto te permite comenzar con un costo y un volumen de capacidad bajos; además, no necesitas crear instancias ni discos adicionales para escalar tu capacidad.

Si la capacidad de almacenamiento total es el requisito principal, puedes usar discos persistentes estándar de costo bajo. Para obtener el mejor rendimiento y, al mismo tiempo, asegurarte de que sea duradero, usa discos persistentes SSD.

Si tus datos son efímeros y requieren una latencia de menos de un milisegundo, así como operaciones de E/S por segundo (IOPS) altas, puedes aprovechar las SSD locales de hasta 9 TB para obtener un máximo rendimiento. Las SSD locales proporcionan Gbps de ancho de banda y millones de IOPS, siempre que no agoten el ancho de banda de red asignado a tus instancias. Es importante recordar que las SSD locales tienen ciertas compensaciones en cuanto a disponibilidad, durabilidad y flexibilidad.

Si deseas ver una comparación de los distintos tipos de discos disponibles para las instancias de Compute Engine, consulta la documentación de almacenamiento en bloque.

Consideraciones para elegir una solución de almacenamiento de archivos

Elegir una solución de almacenamiento de archivos requiere realizar compensaciones con respecto al costo, la administración, el rendimiento y la escalabilidad. Es más fácil elegir si tienes una carga de trabajo bien definida, lo que no suele ser el caso. Cuando las cargas de trabajo evolucionan con el tiempo o son muy variables, es prudente cambiar los ahorros en costos por flexibilidad y elasticidad a fin de que tu solución sea más eficiente. Por otro lado, si tienes una carga de trabajo temporal y conocida, puedes crear una arquitectura de almacenamiento de archivos diseñada con una finalidad específica, que puedes eliminar y volver a compilar para satisfacer tus necesidades de almacenamiento inmediatas.

Una de las primeras decisiones que debes tomar es si deseas pagar por un servicio de almacenamiento administrado, una solución que incluya asistencia para productos o una solución sin asistencia.

Los servicios de almacenamiento de archivos administrados son más fáciles de operar, ya que Google o un socio se encargan de todas las operaciones. Es posible que estos servicios proporcionen un Acuerdo de Nivel de Servicio (ANS) para la disponibilidad, al igual que la mayoría de los demás servicios de Google Cloud.
Las soluciones no administradas, pero compatibles, ofrecen flexibilidad adicional. Los socios pueden ayudar con cualquier problema, pero la operación diaria de la solución de almacenamiento es tarea del usuario.
Las soluciones no compatibles requieren mayor esfuerzo de implementación y mantenimiento, lo que deja todos los problemas a cargo del usuario. Estas soluciones no se tratan en este documento.

La siguiente decisión implica determinar los requisitos de durabilidad y disponibilidad de la solución. La mayoría de las soluciones de archivos son zonales y no proporcionan protección predeterminada si la zona falla. Por lo tanto, es importante considerar si se requiere una solución de recuperación ante desastres (DR) que otorgue protección contra fallas zonales. También es importante comprender los requisitos de la aplicación respecto a la durabilidad y la disponibilidad. Por ejemplo, la elección de SSD locales o discos persistentes en la implementación tiene un gran impacto, al igual que la configuración del software de solución de archivos. Cada solución requiere una planificación adecuada para lograr una durabilidad, una disponibilidad y una protección que sean eficaces contra fallas zonales y regionales.

Por último, considera las ubicaciones (es decir, las zonas, las regiones, los centros de datos locales) desde las cuales necesitas acceder a los datos. Las ubicaciones de las granjas de procesamiento que acceden a tus datos influyen en la elección de la solución de servidor de archivos, porque solo algunas soluciones permiten el acceso híbrido local y en la nube.

Soluciones de almacenamiento de archivos administradas

En esta sección, se describen las soluciones administradas por Google para el almacenamiento de archivos.

Filestore Basic

Filestore es la solución de NAS completamente administrada de Google.

Las instancias de Filestore Basic son adecuadas para el uso compartido de archivos, el desarrollo de software y las cargas de trabajo de GKE. Puedes elegir HDD o SSD para almacenar datos. SSD ofrece un mejor rendimiento. Con cualquiera de las opciones, la capacidad escala verticalmente y puedes proteger los datos mediante copias de seguridad.

Filestore Zonal

Filestore Zonal simplifica el almacenamiento empresarial y la administración de datos en Google Cloud y en nubes híbridas. Filestore Zonal ofrece un acceso paralelo rentable y de alto rendimiento a los datos globales, y al mismo tiempo mantiene una coherencia estricta con la tecnología de un sistema de archivos distribuido y escalable de forma dinámica. Con Filestore Zonal, las aplicaciones NFS existentes y los flujos de trabajo de NAS pueden ejecutarse en la nube sin necesidad de refactorizar, pero retienen los beneficios de los servicios de datos empresariales (disponibilidad alta, compresión, anulación de duplicación, etcétera.). El controlador CSI de Filestore permite la persistencia, la portabilidad y el uso compartido de los datos sin interrupciones para las cargas de trabajo alojadas en contenedores.

Puedes escalar instancias zonales de Filestore a pedido. Esto te permite crear y expandir la infraestructura del sistema de archivos cuando sea necesario, lo que garantiza que el rendimiento y la capacidad de almacenamiento siempre se alineen con los requisitos dinámicos del flujo de trabajo. A medida que se expande un clúster zonal de Filestore, tanto los metadatos como el rendimiento de E/S se ajustan de forma lineal. Este escalamiento te permite mejorar y acelerar un rango amplio de flujos de trabajo con uso intensivo de datos, que incluyen computación de alto rendimiento, estadísticas, agregación de datos entre sitios, DevOps y muchas opciones más. Por lo tanto, Filestore Zonal es una muy buena opción para usar en industrias centradas en datos, como las ciencias biológicas (por ejemplo, la secuenciación del genoma), los servicios financieros y los medios de comunicación y entretenimiento.

Filestore Enterprise

Filestore Enterprise es una solución de NFS nativa de la nube y completamente administrada que te permite implementar aplicaciones basadas en archivos en Google Cloud, respaldadas por un ANS que ofrece una disponibilidad regional del 99.99%. Con un ANS de disponibilidad regional del 99.99%, Filestore Enterprise está diseñado para aplicaciones que requieren alta disponibilidad. Con solo unos clics del mouse (o con algunos comandos gcloud o llamadas a la API), puedes aprovisionar recursos compartidos de NFS que se replican de forma síncrona en tres zonas dentro de una región. Si alguna zona dentro de la región deja de estar disponible, Filestore Enterprise continúa entregando datos a la aplicación con transparencia sin ninguna intervención operativa de tu parte.

Para proteger aún más los datos críticos, Filestore también te permite tomar y mantener instantáneas periódicas del sistema de archivos. Con Filestore, puedes recuperar un archivo individual o un sistema de archivos completo en menos de 10 minutos desde cualquiera de los puntos de recuperación anteriores.

Para aplicaciones esenciales como SAP, los niveles de base de datos y de la aplicación deben tener alta disponibilidad. Para cumplir con este requisito, puedes implementar el nivel de la base de datos de SAP en Persistent Disk en varias zonas con la alta disponibilidad de la base de datos integrada. De manera similar, el nivel de la aplicación NetWeaver, que requiere ejecutables compartidos en muchas VMs, se puede implementar en Filestore Enterprise, que replica los datos de Netweaver en varias zonas dentro de una región. El resultado final es una arquitectura de aplicación crítica de tres niveles con alta disponibilidad.

Las organizaciones de TI también implementan cada vez más aplicaciones con estado en contenedores en Google Kubernetes Engine (GKE). A menudo, esto hace que vuelvan a pensar qué infraestructura de almacenamiento usar para admitir esas aplicaciones. Puedes usar almacenamiento en bloque (disco persistente), almacenamiento de archivos (Filestore básico, zonal o empresarial) o almacenamiento de objetos (Cloud Storage). Filestore Enterprise, con su controlador CSI de Filestore administrado y la compatibilidad con recursos compartidos, permite que las organizaciones que requieren varios pods de GKE tengan acceso a archivos compartidos, lo que proporciona un mayor nivel de disponibilidad para las cargas de trabajo esenciales.

NetApp Volumes

NetApp Volumes es un servicio de Google completamente administrado que te permite activar con rapidez el almacenamiento de archivos compartidos en las instancias de procesamiento de Google Cloud. NetApp Volumes admite SMB, NFS y acceso de varios protocolos. NetApp Volumes ofrece un alto rendimiento a tus aplicaciones, con baja latencia y capacidades sólidas de protección de datos en instantáneas, copias, replicación entre regiones y copias de seguridad. El servicio es adecuado para aplicaciones que requieren cargas de trabajo secuenciales y aleatorias, que pueden escalar en cientos o miles de instancias de Compute Engine. En segundos, los volúmenes que varían en tamaño de 100 GiB a 100 TiB se pueden aprovisionar y proteger con capacidades sólidas de protección de datos. Con tres niveles de servicio (estándar, premium y extremo) que puedes cambiar a pedido, NetApp Volumes ofrece el rendimiento adecuado para tu carga de trabajo sin afectar la disponibilidad. Para obtener información sobre las ubicaciones de Google Cloud en las que está disponible NetApp Volumes, consulta Ubicaciones de NetApp Volumnes.

Soluciones de socios en Cloud Marketplace

Las siguientes soluciones que proporcionan los socios están disponibles en Cloud Marketplace.

Cloud Volumes ONTAP de NetApp

NetApp Cloud Volumes ONTAP (NetApp CVO) es una solución administrada por el cliente y basada en la nube que brinda el conjunto completo de funciones de ONTAP, el sistema operativo de administración de datos líder de NetApp, a Google Cloud. NetApp CVO se implementa dentro de tu VPC, con facturación y asistencia de Google. El software de ONTAP se ejecuta en una VM de Compute Engine y usa una combinación de discos persistentes y buckets de Cloud Storage (si los niveles están habilitados) para almacenar los datos de NAS. El archivador integrado se adapta a los volúmenes de NAS mediante el aprovisionamiento delgado, por lo que solo pagues por el almacenamiento que uses. A medida que los datos crecen, se agregan discos persistentes adicionales al grupo de capacidad agregada.

NetApp CVO abstrae la infraestructura subyacente y te permite crear volúmenes de datos virtuales extraídos del grupo agregado que son coherentes con todos los otros volúmenes de ONTAP en cualquier nube o entorno local. Los volúmenes de datos que creas admiten todas las versiones de NFS, SMB, iSCSI y NFS/SMB de varios protocolos. Admiten una amplia variedad de cargas de trabajo basadas en archivos, incluidos el contenido web y de rich media, que se usa en muchas industrias, como en la automatización del diseño electrónico (EDA), y en los medios de comunicación y entretenimiento.

NetApp CVO admite instantáneas de un momento determinado que ahorran espacio, almacenamiento integrado a nivel de bloque, copia de seguridad incremental permanente en Cloud Storage y replicación asíncrona interregional para la recuperación ante desastres. La opción de seleccionar el tipo de instancia de Compute Engine y discos persistentes te permite lograr el rendimiento que deseas para tus cargas de trabajo. Incluso cuando se opera en una configuración de alto rendimiento, NetApp CVO implementa eficiencias de almacenamiento, como anulación de duplicación, compactación y compresión, además de datos de nivel automático que se usan con poca frecuencia al bucket de Cloud Storage, lo que te permite almacenar petabytes de datos y, de este modo, reducir de forma significativa los costos generales de almacenamiento.

DDN EXAScaler Cloud

La plataforma EXAScaler Cloud de DDN es una solución de archivos compartidos en paralelo líder de la industria para el procesamiento de datos de alto rendimiento y la administración de grandes volúmenes de datos necesarios para admitir cargas de trabajo de IA, HPC y estadísticas. Las ciencias biológicas, la energía, los vehículos autónomos, los servicios financieros y otros clientes que consumen muchos datos pueden aprovechar EXAScaler Cloud para IA y estadísticas en la nube a fin de maximizar el retorno de los recursos de Google Cloud y crear flujos de trabajo ágiles con aumentos de actividad en la nube y retención de datos a largo plazo.

Los usos ideales de EXAScaler Cloud incluyen aplicaciones de IA de inferencia y aprendizaje profundo, arquitecturas de nube híbrida para aumentos de actividad en la nube a fin de aprovechar el procesamiento de alto rendimiento a pedido y como un repositorio para almacenar a largo plazo desde una implementación de EXAScaler local. EXAScaler basado en la nube es fácil de implementar y aprovecha el sistema de archivos paralelo de DDN, en el que se basan más de dos tercios de las 100 supercomputadoras principales.

EXAScaler Cloud está diseñado para optimizar las cargas de trabajo en la nube con uso intensivo de datos a fin de reducir el tiempo necesario para obtener estadísticas, ya que reduce la contención de E/S y entrega un acceso resiliente al almacenamiento compartido para una gran cantidad de clientes. EXAScaler Cloud optimiza todo el entorno para un rendimiento alto desde la aplicación hasta los dispositivos de almacenamiento, incluidas la red y las instancias de procesamiento.

Con parámetros de configuración flexible, EXAScaler Cloud es útil para cargas de trabajo temporales de alto rendimiento, más IOPS persistentes o aplicaciones orientadas a la capacidad de procesamiento, e incluso datos persistentes a largo plazo. Mediante la imitación de las arquitecturas locales en la nube, los clientes pueden realizar la transición de las cargas de trabajo sin problemas y ayudar a minimizar las interrupciones de las aplicaciones del usuario final a medida que se mueven las cargas de trabajo.

DDN EXAScaler Cloud controla las cargas de trabajo escalables y cuenta con el conocimiento experto que adquirieron para los entornos de datos más grandes del mundo. Con las opciones de asistencia premium, los clientes obtienen la misma experiencia de asistencia de expertos de forma local y en la nube.

Para obtener más información, consulta lo siguiente:

Nasuni Cloud File Storage

Nasuni reemplaza los servidores de archivos empresariales, los dispositivos NAS y todas las infraestructuras asociadas, incluidas las copias de seguridad y el hardware de DR, por una alternativa a la nube más simple y de bajo costo. Nasuni usa el almacenamiento de objetos de Google Cloud para ofrecer una solución de almacenamiento de software como servicio (SaaS) más eficiente que escala a fin de controlar el crecimiento de datos de archivos no estructurado y rápido. Nasuni está diseñado a fin de controlar flujos de trabajo de aplicaciones, departamentos y proyectos, y flujos de trabajo de aplicaciones para cada empleado, sin importar dónde trabaje.

Nasuni Cloud File Storage.

Nasuni ofrece tres paquetes con precios para empresas y organizaciones de todos los tamaños, de modo que puedan crecer y expandirse según sea necesario.

Sus beneficios incluyen los siguientes:

El almacenamiento de archivos principales basado en la nube cuesta hasta un 70% menos. La arquitectura de Nasuni aprovecha las políticas integradas de administración del ciclo de vida de los objetos. Estas políticas permiten una flexibilidad total para usar las clases de Cloud Storage, incluidos Standard, Nearline, Coldline y Archive. Si usas la clase Archive de acceso inmediato para el almacenamiento principal con Nasuni, puedes ahorrar hasta un 70% en costos.
Archivos compartidos de nivel de organización y departamento en la nube. La arquitectura basada en la nube de Nasuni ofrece un espacio de nombres global único entre regiones de Google Cloud, sin límites para la cantidad de archivos, tamaños de archivos o instantáneas, lo que te permite almacenar archivos directamente desde tu escritorio en Google Cloud mediante protocolos de asignación de unidad de NAS (SMB) estándar.
Copia de seguridad integrada y recuperación ante desastres. Las operaciones “configurar y olvidar” de Nasuni facilitan la administración del almacenamiento global de archivos. Se incluyen la copia de seguridad y la DR, y una sola consola de administración te permite supervisar y controlar el entorno en cualquier momento y lugar.
Reemplaza los servidores de archivos antiguos. Nasuni facilita la migración de los servidores de archivos de Microsoft Windows y otros sistemas de almacenamiento de archivos existentes a Google Cloud, lo que reduce los costos y la complejidad de la administración de estos entornos.

Para obtener más información, consulta lo siguiente:

Sycomp Storage basado en IBM Spectrum Scale

Sycomp Storage potenciado por IBM Spectrum Scale en Google Cloud Marketplace te permite ejecutar tu computación de alto rendimiento (HPC), la inteligencia artificial (IA), el aprendizaje automático (AA) y las cargas de trabajo de macrodatos en Google Cloud. Con Sycomp Storage, puedes acceder a los datos de miles de VMs a la vez, reducir los costos a través de la administración automática de niveles de almacenamiento y ejecutar la aplicación de manera local o en Google Cloud. Sycomp Storage basado en IBM Spectrum Scale está disponible en Cloud Marketplace, se puede implementar con rapidez y admite el acceso a tus datos a través de NFS y el cliente de IBM Spectrum Scale.

IBM Spectrum Scale es un sistema de archivos en paralelo que ayuda a administrar grandes volúmenes de datos (PB) de forma segura. El sistema de archivos en paralelo de IBM Spectrum Scale es adecuado para HPC, IA, AA, macrodatos y otras aplicaciones que requieren un sistema de archivos compartidos compatible con POSIX. Con capacidad de almacenamiento adaptable y escalamiento de rendimiento, Sycomp Storage puede admitir cargas de trabajo de HPC, IA y AA pequeñas y grandes.

Después de implementar un clúster en Google Cloud, debes decidir cómo deseas usarlo. Elige si deseas usarlo solo en la nube o en modo híbrido conectándote a un clúster local de IBM Spectrum Scale.

Para obtener más información, consulta lo siguiente:

Registro de cambios

En esta sección, se proporciona un resumen de los cambios técnicos significativos de esta guía.

Fecha	Descripción de los cambios
19 de diciembre de 2023	Actualización del empaquetado y el nombre de Filestore High Scale (ahora Filestore Zonal). Se actualizó la compatibilidad Filestore Zonal para el controlador de CSI. Se agregaron NetApp Volumes de Google Cloud como solución de archivos administrada. Se quitó NetApp Cloud Volume Service como una oferta de Cloud Marketplace.
30 de noviembre de 2021	Se quitó Dell PowerScale como una solución de socios de Cloud Marketplace. Se quitó Panzura como solución para socios de Cloud Marketplace.

Colaboradores

Autor: Sean Derrington | Gerente de productos salientes del grupo

Otros colaboradores:

Dean HildeBrand | Director técnico, oficina del director de Tecnología
Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos