Introducción a los cuadernos gestionados
Las instancias de notebooks gestionados de Vertex AI Workbench son entornos gestionados por Google con integraciones y funciones que te ayudan a configurar y trabajar en un entorno de producción integral basado en Jupyter Notebook.
Las instancias de cuadernos gestionados incluyen JupyterLab y un paquete preinstalado de aprendizaje profundo, que incluye compatibilidad con los frameworks TensorFlow y PyTorch. Las instancias de notebooks gestionadas admiten aceleradores de GPU y la posibilidad de sincronizarse con un repositorio de GitHub. Tus instancias de cuadernos gestionados están protegidas por la Google Cloud autenticación y la autorización.
Infraestructura informática gestionada por Google
Una instancia de cuadernos gestionados de Vertex AI Workbench es una infraestructura de computación basada en cuadernos de Jupyter gestionada por Google.
Cuando creas una instancia de cuadernos gestionados, se implementa como una instancia de máquina virtual gestionada por Google en un proyecto de arrendatario.
Tu instancia de cuadernos gestionados incluye muchos entornos de frameworks de ciencia de datos habituales, como TensorFlow y PyTorch. También puedes añadir tus propias imágenes de contenedor personalizadas a tu instancia de cuaderno gestionado. Estos entornos están disponibles como kernels en los que puedes ejecutar tu archivo de cuaderno.
Cuando ejecutas un cuaderno en uno de los kernels, Vertex AI Workbench inicia el contenedor correspondiente, crea una sesión de Jupyter en él y usa esa sesión para ejecutar el cuaderno en el contenedor.
Esta infraestructura informática gestionada por Google incluye integraciones y funciones que te ayudan a implementar flujos de trabajo de ciencia de datos y aprendizaje automático de principio a fin. Consulta las siguientes secciones para obtener más información.
Usar contenedores personalizados
Puedes añadir imágenes de contenedor Docker personalizadas a tu instancia de cuaderno gestionado para ejecutar el código del cuaderno en un entorno adaptado a tus necesidades.
Estos contenedores personalizados se pueden usar directamente desde la interfaz de usuario de JupyterLab, junto con los frameworks preinstalados. Para obtener más información, consulta Añadir un contenedor personalizado a una instancia de cuadernos gestionados.
Flujo de trabajo basado en cuadernos
Las instancias de cuadernos gestionadas te permiten realizar tareas orientadas a flujos de trabajo sin salir de la interfaz de usuario de JupyterLab.
Controlar el hardware y el framework desde JupyterLab
En una instancia de cuadernos gestionados, la interfaz de usuario de JupyterLab es donde se especifican los recursos de computación en los que se ejecutará el código. Por ejemplo, puedes configurar cuántas vCPUs o GPUs quieres, cuánta RAM quieres y en qué framework quieres ejecutar el código. Puedes escribir el código primero y, después, elegir cómo ejecutarlo sin salir de JupyterLab ni reiniciar la instancia. Para hacer pruebas rápidas de su código, puede reducir la escala del hardware y, después, volver a aumentarla para ejecutar el código con más datos.
Acceso a los datos
Puedes acceder a tus datos sin salir de la interfaz de usuario de JupyterLab.
En el menú de navegación de JupyterLab de una instancia de notebooks gestionada, puedes usar la integración de Cloud Storage para buscar datos y otros archivos a los que tengas acceso. Consulta Acceder a archivos y segmentos de Cloud Storage desde JupyterLab.
También puedes usar la integración de BigQuery para consultar las tablas a las que tienes acceso, escribir consultas, previsualizar resultados y cargar datos en tu cuaderno. Consulta Consultar datos en tablas de BigQuery desde JupyterLab.
Ejecutar cuadernos
Usa el ejecutor para ejecutar un archivo de cuaderno una sola vez o de forma programada. Elige el entorno y el hardware específicos en los que quieras que se ejecute. El código de tu cuaderno se ejecutará en el entrenamiento personalizado de Vertex AI, lo que puede facilitar el entrenamiento distribuido, la optimización de hiperparámetros o la programación de tareas de entrenamiento continuo. Consulta Ejecutar archivos de cuaderno con el ejecutor.
Puedes usar parámetros en tu ejecución para hacer cambios específicos en cada ejecución. Por ejemplo, puedes especificar otro conjunto de datos, cambiar la tasa de aprendizaje de tu modelo o cambiar la versión del modelo.
También puedes configurar un cuaderno para que se ejecute de forma periódica. Aunque tu instancia esté cerrada, Vertex AI Workbench ejecutará tu archivo de cuaderno y guardará los resultados para que puedas consultarlos y compartirlos con otros usuarios.
Compartir estadísticas
Las ejecuciones de cuadernos se almacenan en un segmento de Cloud Storage, por lo que puedes compartir tus estadísticas con otros usuarios dándoles acceso a los resultados. Consulta la sección anterior sobre cómo ejecutar cuadernos.
Proteger una instancia
Puedes desplegar tu instancia de cuaderno gestionado con la red gestionada por Google predeterminada, que usa una red VPC y una subred predeterminadas. En lugar de la red predeterminada, puedes especificar una red de VPC para usarla con tu instancia. Para obtener más información, consulta Configurar una red. Puedes usar Controles de Servicio de VPC para aumentar la seguridad de tus instancias de cuadernos gestionados.
Para usar cuadernos gestionados dentro de un perímetro de servicio, consulta Usar una instancia de cuadernos gestionados dentro de un perímetro de servicio.
De forma predeterminada, Google Cloud cifra automáticamente los datos en reposo con claves de cifrado gestionadas por Google. Si tienes requisitos de cumplimiento o normativos específicos relacionados con las claves que protegen tus datos, puedes usar claves de cifrado gestionadas por el cliente (CMEK) con tus instancias de cuadernos gestionados. Para obtener más información, consulta el artículo Usar claves de cifrado gestionadas por el cliente.
Apagado automático de instancias inactivas
Para ayudarte a gestionar los costes, las instancias de notebooks gestionados se apagan de forma predeterminada después de estar inactivas durante un periodo específico. Puedes cambiar el tiempo o desactivar esta función. Para obtener más información, consulta Apagado por inactividad.
Integración de Dataproc
Puedes procesar datos rápidamente ejecutando un cuaderno en un clúster de Dataproc. Una vez que hayas configurado el clúster, podrás ejecutar un archivo de cuaderno en él sin salir de la interfaz de usuario de JupyterLab. Para obtener más información, consulta Ejecutar una instancia de cuadernos gestionados en un clúster de Dataproc.
Limitaciones
Ten en cuenta las siguientes limitaciones de los cuadernos gestionados al planificar tu proyecto:
Las instancias de cuadernos gestionadas las gestiona Google y, por lo tanto, son menos personalizables que las instancias de cuadernos gestionadas por el usuario de Vertex AI Workbench. Las instancias de cuadernos gestionados por usuarios pueden ser más adecuadas para los usuarios que necesitan tener mucho control sobre su entorno. Para obtener más información, consulta el artículo Introducción a los cuadernos gestionados por el usuario.
No se admiten extensiones de JupyterLab de terceros.
El complemento JupyterLab de Dataproc no es compatible con los cuadernos gestionados, pero puedes usarlo en instancias de Vertex AI Workbench. Consulta Crear una instancia con Dataproc.
Las instancias de notebooks gestionados no permiten que los usuarios tengan acceso
sudo
.Cuando usas Access Context Manager y Chrome Enterprise Premium para proteger las instancias de cuadernos gestionados con controles de acceso contextual, el acceso se evalúa cada vez que el usuario se autentica en la instancia. Por ejemplo, el acceso se evalúa la primera vez que el usuario accede a JupyterLab y cada vez que lo hace después si la cookie de su navegador web ha caducado.
Para usar aceleradores con instancias de cuadernos gestionados, el tipo de acelerador que quieras usar debe estar disponible en la zona de tu instancia. Para obtener información sobre la disponibilidad de aceleradores por zona, consulta Disponibilidad de regiones y zonas de GPU.