Componentes y conceptos clave

En esta página, se detallan los componentes y conceptos clave de Cloud Datalab. Consulta el directorio del notebook datalab/docs/notebooks/intro de Cloud Datalab para encontrar documentación general adicional.

Cloud Datalab y notebooks

Cloud Datalab se empaqueta como un contenedor y se ejecuta en una instancia de VM (máquina virtual). En la guía de inicio rápido, se explica cómo crear una VM, cómo ejecutar el contenedor en la VM y cómo establecer una conexión con el contenedor de Cloud Datalab desde el navegador, lo que permite abrir notebooks de Cloud Datalab existentes y crear unos nuevos. Para comprender cómo se organiza y ejecuta un notebook, consulta el directorio /docs/intro y lee los notebooks de introducción.

Cloud Datalab usa notebooks en lugar de archivos de texto con código. Los notebooks reúnen el código, la documentación escrita con markdown y los resultados de ejecución del código (ya sea en forma de texto, imágenes o HTML/JavaScript). Al igual que un editor de código o un IDE, los notebooks ayudan a ejecutar códigos de forma interactiva y también iterativa y muestran los resultados junto al código. Además, cuando compartes un notebook con otros miembros del equipo, puedes incluir código, documentación con formato de markdown y resultados que incluyan gráficos interactivos para brindarles el contexto que los archivos de código de Python o SQL no pueden facilitar.

Los notebooks de Cloud Datalab se pueden almacenar en Google Cloud Source Repository, un repositorio de Git. Este último se clona en un disco persistente conectado a la VM. El clon da forma al lugar de trabajo, donde se pueden agregar, quitar y modificar los archivos. Para compartir el trabajo con otros usuarios del repositorio, debes confirmar los cambios con el cliente de Git a fin de enviar los cambios desde el lugar de trabajo local hasta el repositorio. Los notebooks se guardan automáticamente en un disco persistente cada cierto tiempo, pero el usuario también puede guardar sus cambios en cualquier momento. Si borras el disco persistente, es posible que se pierdan los notebooks que no se hayan enviado explícitamente al repositorio de Git. Por este motivo, recomendamos que NO borres el disco persistente.

Cuando se abre un notebook, se inicia un proceso de “kernel” de backend para administrar las variables definidas durante la sesión y ejecutar el código del notebook. Cuando el código ejecutado accede a los servicios de Google Cloud, como BigQuery o Google Machine Learning Engine, se usa la cuenta de servicio disponible en la VM. Por lo tanto, la cuenta de servicio debe tener autorización para acceder a los datos o solicitar el servicio. Haz clic en el ícono del usuario user-icon de la esquina superior derecha del notebook de Cloud Datalab o la página con la lista de los notebooks en el navegador (puede que debas ajustar el tamaño de la ventana) para mostrar los nombres del proyecto de Cloud y de la cuenta de servicio. La VM que se usa para ejecutar Cloud Datalab es un recurso compartido al que todos los miembros asociados con el proyecto de Cloud pueden acceder. Por lo tanto, recomendamos que no se usen las credenciales personales de Cloud de un usuario para acceder a los datos.

A medida que ejecutas código en el notebook, el estado de los procesos que realizan estas tareas cambia. Una de las consecuencias de asignar o volver a asignar una variable es que su valor se usará para los procesamientos posteriores. Los notebooks en ejecución se muestran como sesiones en Cloud Datalab. Para mostrar una lista y detener las sesiones, haz clic en el ícono de sesiones session-icon de la página de listas de notebooks de Cloud Datalab. Un proceso subyacente consume recursos de memoria mientras hay una sesión en ejecución. Si una sesión se detiene, el proceso subyacente desaparecerá junto con su estado de memoria, además se liberará la memoria que esté usando la sesión. Los resultados que se guarden en el notebook mantendrán su formato persistente en el disco.

Situaciones de uso de Cloud Datalab

Cloud Datalab es un entorno interactivo de análisis de datos y aprendizaje automático diseñado para Google Cloud Platform. Puedes usarlo para explorar, analizar, transformar y visualizar tus datos de forma interactiva, así como a fin de generar modelos de aprendizaje automático a partir de datos. Para encontrar instructivos y ejemplos de algunas de las tareas que se pueden realizar, explora la carpeta /docs de Cloud Datalab. Cloud Datalab incluye un conjunto de bibliotecas de Python de código abierto y uso común que permiten analizar, visualizar y aplicar el aprendizaje automático sobre los datos. Además, agrega bibliotecas para acceder a servicios clave de Google Cloud Platform, como Google BigQuery, Google Machine Learning Engine, Google Dataflow y Google Cloud Storage. Consulta Bibliotecas incluidas para obtener más información.

Consulta la documentación de referencia de pydatalab para obtener más información sobre las bibliotecas de Python.

A continuación, te presentamos algunas ideas para comenzar:

  • Escribe algunas consultas de SQL para explorar los datos de BigQuery. Ingresa los resultados en un DataFrame y visualízalos como histogramas o gráficos de líneas.
  • Lee los datos de un archivo CSV en Google Cloud Storage y, luego, ingrésalos en un DataFrame para procesar con Python las medidas estadísticas, como la media, la desviación estándar y los cuantiles.
  • Prueba modelos de TensorFlow o scikit-learn para predecir resultados o clasificar datos.

Bibliotecas incluidas

A continuación, se presenta una lista de las bibliotecas incluidas con los notebooks de Cloud Datalab y que puedes usar (la lista de las bibliotecas y sus versiones están sujetas a cambios).

Instaladas con Conda:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

Instaladas con pip:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

Ten en cuenta que future, futures y apache-beam\[gcp\] solo se instalan para los kernels de Python 2 y que notebook solo se instala para los kernels de Python 3.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Datalab
¿Necesitas ayuda? Visita nuestra página de asistencia.