Principais conceitos e componentes

Esta página descreve os principais conceitos e detalhes dos componentes do Cloud Datalab. É possível encontrar documentação geral adicional no diretório de notebooks datalab/docs/notebooks/intro do Cloud Datalab.

Cloud Datalab e notebooks

O Cloud Datalab é empacotado como um contêiner e executado em uma instância de VM (máquina virtual). O artigo de início rápido explica a criação da VM e a execução do contêiner nela, além de estabelecer uma conexão do seu navegador com o contêiner do Cloud Datalab, que permite abrir notebooks existentes do Cloud Datalab e criar novos. Leia os notebooks introdutórios no diretório /docs/intro para ter uma noção de como um notebook é organizado e executado.

Em vez de arquivos de texto com código, o Cloud Datalab usa notebooks. Os blocos de notas reúnem código, documentação escrita como Markdown e os resultados da execução do código, como texto, imagem ou HTML/JavaScript. Como um editor de código ou ambiente de desenvolvimento integrado, os blocos de notas ajudam você a escrever código de modo interativo e iterativo, renderizando os resultados junto a ele. Além disso, quando você compartilha um bloco de notas com membros da equipe, é possível incluir código, documentação formatada em Markdown e resultados com gráficos interativos que fornecem mais contexto que os arquivos de código em SQL ou Python.

Os notebooks do Cloud Datalab podem ser armazenados no Google Cloud Source Repository, um repositório Git. Este repositório git é clonado no disco permanente anexado à VM. Este clone forma seu espaço de trabalho, onde é possível adicionar, remover e modificar arquivos. Para compartilhar seu trabalho com outros usuários do repositório, aplique suas alterações utilizando o cliente Git para transmiti-las do espaço de trabalho local para o repositório. Os blocos de notas são salvos automaticamente no disco permanente. Você também pode salvar sempre que desejar. Observe que, se você excluir o disco permanente, os blocos de notas que não forem claramente transmitidos podem ser perdidos. Portanto, a exclusão do disco permanente NÃO é recomendada.

Ao abrir um notebook, um processo “kernel” de back-end é inicializado para gerenciar as variáveis definidas durante a sessão e executar o código do seu notebook. Quando o código executado acessa os serviços do Google Cloud, como o BigQuery ou o Google Machine Learning Engine, ele usa a conta de serviço disponível na VM. Portanto, a conta de serviço precisa estar autorizada a acessar os dados ou solicitar o serviço. Para exibir os nomes da conta de serviço e do projeto de nuvem, clique no ícone de usuário user-icon no canto superior direito do notebook do Cloud Datalab ou na página de listagem de notebooks do navegador. Pode ser necessário redimensionar a janela. A VM usada para executar o Cloud Datalab é um recurso compartilhado, acessível para todos os membros do projeto de nuvem associado. Portanto, não é recomendado usar credenciais de nuvem pessoais para acessar os dados.

À medida que você executa o código no notebook, o estado deste processo é alterado. Se você atribuir ou reatribuir uma variável, o valor dela será usado para cálculos posteriores como efeito colateral. Cada notebook em execução é exibido como uma sessão no Cloud Datalab. Clique no ícone de sessões session-icon na página de listagem de notebooks do Cloud Datalab para visualizar e interromper sessões. Enquanto uma sessão estiver em execução, o processo subjacente consumirá recursos de memória. Se você interrompê-la, o processo subjacente e o estado dele na memória serão descartados, e a memória em uso será liberada. Os resultados salvos no notebook continuarão no disco em formato permanente.

Cenários de uso do Cloud Datalab

O Cloud Datalab é um ambiente de machine learning e análise interativa de dados projetado para o Google Cloud Platform. Você pode usá-lo para explorar, analisar, transformar e visualizar dados de maneira interativa, além de criar modelos de aprendizado de máquina a partir dos seus dados. Na pasta /docs do Cloud Datalab, há diversos tutoriais e exemplos que ilustram algumas das tarefas que podem ser realizadas. O Cloud Datalab inclui um conjunto de bibliotecas do Python de código aberto, frequentemente usadas para análise de dados, visualização e machine learning. Ele também adiciona bibliotecas para acesso dos principais serviços do Google Cloud Platform, como o Google BigQuery, o Google Machine Learning Engine, o Google Dataflow e o Google Cloud Storage. Consulte a seção Bibliotecas inclusas para mais informações.

Para mais informações sobre a biblioteca do Python, consulte a Documentação de referência pydatalab.

Veja a seguir algumas ideias para começar:

  • Crie consultas SQL para explorar dados no BigQuery. Insira resultados em um DataFrame e visualize como um histograma ou gráfico de linhas.
  • Leia dados de um arquivo CSV no Google Cloud Storage e transfira para um DataFrame a fim de calcular medidas estatísticas, como médias, desvios padrão e quantis, usando o Python.
  • Use um modelo scikit-learn ou TensorFlow para prever resultados ou classificar dados.

Bibliotecas inclusas

Veja a seguir uma lista das bibliotecas inclusas e disponibilizadas nos blocos de notas do Cloud Datalab. A lista de bibliotecas e as informações de versão estão sujeitas a alterações.

Instalado com Conda:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

Instalado com pip:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

Observe que future, futures e apache-beam\[gcp\] são instalados apenas em kernels do Python 2, enquanto notebook é instalado apenas em kernels do Python 3.