Principais conceitos e componentes

Essa página descreve os principais conceitos e detalhes dos componentes do Cloud Datalab. Documentação extra de visão geral está disponível no diretório de bloco de notas datalab/docs/notebooks/intro do Cloud Datalab.

Cloud Datalab e os blocos de notas

O Cloud Datalab é empacotado como um contêiner e executado em uma instância de VM (máquina virtual). O artigo de início rápido explica a criação da VM e a execução do contêiner nela, além do estabelecimento de uma conexão do seu navegador com o contêiner do Cloud Datalab, que permite criar blocos de notas do Cloud Datalab novos ou executar outros existentes. Leia os blocos de notas introdutórios no diretório /docs/intro para entender a organização e execução dos blocos de notas.

Em vez de arquivos de texto com código, o Cloud Datalab usa blocos de notas. Os blocos de notas reúnem código, documentação escrita como Markdown e os resultados da execução do código, como texto, imagem ou HTML/JavaScript. Como um editor de código ou ambiente de desenvolvimento integrado, os blocos de notas ajudam você a escrever código de modo interativo e iterativo, renderizando os resultados junto a ele. Além disso, quando você compartilha um bloco de notas com membros da equipe, é possível incluir código, documentação formatada em Markdown e resultados com gráficos interativos que fornecem mais contexto que os arquivos de código em SQL ou Python.

Os blocos de notas do Cloud Datalab podem ser armazenados em um repositório Git do Google Cloud Source Repositories. Esse repositório é clonado em um disco permanente ligado à VM. Esse clone forma seu espaço de trabalho, onde você pode adicionar, remover e modificar arquivos. Para compartilhar seu trabalho com outros usuários do repositório, aplique suas alterações utilizando o cliente Git para transmiti-las do espaço de trabalho local para o repositório. Os blocos de notas são salvos automaticamente no disco permanente. Você também pode salvar sempre que desejar. Observe que, se você excluir o disco permanente, os blocos de notas que não forem claramente transmitidos podem ser perdidos. Portanto, a exclusão do disco permanente NÃO é recomendada.

Quando você abre um bloco de notas, um processo “kernel” de back-end é inicializado para gerenciar as variáveis definidas durante a sessão e executar o código do seu bloco de notas. Quando o código executado acessa serviços do Google Cloud como o BigQuery ou o Google Machine Learning Engine, ele usa a conta de serviço disponível na VM. Portanto, a conta de serviço precisa ter permissão para acessar os dados ou solicitar o serviço. Para exibir os nomes da conta de serviço e do projeto de nuvem, clique no ícone de usuário user-icon no canto superior direito do bloco de notas do Cloud Datalab ou na página de listagem de blocos de notas no navegador. Pode ser necessário redimensionar a janela. A VM usada para executar o Cloud Datalab é um recurso compartilhado, acessível para todos os membros do projeto de nuvem associado. Portanto, não é recomendado usar credenciais de nuvem pessoais para acessar os dados.

À medida que você executa o código no bloco de notas, o estado do processo que o executa é alterado. Se você atribuir ou reatribuir uma variável, o valor dela será usado para cálculos posteriores como efeito colateral. Cada bloco de notas em execução é exibido como uma sessão no Cloud Datalab. Clique no ícone de sessões session-icon na página de listagem de blocos de notas do Cloud Datalab para listar e interromper sessões. Enquanto uma sessão estiver em execução, o processo subjacente consumirá recursos de memória. Se você interromper uma sessão, o processo subjacente e o estado dele na memória serão descartados, e a memória usada pela sessão será liberada. Os resultados salvos no bloco de notas continuarão no disco em formato permanente.

Cenários de uso do Cloud Datalab

O Cloud Datalab é um ambiente de aprendizado de máquina e análise interativa de dados projetado para o Google Cloud Platform. Você pode usá-lo para explorar, analisar, transformar e visualizar dados de maneira interativa, além de criar modelos de aprendizado de máquina a partir dos seus dados. Na pasta /docs do Cloud Datalab, você encontrará diversos tutoriais e amostras que ilustram algumas das tarefas que podem ser realizadas. O Cloud Datalab inclui um conjunto de bibliotecas do Python de código aberto, frequentemente usadas para análise de dados, visualização e aprendizado de máquina. Ele também adiciona bibliotecas para acesso dos principais serviços do Google Cloud Platform, como o Google BigQuery, o Google Machine Learning Engine, o Google Dataflow e o Google Cloud Storage. Consulte a seção Bibliotecas inclusas para mais informações.

Para ver mais informações sobre a biblioteca do Python, consulte a Documentação de referência do pydatalab.

Veja a seguir algumas ideias para começar:

  • Crie consultas SQL para explorar dados no BigQuery. Insira resultados em um DataFrame e visualize como um histograma ou gráfico de linhas.
  • Leia dados de um arquivo CSV no Google Cloud Storage e transfira para um DataFrame a fim de calcular medidas estatísticas, como médias, desvios padrão e quantis, usando o Python.
  • Use um modelo scikit-learn ou TensorFlow para prever resultados ou classificar dados.

Bibliotecas inclusas

Veja a seguir uma lista das bibliotecas inclusas e disponibilizadas nos blocos de notas do Cloud Datalab. A lista de bibliotecas e as informações de versão estão sujeitas a alterações.

argparse at version 1.2.1
bs4 at version 0.0.1
crcmod at version 1.7
future at version 0.15.2
futures at version 3.0.5
ggplot at version 0.6.8
google-api-python-client at version 1.5.1
google-cloud-dataflow at version 2.0.0
httplib2 at version 0.10.3
ipykernel at version 4.5.2
ipywidgets at version 6.0.0
jinja2 at version 2.8
jsonschema at version 2.5.1
lime at version 0.1.1.23
matplotlib at version 1.5.3
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.11.2
oauth2client at version 2.2.0
pandas at version 0.19.1
pandocfilters at version 1.3.0
pillow at version 3.4.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2016.7
PyYAML at version 3.11
pyzmq at version 16.0.2
requests at version 2.9.1
scikit-image at version 0.13.0
scikit-learn at version 0.18.2
scipy at version 0.18.0
seaborn at version 0.7.0
six at version 1.10.0
statsmodels at version 0.6.1
sympy at version 0.7.6.1
tensorflow at version 1.5
tornado at version 4.4.2
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Cloud Datalab