Esta página foi traduzida pela API Cloud Translation.

Treinar um modelo do TensorFlow com o Keras no Google Kubernetes Engine

A seção a seguir mostra um exemplo de ajuste fino de um modelo BERT para classificação de sequência usando a biblioteca Hugging Face transformers com o TensorFlow. O conjunto de dados é transferido para um volume montado com suporte à Parallelstore, permitindo que o treinamento do modelo leia dados diretamente do volume.

Pré-requisitos

Verifique se o nó tem pelo menos 8 GiB de memória disponível.
Crie um PersistentVolumeClaim solicitando um volume com suporte do Parallelstore.

Salve o seguinte manifesto YAML (parallelstore-csi-job-example.yaml) para o job de treinamento do modelo.

  apiVersion: batch/v1
  kind: Job
  metadata:
    name: parallelstore-csi-job-example
  spec:
    template:
      metadata:
        annotations:
            gke-parallelstore/cpu-limit: "0"
            gke-parallelstore/memory-limit: "0"
      spec:
        securityContext:
          runAsUser: 1000
          runAsGroup: 100
          fsGroup: 100
        containers:
        - name: tensorflow
          image: jupyter/tensorflow-notebook@sha256:173f124f638efe870bb2b535e01a76a80a95217e66ed00751058c51c09d6d85d
          command: ["bash", "-c"]
          args:
          - |
            pip install transformers datasets
            python - <<EOF
            from datasets import load_dataset
            dataset = load_dataset("glue", "cola", cache_dir='/data')
            dataset = dataset["train"]
            from transformers import AutoTokenizer
            import numpy as np
            tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
            tokenized_data = tokenizer(dataset["sentence"], return_tensors="np", padding=True)
            tokenized_data = dict(tokenized_data)
            labels = np.array(dataset["label"])
            from transformers import TFAutoModelForSequenceClassification
            from tensorflow.keras.optimizers import Adam
            model = TFAutoModelForSequenceClassification.from_pretrained("bert-base-cased")
            model.compile(optimizer=Adam(3e-5))
            model.fit(tokenized_data, labels)
            EOF
          volumeMounts:
          - name: parallelstore-volume
            mountPath: /data
        volumes:
        - name: parallelstore-volume
          persistentVolumeClaim:
            claimName: parallelstore-pvc
        restartPolicy: Never
    backoffLimit: 1

Aplique o manifesto YAML ao cluster.

kubectl apply -f parallelstore-csi-job-example.yaml

Verifique o carregamento de dados e o progresso do treinamento do modelo com o seguinte comando:

POD_NAME=$(kubectl get pod | grep 'parallelstore-csi-job-example' | awk '{print $1}')
kubectl logs -f $POD_NAME -c tensorflow

Treinar um modelo do TensorFlow com o Keras no Google Kubernetes Engine Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Pré-requisitos

Treinar um modelo do TensorFlow com o Keras no Google Kubernetes Engine