Se usó la API de Cloud Translation para traducir esta página.

Introducción a Trillium (v6e)

En esta documentación, la API de TPU y los registros, se usa v6e para hacer referencia a Trillium. v6e representa la 6ª generación de TPU de Google.

Con 256 chips por Pod, la arquitectura v6e comparte muchas similitudes con la v5e. Este sistema está optimizado para el entrenamiento, el ajuste y la entrega de transformadores, modelos de texto a imagen y redes neuronales convolucionales (CNN).

Para obtener más información sobre la arquitectura y las configuraciones del sistema de la TPU v6e, consulta TPU v6e.

Este documento de introducción se enfoca en los procesos de entrenamiento y entrega de modelos con los frameworks de JAX o PyTorch. Con cada framework, puedes aprovisionar TPU con recursos en cola o GKE. La configuración de GKE se puede realizar con XPK o comandos de GKE.

Procedimiento general para entrenar o entregar un modelo con la versión 6e

Prepara un Google Cloud proyecto
Capacidad protegida
Aprovisiona el entorno de Cloud TPU
Ejecuta una carga de trabajo de entrenamiento o inferencia de un modelo.

Prepara un Google Cloud proyecto

Antes de usar Cloud TPU, debes hacer lo siguiente:

Crea una Google Cloud cuenta y un proyecto con la facturación habilitada
Instala los componentes alfa de Google Cloud CLI
Habilita la API de Cloud TPU
Crea un agente de servicio de Cloud TPU
Crea una cuenta de servicio de Cloud TPU y otorga permisos

Para obtener más información, consulta Configura el entorno de Cloud TPU.

Protege la capacidad

Comunícate con el equipo de asistencia deGoogle Cloud para solicitar una cuota de Cloud TPU v6e y responder cualquier pregunta sobre la capacidad.

Aprovisiona el entorno de Cloud TPU

Las Cloud TPU v6e se pueden aprovisionar y administrar con GKE, con GKE y XPK (una herramienta de CLI de wrapper sobre GKE) o como recursos en cola.

Requisitos previos

Verifica que tu proyecto tenga suficiente cuota de TPUS_PER_TPU_FAMILY, que especifica la cantidad máxima de chips a los que puedes acceder en tu proyecto de Google Cloud.
La versión 6e se probó con la siguiente configuración:
- Python 3.10 o una versión posterior
- Versiones de software nocturnas:
  - JAX nocturno 0.4.32.dev20240912
  - LibTPU nocturna 0.1.dev20240912+nightly
- Versiones de software estables:
  - JAX y JAX Lib de la versión 0.4.37
Verifica que tu proyecto tenga suficiente cuota para lo siguiente:
- Cuota de VM de Cloud TPU
- Cuota de direcciones IP
- Cuota para Hyperdisk Balanced y para cualquier otro tipo de disco que desees usar
  
  Nota: v6e admite Hyperdisk Balanced y Hyperdisk ML, pero no admite Persistent Disk (PD). Para obtener más información, consulta Opciones de almacenamiento para datos de Cloud TPU.
Si usas GKE con XPK, consulta Permisos de Cloud Console en la cuenta de usuario o de servicio para conocer los permisos necesarios para ejecutar XPK.

Crea variables de entorno

En Cloud Shell, crea las siguientes variables de entorno:

export NODE_ID=your-tpu-name
export PROJECT_ID=your-project-id
export ACCELERATOR_TYPE=v6e-16
export ZONE=us-east1-d
export RUNTIME_VERSION=v2-alpha-tpuv6e
export SERVICE_ACCOUNT=your-service-account
export QUEUED_RESOURCE_ID=your-queued-resource-id
export VALID_DURATION=your-duration 

# Additional environment variable needed for Multislice:
export NUM_SLICES=number-of-slices

# Use a custom network for better performance as well as to avoid having the default network becoming overloaded.
export NETWORK_NAME=${PROJECT_ID}-mtu9k
export NETWORK_FW_NAME=${NETWORK_NAME}-fw

Descripciones de las marcas de comandos

Variable	Descripción
NODE_ID	ID asignado por el usuario de la Cloud TPU que se crea cuando se asigna la solicitud de recurso en cola.
ID DEL PROYECTO	Nombre del proyectoGoogle Cloud . Usa un proyecto existente o crea uno nuevo. Para obtener más información, consulta Configura tu proyecto de Google Cloud .
ZONA	Consulta el documento Regiones y zonas de Cloud TPU para conocer las zonas compatibles.
ACCELERATOR_TYPE	Consulta Tipos de aceleradores.
RUNTIME_VERSION	`v2-alpha-tpuv6e`
SERVICE_ACCOUNT	Esta es la dirección de correo electrónico de tu cuenta de servicio, que puedes encontrar en Google Cloud Consola -> IAM -> Cuentas de servicio Por ejemplo: `tpu-service-account@your-project-ID.iam.gserviceaccount.com.com`
NUM_SLICES	Cantidad de segmentos que se crearán (solo es necesario para Multislice).
QUEUED_RESOURCE_ID	Es el ID de texto asignado por el usuario de la solicitud de recurso en cola.
VALID_DURATION	Es la duración durante la que es válida la solicitud de recurso en cola.
NETWORK_NAME	Es el nombre de una red secundaria que se usará.
NETWORK_FW_NAME	Es el nombre de un firewall de red secundario que se usará.

Optimiza el rendimiento de la red

Para obtener el mejor rendimiento, usa una red con una MTU (unidad de transmisión máxima) de 8,896.

De forma predeterminada, una nube privada virtual (VPC) solo proporciona una MTU de 1,460 bytes, lo que generará un rendimiento de red subóptimo. Puedes configurar la MTU de una red de VPC en cualquier valor entre 1,300 bytes y 8,896 bytes (inclusive). Los tamaños de MTU personalizados comunes son 1,500 bytes (Ethernet estándar) o 8,896 bytes (el máximo posible). Para obtener más información, consulta Tamaños válidos de MTU de la red de VPC.

Para obtener más información sobre cómo cambiar la configuración de MTU de una red existente o predeterminada, consulta Cambia la configuración de MTU de una red de VPC.

En el siguiente ejemplo, se crea una red con una MTU de 8,896.

export RESOURCE_NAME=your-resource-name
export NETWORK_NAME=${RESOURCE_NAME}-privatenetwork
export NETWORK_FW_NAME=${RESOURCE_NAME}-privatefirewall
gcloud compute networks create ${NETWORK_NAME} --mtu=8896 --project=${PROJECT_ID} \
   --subnet-mode=auto --bgp-routing-mode=regional
gcloud compute firewall-rules create ${NETWORK_FW_NAME} --network=${NETWORK_NAME} \
   --allow tcp,icmp,udp --project=${PROJECT_ID}

Usa varias NIC (opción para Multislice)

Se necesitan las siguientes variables de entorno para una subred secundaria cuando usas un entorno de Multislice.

export NETWORK_NAME_2=${RESOURCE_NAME}
export SUBNET_NAME_2=${RESOURCE_NAME}
export FIREWALL_RULE_NAME=${RESOURCE_NAME}
export ROUTER_NAME=${RESOURCE_NAME}-network-2
export NAT_CONFIG=${RESOURCE_NAME}-natconfig-2
export REGION=your-region

Usa los siguientes comandos para crear un enrutamiento de IP personalizado para la red y la subred.

gcloud compute networks create ${NETWORK_NAME_2} --mtu=8896 \
   --bgp-routing-mode=regional --subnet-mode=custom --project=${PROJECT_ID}
gcloud compute networks subnets create ${SUBNET_NAME_2} \
   --network=${NETWORK_NAME_2} \
   --range=10.10.0.0/18 --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_2} --allow tcp,icmp,udp \
   --source-ranges 10.10.0.0/18 --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
   --project=${PROJECT_ID} \
   --network=${NETWORK_NAME_2} \
   --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
   --router=${ROUTER_NAME} \
   --region=${REGION} \
   --auto-allocate-nat-external-ips \
   --nat-all-subnet-ip-ranges \
   --project=${PROJECT_ID} \
   --enable-logging

Después de crear un segmento de varias redes, puedes validar que se usen ambas tarjetas de interfaz de red (NIC) configurando un clúster de XPK y agregando la marca --command ifconfig al comando de creación de la carga de trabajo de XPK.

Usa el siguiente comando workload create para mostrar el resultado del comando ifconfig en los registros de la consola de Google Cloud y verifica que eth0 y eth1 tengan mtu=8896.

python3 xpk.py workload create \
   --cluster CLUSTER_NAME \
   {--base-docker-image maxtext_base_image | --docker-image your-cloud-image-name} \
   --workload=${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
   --tpu-type=${ACCELERATOR_TYPE} \
   --num-slices=${NUM_SLICES}  \
   --on-demand \
   --zone=${ZONE} \
   --project=${PROJECT_ID} \
   --command "ifconfig"

Si deseas habilitar los registros de depuración o usar Vertex AI TensorBoard, agrega los siguientes argumentos opcionales al comando:

   --enable-debug-logs \
   --use-vertex-tensorboard

Verifica que eth0 y eth1 tengan mtu=8,896. Para verificar que la NIC múltiple se esté ejecutando, agrega la marca --command ifconfig al comando de creación de la carga de trabajo de XPK. Verifica el resultado de esa carga de trabajo de XPK en los registros de la consola de Google Cloud y verifica que tanto eth0 como eth1 tengan mtu=8,896.

Mejora la configuración de TCP

Si creaste tus Cloud TPU con la interfaz de recursos en cola, puedes ejecutar el siguiente comando para mejorar el rendimiento de la red aumentando los límites del búfer de recepción de TCP.

gcloud alpha compute tpus queued-resources ssh "${QUEUED_RESOURCE_ID}" \
   --project "${PROJECT_ID}" \
   --zone "${ZONE}" \
   --node=all \
   --worker=all \
   --command='
   sudo sh -c "echo \"4096 41943040 314572800\" > /proc/sys/net/ipv4/tcp_rmem"'

Aprovisionamiento con recursos en cola

Puedes crear una Cloud TPU v6e con recursos en cola. Los recursos en cola te permiten recibir capacidad cuando esté disponible. Puedes especificar una hora de inicio y finalización opcional para cuando se debe completar la solicitud. Para obtener más información, consulta Administra recursos en cola.

Aprovisiona Cloud TPU v6e con GKE o XPK

Si usas comandos de GKE con v6e, puedes usar comandos de Kubernetes o XPK para aprovisionar Cloud TPUs y entrenar o entregar modelos. Consulta Planifica el uso de Cloud TPU en GKE para obtener información sobre cómo planificar tus configuraciones de Cloud TPU en clústeres de GKE. En las siguientes secciones, se proporcionan comandos para crear un clúster de XPK con compatibilidad para una sola NIC y para varias NIC.

Crea un clúster de XPK con compatibilidad para una sola NIC

export CLUSTER_NAME=xpk-cluster-name
export ZONE=us-east1-d
export PROJECT_ID=your-project-id
export TPU_TYPE=v6e-256
export NUM_SLICES=2

export NETWORK_NAME=${CLUSTER_NAME}-mtu9k
export NETWORK_FW_NAME=${NETWORK_NAME}-fw

gcloud compute networks create ${NETWORK_NAME} \
   --mtu=8896 \
   --project=${PROJECT_ID} \
   --subnet-mode=auto \
   --bgp-routing-mode=regional

gcloud compute firewall-rules create ${NETWORK_FW_NAME} \
   --network=${NETWORK_NAME} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

export CLUSTER_ARGUMENTS="--network=${NETWORK_NAME} --subnetwork=${NETWORK_NAME}"

python3 xpk.py cluster create --cluster=${CLUSTER_NAME} \
   --cluster-cpu-machine-type=e2-standard-8 \
   --num-slices=${NUM_SLICES} \
   --tpu-type=${TPU_TYPE} \
   --zone=${ZONE} \
   --project=${PROJECT_ID} \
   --on-demand \
   --custom-cluster-arguments="${CLUSTER_ARGUMENTS}"  \
   --create-vertex-tensorboard

Descripciones de las marcas de comandos

Variable	Descripción
CLUSTER_NAME	Es el nombre asignado por el usuario para el clúster de XPK.
ID DEL PROYECTO	Nombre del proyectoGoogle Cloud . Usa un proyecto existente o crea uno nuevo. Para obtener más información, consulta Configura tu proyecto de Google Cloud .
ZONA	Consulta el documento Regiones y zonas de Cloud TPU para conocer las zonas compatibles.
TPU_TYPE	Consulta Tipos de aceleradores.
NUM_SLICES	Cantidad de segmentos que deseas crear
CLUSTER_ARGUMENTS	La red y la subred que se usarán. Por ejemplo: `--network=${NETWORK_NAME} --subnetwork=${NETWORK_NAME}`
NUM_SLICES	Es la cantidad de segmentos que se crearán.
NETWORK_NAME	Es el nombre de una red secundaria que se usará.
NETWORK_FW_NAME	Es el nombre de un firewall de red secundario que se usará.

Crea un clúster de XPK con compatibilidad para varias NIC

export CLUSTER_NAME=xpk-cluster-name
export REGION=your-region
export ZONE=us-east1-d
export PROJECT_ID=your-project-id
export TPU_TYPE=v6e-256
export NUM_SLICES=2

export NETWORK_NAME_1=${CLUSTER_NAME}-mtu9k-1-${ZONE}
export SUBNET_NAME_1=${CLUSTER_NAME}-privatesubnet-1-${ZONE}
export NETWORK_FW_NAME_1=${NETWORK_NAME_1}-fw-1-${ZONE}
export FIREWALL_RULE_NAME=${CLUSTER_NAME}-privatefirewall-1-${ZONE}
export ROUTER_NAME=${CLUSTER_NAME}-network-1-${ZONE}
export NAT_CONFIG=${CLUSTER_NAME}-natconfig-1-${ZONE}

gcloud compute networks create ${NETWORK_NAME_1} \
   --mtu=8896 \
   --bgp-routing-mode=regional \
   --subnet-mode=custom \
   --project=${PROJECT_ID}

gcloud compute networks subnets create ${SUBNET_NAME_1} \
   --network=${NETWORK_NAME_1} \
   --range=10.11.0.0/18 \
   --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_1} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
   --project=${PROJECT_ID} \
   --network=${NETWORK_NAME_1} \
   --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
   --router=${ROUTER_NAME} \
   --region=${REGION} \
   --auto-allocate-nat-external-ips \
   --nat-all-subnet-ip-ranges \
   --project=${PROJECT_ID} \
   --enable-logging

# Secondary subnet for multi-nic experience.
# Need custom IP routing to be different from the first network's subnet.

export NETWORK_NAME_2=${CLUSTER_NAME}-privatenetwork-2-${ZONE}
export SUBNET_NAME_2=${CLUSTER_NAME}-privatesubnet-2-${ZONE}
export FIREWALL_RULE_NAME=${CLUSTER_NAME}-privatefirewall-2-${ZONE}
export ROUTER_NAME=${CLUSTER_NAME}-network-2-${ZONE}
export NAT_CONFIG=${CLUSTER_NAME}-natconfig-2-${ZONE}

gcloud compute networks create ${NETWORK_NAME_2} \
   --mtu=8896 \
   --bgp-routing-mode=regional \
   --subnet-mode=custom \
   --project=${PROJECT_ID}

gcloud compute networks subnets create ${SUBNET_NAME_2} \
   --network=${NETWORK_NAME_2} \
   --range=10.10.0.0/18 \
   --region=${REGION} \
   --project=${PROJECT_ID}

gcloud compute firewall-rules create ${FIREWALL_RULE_NAME} \
   --network=${NETWORK_NAME_2} \
   --allow tcp,icmp,udp \
   --project=${PROJECT_ID}

gcloud compute routers create ${ROUTER_NAME} \
   --project=${PROJECT_ID} \
   --network=${NETWORK_NAME_2} \
   --region=${REGION}

gcloud compute routers nats create ${NAT_CONFIG} \
   --router=${ROUTER_NAME} \
   --region=${REGION} \
   --auto-allocate-nat-external-ips \
   --nat-all-subnet-ip-ranges \
   --project=${PROJECT_ID} \
   --enable-logging

export CLUSTER_ARGUMENTS="--enable-dataplane-v2 --enable-ip-alias --enable-multi-networking --network=${NETWORK_NAME_1} --subnetwork=${SUBNET_NAME_1}"
export NODE_POOL_ARGUMENTS="--additional-node-network network=${NETWORK_NAME_2},subnetwork=${SUBNET_NAME_2}"

python3 xpk.py cluster create \
   --cluster=${CLUSTER_NAME} \
   --cluster-cpu-machine-type=e2-standard-8 \
   --num-slices=${NUM_SLICES} \
   --tpu-type=${TPU_TYPE} \
   --zone=${ZONE}  \
   --project=${PROJECT_ID} \
   --on-demand \
   --custom-cluster-arguments="${CLUSTER_ARGUMENTS}" \
   --custom-nodepool-arguments="${NODE_POOL_ARGUMENTS}" \
   --create-vertex-tensorboard

Descripciones de las marcas de comandos

Variable	Descripción
CLUSTER_NAME	Es el nombre asignado por el usuario para el clúster de XPK.
ID DEL PROYECTO	Nombre del proyectoGoogle Cloud . Usa un proyecto existente o crea uno nuevo. Para obtener más información, consulta Configura tu proyecto de Google Cloud .
ZONA	Consulta el documento Regiones y zonas de Cloud TPU para conocer las zonas compatibles.
TPU_TYPE	Consulta Tipos de aceleradores.
NUM_SLICES	Cantidad de segmentos que deseas crear
CLUSTER_ARGUMENTS	La red y la subred que se usarán. Por ejemplo: `--enable-dataplane-v2 --enable-ip-alias --enable-multi-networking --network=${NETWORK_NAME_1} --subnetwork=${SUBNET_NAME_1}`
NODE_POOL_ARGUMENTS	Es la red de nodos adicional que se usará. Por ejemplo: `--additional-node-network network=${NETWORK_NAME_2},subnetwork=${SUBNET_NAME_2}`
NUM_SLICES	Cantidad de segmentos que se crearán (solo es necesario para Multislice).
NETWORK_NAME	Es el nombre de una red secundaria que se usará.
NETWORK_FW_NAME	Es el nombre de un firewall de red secundario que se usará.

Configuración del framework

En esta sección, se describe el proceso de configuración general para el entrenamiento de modelos de AA con los frameworks de JAX y PyTorch. Si usas GKE, puedes usar XPK o comandos de Kubernetes para configurar el framework.

Configuración de JAX

En esta sección, se proporcionan instrucciones de configuración para ejecutar cargas de trabajo de JAX en GKE, con o sin XPK, así como para usar recursos en cola.

Configura JAX con GKE

Una sola porción en un solo host

En el siguiente ejemplo, se configura un grupo de nodos de un solo host de 2 x 2 con un archivo YAML de Kubernetes.

apiVersion: v1
kind: Pod
metadata:
  name: tpu-pod-jax-v6e-a
spec:
  restartPolicy: Never
  nodeSelector:
    cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
    cloud.google.com/gke-tpu-topology: 2x2
  containers:
  - name: tpu-job
    image: python:3.10
    securityContext:
      privileged: true
    command:
    - bash
    - -c
    - |
      pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
      JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python3 -c 'import jax; print("Total TPU chips:", jax.device_count())'
    resources:
      requests:
        google.com/tpu: 4
      limits:
        google.com/tpu: 4

Cuando se complete correctamente, deberías ver el siguiente mensaje en el registro de GKE:

Total TPU chips: 4

Una sola porción en varios hosts

En el siguiente ejemplo, se configura un grupo de nodos de varios hosts de 4 x 4 con un archivo YAML de Kubernetes.

apiVersion: v1
kind: Service
metadata:
  name: headless-svc
spec:
  clusterIP: None
  selector:
    job-name: tpu-available-chips
---
apiVersion: batch/v1
kind: Job
metadata:
  name: tpu-available-chips
spec:
  backoffLimit: 0
  completions: 4
  parallelism: 4
  completionMode: Indexed
  template:
    spec:
      subdomain: headless-svc
      restartPolicy: Never
      nodeSelector:
        cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
        cloud.google.com/gke-tpu-topology: 4x4
      containers:
      - name: tpu-job
        image: python:3.10
        ports:
        - containerPort: 8471 # Default port using which TPU VMs communicate
        - containerPort: 8431 # Port to export TPU runtime metrics, if supported.
        securityContext:
          privileged: true
        command:
        - bash
        - -c
        - |
          pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
          JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python -c 'import jax; print("Total TPU chips:", jax.device_count())'
        resources:
          requests:
            google.com/tpu: 4
          limits:
            google.com/tpu: 4

Cuando se complete correctamente, deberías ver el siguiente mensaje en el registro de GKE:

Total TPU chips: 16

Multislice en varios hosts

En el siguiente ejemplo, se configuran dos grupos de nodos de varios hosts de 4 x 4 con un archivo YAML de Kubernetes.

Como requisito previo, debes instalar JobSet v0.2.3 o una versión posterior.

apiVersion: jobset.x-k8s.io/v1alpha2
kind: JobSet
metadata:
  name: multislice-job
  annotations:
    alpha.jobset.sigs.k8s.io/exclusive-topology: cloud.google.com/gke-nodepool
spec:
  failurePolicy:
    maxRestarts: 4
  replicatedJobs:
    - name: slice
      replicas: 2
      template:
        spec:
          parallelism: 4
          completions: 4
          backoffLimit: 0
          template:
            spec:
              hostNetwork: true
              dnsPolicy: ClusterFirstWithHostNet
              nodeSelector:
                cloud.google.com/gke-tpu-accelerator: tpu-v6e-slice
                cloud.google.com/gke-tpu-topology: 4x4
              hostNetwork: true
              containers:
              - name: jax-tpu
                image: python:3.10
                ports:
                - containerPort: 8471
                - containerPort: 8080
                - containerPort: 8431
                securityContext:
                  privileged: true
                command:
                - bash
                - -c
                - |
                  pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
                  JAX_PLATFORMS=tpu,cpu ENABLE_PJRT_COMPATIBILITY=true python -c 'import jax; print("Total TPU chips:", jax.device_count())'
                resources:
                  limits:
                   google.com/tpu: 4
                  requests:
                   google.com/tpu: 4

Cuando se complete correctamente, deberías ver el siguiente mensaje en el registro de GKE:

Total TPU chips: 32

Para obtener más información, consulta Ejecuta una carga de trabajo de porciones múltiples en la documentación de GKE.

Para obtener un mejor rendimiento, habilita hostNetwork.

Multi-NIC

Para usar el siguiente manifiesto de varias NIC, debes configurar tus redes. Para obtener más información, consulta Configura la compatibilidad con varias redes para Pods de Kubernetes.

Para aprovechar las ventajas de las múltiples NIC en GKE, debes incluir algunas anotaciones adicionales en el manifiesto del Pod de Kubernetes.

A continuación, se muestra un ejemplo de manifiesto de carga de trabajo de varios NIC que no es de TPU.

apiVersion: v1
kind: Pod
metadata:
  name: sample-netdevice-pod-1
  annotations:
    networking.gke.io/default-interface: 'eth0'
    networking.gke.io/interfaces: |
      [
        {"interfaceName":"eth0","network":"default"},
        {"interfaceName":"eth1","network":"netdevice-network"}
      ]
spec:
  containers:
  - name: sample-netdevice-pod
    image: busybox
    command: ["sleep", "infinity"]
    ports:
    - containerPort: 80
  restartPolicy: Always
  tolerations:
  - key: "google.com/tpu"
    operator: "Exists"
    effect: "NoSchedule"

Si usas el comando exec para conectarte al Pod de Kubernetes, deberías ver la NIC adicional con el siguiente código:

$ kubectl exec --stdin --tty sample-netdevice-pod-1 -- /bin/sh
/ # ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
2: eth0@if11: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1460 qdisc noqueue
    link/ether da:be:12:67:d2:25 brd ff:ff:ff:ff:ff:ff
    inet 10.124.2.6/24 brd 10.124.2.255 scope global eth0
       valid_lft forever preferred_lft forever
3: eth1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1460 qdisc mq qlen 1000
    link/ether 42:01:ac:18:00:04 brd ff:ff:ff:ff:ff:ff
    inet 172.24.0.4/32 scope global eth1
       valid_lft forever preferred_lft forever

Configura JAX con GKE y XPK

Para configurar JAX con GKE y XPK, consulta el README de XPK.

Para configurar y ejecutar XPK con MaxText, consulta Cómo ejecutar MaxText.

Configura JAX con recursos en cola

Instala JAX en todas las VMs de Cloud TPU de tu segmento o segmentos de forma simultánea con el comando gcloud alpha compute tpus tpu-vm ssh. En el caso de Multislice, agrega la marca --node=all.

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} \
   --project ${PROJECT_ID} \
   --zone ${ZONE} \
   --worker=all \
   --command='
   pip install -U --pre jax jaxlib libtpu-nightly requests -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/ -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'

Puedes ejecutar el siguiente comando para verificar cuántos núcleos de Cloud TPU están disponibles en tu segmento y probar que todo esté instalado correctamente:

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} \
   --project ${PROJECT_ID} \
   --zone ${ZONE} \
   --worker=all \
   --command='
   python3 -c "import jax; print(jax.device_count(), jax.local_device_count())"'

El resultado es similar al siguiente cuando se ejecuta en una división v6e-16:

SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
16 4
16 4
16 4
16 4

jax.device_count() muestra la cantidad total de chips en la porción determinada. jax.local_device_count() indica la cantidad de chips a los que puede acceder una sola VM en esta porción.

gcloud alpha compute tpus queued-resources ssh ${QUEUED_RESOURCE_ID} \
   --project=${PROJECT_ID} \
   --zone=${ZONE} \
   --worker=all \
   --command='
   git clone -b mlperf4.1 https://github.com/google/maxdiffusion.git &&
   cd maxdiffusion && git checkout 4a8155ec0129512812b31930f0a91c6d5a141103 &&
   pip install setuptools==59.6.0 &&
   pip install -r requirements.txt && pip install .'

Soluciona problemas de configuración de JAX

Una sugerencia general es habilitar el registro detallado en el manifiesto de tu carga de trabajo de GKE. Luego, proporciona los registros al equipo de asistencia de GKE.

TPU_MIN_LOG_LEVEL=0 TF_CPP_MIN_LOG_LEVEL=0 TPU_STDERR_LOG_LEVEL=0

Mensajes de error

no endpoints available for service 'jobset-webhook-service'

Este error significa que el conjunto de trabajos no se instaló correctamente. Comprueba si se están ejecutando los Pods de Kubernetes de la implementación de jobset-controller-manager. Para obtener más información, consulta la documentación sobre la solución de problemas de JobSet.

TPU initialization failed: Failed to connect

Asegúrate de que la versión de tu nodo de GKE sea 1.30.4-gke.1348000 o posterior (GKE 1.31 no es compatible).

Configuración de PyTorch

En esta sección, se describe cómo comenzar a usar PJRT en la versión 6e con PyTorch/XLA. Se recomienda la versión 3.10 de Python.

Configura PyTorch con GKE y XPK

Puedes usar el siguiente contenedor de Docker con XPK que ya tiene instaladas las dependencias de PyTorch:

us-central1-docker.pkg.dev/tpu-pytorch-releases/docker/xla:nightly_3.10_tpuvm_20241028

Para crear una carga de trabajo de XPK, usa el siguiente comando:

python3 xpk.py workload create \
   --cluster ${CLUSTER_NAME} \
   {--base-docker-image maxtext_base_image | --docker-image your-cloud-image-name} \
   --workload ${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
   --tpu-type=${ACCELERATOR_TYPE} \
   --num-slices=${NUM_SLICES}  \
   --on-demand \
   --zone ${ZONE} \
   --project ${PROJECT_ID} \
   --enable-debug-logs \
   --command 'python3 -c "import torch; import torch_xla; import torch_xla.runtime as xr; print(xr.global_runtime_device_count())"'

El uso de --base-docker-image crea una nueva imagen de Docker con el directorio de trabajo actual compilado en el nuevo Docker.

Configura PyTorch con recursos en cola

Sigue estos pasos para instalar PyTorch con recursos en cola y ejecutar un pequeño script en v6e.

Instala dependencias con SSH para acceder a las VMs

Usa el siguiente comando para instalar dependencias en todas las VMs de Cloud TPU. Para Multislice, agrega la marca --worker=all:

gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
   --project=${PROJECT_ID} \
   --zone=${ZONE} \
   --worker=all \
   --command='
   sudo apt update && sudo apt install -y python3-pip libopenblas-base && \
   pip3 install torch~=2.6.0 "torch_xla[tpu]~=2.6.0" -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html'

Mejora el rendimiento de los modelos con asignaciones frecuentes y considerables

Para los modelos que tienen asignaciones frecuentes y de tamaño, usar la función tcmalloc mejora el rendimiento de manera significativa en comparación con la implementación predeterminada de la función malloc, por lo que la función malloc predeterminada que se usa en la VM de Cloud TPU es tcmalloc. Sin embargo, según tu carga de trabajo (por ejemplo, con DLRM, que tiene asignaciones muy grandes para sus tablas de incorporación), la función tcmalloc puede causar una ralentización, en cuyo caso puedes intentar anular la configuración de la siguiente variable con la función malloc predeterminada:

unset LD_PRELOAD

Usa una secuencia de comandos de Python para realizar un cálculo en la VM v6e

Usa el siguiente comando para ejecutar un script que crea dos tensores, los suma y, luego, imprime el resultado:

gcloud alpha compute tpus tpu-vm ssh ${TPU_NAME} \
   --project ${PROJECT_ID} \
   --zone ${ZONE} \
   --worker all \
   --command='
   unset LD_PRELOAD
   python3 -c "import torch; import torch_xla; import torch_xla.core.xla_model as xm; print(xm.xla_device()); dev = xm.xla_device(); t1 = torch.randn(3,3,device=dev); t2 = torch.randn(3,3,device=dev); print(t1 + t2)"'

Esto genera un resultado similar al que se muestra a continuación:

SSH: Attempting to connect to worker 0...
WARNING:root:libtpu.so and TPU device found. Setting PJRT_DEVICE=TPU.
xla:0
tensor([[ 0.3355, -1.4628, -3.2610],
        [-1.4656,  0.3196, -2.8766],
        [ 0.8668, -1.5060,  0.7125]], device='xla:0')

v6e con SkyPilot

Puedes usar Cloud TPU v6e con SkyPilot. Sigue estos pasos para agregar información de ubicación y precios relacionada con v6e a SkyPilot. Para obtener más información, consulta el ejemplo de SkyPilot TPU v6e.

Instructivos de inferencia

En los siguientes instructivos, se muestra cómo ejecutar la inferencia en Cloud TPU v6e:

Ejemplos de entrenamiento

En las siguientes secciones, se proporcionan ejemplos para entrenar modelos de MaxText, MaxDiffusion y PyTorch en Cloud TPU v6e.

Entrenamiento de MaxText y MaxDiffusion en la VM de Cloud TPU v6e

En las siguientes secciones, se abarca el ciclo de vida del entrenamiento de los modelos MaxText y MaxDiffusion.

En general, los pasos de alto nivel son los siguientes:

Compila la imagen base de la carga de trabajo.
Ejecuta tu carga de trabajo con XPK.
1. Compila el comando de entrenamiento para la carga de trabajo.
2. Implementa la carga de trabajo.
Sigue la carga de trabajo y consulta las métricas.
Borra la carga de trabajo de XPK si no es necesaria.
Borra el clúster de XPK cuando ya no lo necesites.

Compila la imagen base

Instala MaxText o MaxDiffusion y compila la imagen de Docker:

Clona el repositorio que deseas usar y cambia al directorio del repositorio:

MaxText:

git clone https://github.com/google/maxtext.git && cd maxtext

MaxDiffusion:

git clone https://github.com/google/maxdiffusion.git && cd maxdiffusion && git checkout 4a8155ec0129512812b31930f0a91c6d5a141103

Configura Docker para usar Google Cloud CLI:
```
gcloud auth configure-docker
```

Compila la imagen de Docker con el siguiente comando o con la pila estable de JAX. Para obtener más información sobre JAX Stable Stack, consulta Compila una imagen de Docker con JAX Stable Stack.

MaxText:

bash docker_build_dependency_image.sh MODE=stable JAX_VERSION=0.4.35

MaxDiffusion:

bash .github/workflows/build_and_upload_images.sh CLOUD_IMAGE_NAME=maxdiffusion_jax_stable_stack MODE=jax_ai_image PROJECT=${PROJECT_ID} LOCAL_IMAGE_NAME=maxdiffusion_jax_stable_stack BASEIMAGE=us-docker.pkg.dev/cloud-tpu-images/jax-ai-image/tpu:latest

Configura tu ID del proyecto en la configuración activa de gcloud CLI:
```
gcloud config set project ${PROJECT_ID}
```
Si inicias la carga de trabajo desde una máquina que no tiene la imagen compilada de forma local, sube la imagen.

Nota: Asegúrate de usar la versión 4.2 de bash o una posterior.
1. Establece la variable de entorno CLOUD_IMAGE_NAME:
```
export CLOUD_IMAGE_NAME=${USER}_runner
```
2. Sube la imagen:
```
bash docker_upload_runner.sh ${CLOUD_IMAGE_NAME}
```

Ejecuta tu carga de trabajo con XPK

Establece las siguientes variables de entorno si no usas los valores predeterminados establecidos por MaxText o MaxDiffusion:

export BASE_OUTPUT_DIR=gs://YOUR_BUCKET
export PER_DEVICE_BATCH_SIZE=2
export NUM_STEPS=30
export MAX_TARGET_LENGTH=8192

Crea tu secuencia de comandos del modelo. Esta secuencia de comandos se copiará como un comando de entrenamiento en un paso posterior.

Aún no ejecutes la secuencia de comandos del modelo.

MaxText

MaxText es un LLM de código abierto de alto rendimiento y altamente escalable escrito en Python y JAX puros, y orientado a Google Cloud TPUs y GPUs para el entrenamiento y la inferencia.

JAX_PLATFORMS=tpu,cpu \
ENABLE_PJRT_COMPATIBILITY=true \
TPU_SLICE_BUILDER_DUMP_CHIP_FORCE=true \
TPU_SLICE_BUILDER_DUMP_ICI=true && \
python3 -m MaxText.train MaxText/configs/base.yml \
     base_output_directory=${BASE_OUTPUT_DIR} \
     dataset_type=synthetic \
     per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
     enable_checkpointing=false \
     gcs_metrics=true \
     profiler=xplane \
     skip_first_n_steps_for_profiler=5 \
     steps=${NUM_STEPS}  # attention='dot_product'"

Gemma2

Gemma es una familia de LLMs de código abierto desarrollados por Google DeepMind, basados en la investigación y la tecnología de Gemini.

python3 -m MaxText.train MaxText/configs/base.yml \
    model_name=gemma2-27b \
    run_name=gemma2-27b-run \
    base_output_directory=${BASE_OUTPUT_DIR} \
    max_target_length=${MAX_TARGET_LENGTH} \
    per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
    steps=${NUM_STEPS} \
    enable_checkpointing=false \
    use_iota_embed=true \
    gcs_metrics=true \
    dataset_type=synthetic \
    profiler=xplane \
    attention=flash

Mixtral 8x7b

Mixtral es un modelo de IA de vanguardia desarrollado por Mistral AI que utiliza una arquitectura de mezcla de expertos (MoE) dispersa.

python3 -m MaxText.train MaxText/configs/base.yml \
    base_output_directory=${BASE_OUTPUT_DIR} \
    per_device_batch_size=${PER_DEVICE_BATCH_SIZE} \
    model_name=mixtral-8x7b \
    steps=${NUM_STEPS} \
    max_target_length=${MAX_TARGET_LENGTH} \
    tokenizer_path=assets/tokenizer.mistral-v1 \
    attention=flash \
    dtype=bfloat16 \
    dataset_type=synthetic \
    profiler=xplane

Llama3-8b

Llama es una familia de LLMs de código abierto desarrollados por Meta.

Para ver un ejemplo de cómo ejecutar Llama3 en PyTorch, consulta los modelos de torch_xla en el repositorio de torchprime.

MaxDiffusion

MaxDiffusion es una colección de implementaciones de referencia de varios modelos de difusión latentes escritos en Python y JAX puros que se ejecutan en dispositivos XLA, incluidas las Cloud TPU y las GPU. Stable Diffusion es un modelo latente de texto a imagen que genera imágenes fotorrealistas a partir de cualquier entrada de texto.

Debes instalar una rama de Git específica para ejecutar MaxDiffusion, como se muestra en el siguiente comando git clone.

Secuencia de comandos de entrenamiento:

git clone https://github.com/google/maxdiffusion.git && cd maxdiffusion && git checkout 4a8155ec0129512812b31930f0a91c6d5a141103 && pip install -r requirements.txt && pip install . && pip install huggingface_hub==0.30.2 && OUT_DIR=${BASE_OUTPUT_DIR} && python src/maxdiffusion/train_sdxl.py src/maxdiffusion/configs/base_xl.yml revision=refs/pr/95 activations_dtype=bfloat16 weights_dtype=bfloat16  resolution=1024  per_device_batch_size=1 output_dir=${OUT_DIR} jax_cache_dir=${OUT_DIR}/cache_dir/ max_train_steps=200 attention=flash run_name=sdxl-ddp-v6e

Exporta las siguientes variables:

export CLUSTER_NAME=CLUSTER_NAME
export ACCELERATOR_TYPE=ACCELERATOR_TYPE
export NUM_SLICES=NUM_SLICES
export YOUR_MODEL_SCRIPT=YOUR_MODEL_SCRIPT

Descripciones de las variables de entorno

Variable	Descripción
`CLUSTER_NAME`	Es el nombre de tu clúster de XPK.
`ACCELERATOR_TYPE`	Consulta Tipos de aceleradores.
`NUM_SLICES`	Es la cantidad de porciones de TPU.
`YOUR_MODEL_SCRIPT`	Es la secuencia de comandos del modelo que se ejecutará como un comando de entrenamiento.

Ejecuta el modelo con la secuencia de comandos que creaste en el paso anterior. Debes especificar la marca --base-docker-image para usar la imagen base de MaxText o la marca --docker-image y la imagen que deseas usar.

Opcional: Puedes habilitar el registro de depuración si incluyes la marca --enable-debug-logs. Para obtener más información, consulta Cómo depurar JAX en MaxText.

Opcional: Puedes crear un experimento de Vertex AI para subir datos a Vertex AI TensorBoard incluyendo la marca --use-vertex-tensorboard. Para obtener más información, consulta Cómo supervisar JAX en MaxText con Vertex AI.
```
python3 xpk.py workload create \
  --cluster ${CLUSTER_NAME} \
  {--base-docker-image maxtext_base_image | --docker-image gcr.io/${PROJECT_ID}/${CLOUD_IMAGE_NAME}:latest} \
  --workload=${USER}-xpk-${ACCELERATOR_TYPE}-${NUM_SLICES} \
  --tpu-type=${ACCELERATOR_TYPE} \
  --num-slices=${NUM_SLICES}  \
  --on-demand \
  --zone=${ZONE} \
  --project=${PROJECT_ID} \
  [--enable-debug-logs] \
  [--use-vertex-tensorboard] \
  --command="${YOUR_MODEL_SCRIPT}"
```
El resultado incluye un vínculo para seguir tu carga de trabajo. Abre el vínculo y haz clic en la pestaña Registros para hacer un seguimiento de tu carga de trabajo en tiempo real.

Cómo depurar JAX en MaxText

Usa comandos de XPK complementarios para diagnosticar por qué no se ejecutan el clúster o la carga de trabajo:

Lista de cargas de trabajo de XPK
Inspector de XPK
Habilita el registro detallado en los registros de tu carga de trabajo con la marca --enable-debug-logs cuando crees la carga de trabajo de XPK.

Supervisa JAX en MaxText con Vertex AI

Para usar TensorBoard, tu cuenta de usuario Google Cloud debe tener el rol de aiplatform.user. Ejecuta el siguiente comando para otorgar este rol:

gcloud projects add-iam-policy-binding your-project-id \
   --member='user:your-email' \
   --role='roles/aiplatform.user'

Visualiza datos de perfil y escalares a través de TensorBoard administrado de Vertex AI.

Aumenta las solicitudes de administración de recursos (CRUD) para la zona que usas de 600 a 5,000. Esto podría no ser un problema para cargas de trabajo pequeñas que usan menos de 16 VMs.

Instala dependencias como cloud-accelerator-diagnostics para Vertex AI:

# xpk dependencies will install cloud-accelerator-diagnostics for Vertex AI
cd ~/xpk
pip install .

Crea tu clúster de XPK con la marca --create-vertex-tensorboard, como se documenta en Crea Vertex AI TensorBoard. También puedes ejecutar este comando en clústeres existentes.
Crea tu experimento de Vertex AI cuando ejecutes tu carga de trabajo de XPK con la marca --use-vertex-tensorboard y la marca opcional --experiment-name. Para obtener la lista completa de pasos, consulta Crea un experimento de Vertex AI para subir datos a Vertex AI TensorBoard.

Los registros incluyen un vínculo a un Vertex AI TensorBoard, similar al siguiente:

View your TensorBoard at https://us-central1.tensorboard.googleusercontent.com/experiment/project_id+locations+us-central1+tensorboards+hash+experiments+name

También puedes encontrar el vínculo de TensorBoard de Vertex AI en la consola de Google Cloud . Ve a Vertex AI Experiments en la consola de Google Cloud . Selecciona la región adecuada en el menú desplegable.

El directorio de TensorBoard también se escribe en el bucket de Cloud Storage que especificaste con ${BASE_OUTPUT_DIR}.

Borra cargas de trabajo de XPK

Usa el comando xpk workload delete para borrar una o más cargas de trabajo según el prefijo o el estado del trabajo. Este comando puede ser útil si enviaste cargas de trabajo de XPK que ya no es necesario ejecutar o si tienes trabajos atascados en la cola.

Borra el clúster de XPK

Usa el comando xpk cluster delete para borrar un clúster:

python3 xpk.py cluster delete --cluster ${CLUSTER_NAME} \
   --zone=${ZONE} --project=${PROJECT_ID}

Entrenamiento de Llama y PyTorch/XLA en una VM de Cloud TPU v6e

En este instructivo, se describe cómo entrenar modelos de Llama con PyTorch/XLA en Cloud TPU v6e usando el conjunto de datos WikiText.

Obtén acceso a Hugging Face y al modelo de Llama 3

Necesitas un token de acceso de usuario de Hugging Face para ejecutar este instructivo. Para obtener información sobre cómo crear tokens de acceso de usuario, consulta la documentación de Hugging Face sobre tokens de acceso de usuario.

También necesitas permiso para acceder al modelo Llama-3-8B en Hugging Face. Para obtener acceso, ve al modelo Meta-Llama-3-8B en Hugging Face y solicita acceso.

Crea una VM de Cloud TPU

Crea una Cloud TPU v6e con 8 chips para ejecutar el instructivo.

Configure las variables de entorno:

export NODE_ID=your-tpu-name
export PROJECT_ID=your-project-id
export ACCELERATOR_TYPE=v6e-8
export ZONE=us-east1-d
export RUNTIME_VERSION=v2-alpha-tpuv6e
export SERVICE_ACCOUNT=your-service-account
export QUEUED_RESOURCE_ID=your-queued-resource-id
export VALID_DURATION=your-duration

Crea una VM de Cloud TPU:

gcloud alpha compute tpus tpu-vm create ${NODE_ID} --version=${RUNTIME_VERSION} \
   --accelerator-type=${ACCELERATOR_TYPE} \
   --zone=${ZONE} \
   --project=${PROJECT_ID}

Instalación

Instala la bifurcación de pytorch-tpu/transformers de Transformers de Hugging Face y las dependencias. Este instructivo se probó con las siguientes versiones de dependencias que se usan en este ejemplo:

torch: Compatible con la versión 2.5.0
torch_xla[tpu]: Compatible con la versión 2.5.0
jax: 0.4.33
jaxlib: 0.4.33

gcloud alpha compute tpus tpu-vm ssh ${NODE_ID} \
   --project=${PROJECT_ID} \
   --zone ${ZONE} \
   --worker=all \
   --command='git clone -b flash_attention https://github.com/pytorch-tpu/transformers.git
   cd transformers
   sudo pip3 install -e .
   pip3 install datasets
   pip3 install evaluate
   pip3 install scikit-learn
   pip3 install accelerate
   pip install torch~=2.6.0 torch_xla[tpu]~=2.6.0 -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html
   pip install jax==0.4.38 jaxlib==0.4.38 -i https://us-python.pkg.dev/ml-oss-artifacts-published/jax/simple/'

Configura los parámetros del modelo

El comando de entrenamiento de la siguiente sección, Ejecuta el modelo, usa dos archivos de configuración JSON para definir los parámetros del modelo y la configuración de paralelismo de datos completamente fragmentados (FSDP). El sharding de FSDP te permite usar un tamaño de lote más grande durante el entrenamiento, ya que fragmenta los pesos del modelo en varias TPU. Cuando se entrena con modelos más pequeños, puede ser suficiente usar el paralelismo de datos y replicar los pesos en cada dispositivo. Si deseas obtener más información para fragmentar tensores en dispositivos con PyTorch/XLA, consulta la guía del usuario de SPMD de PyTorch/XLA.

Crea el archivo de configuración de parámetros del modelo. A continuación, se muestra la configuración de parámetros del modelo para Llama-3-8B. Para otros modelos, busca la configuración en Hugging Face. Por ejemplo, consulta la configuración de Llama-2-7B.

cat > llama-config.json << EOF
{
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 128000,
  "eos_token_id": 128001,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 8192,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.40.0.dev0",
  "use_cache": false,
  "vocab_size": 128256
}
EOF

Crea el archivo de configuración de FSDP:

cat > fsdp-config.json << EOF
{
  "fsdp_transformer_layer_cls_to_wrap": [
    "LlamaDecoderLayer"
  ],
  "xla": true,
  "xla_fsdp_v2": true,
  "xla_fsdp_grad_ckpt": true
}
EOF

Para obtener más información sobre FSDP, consulta FSDPv2.

Sube los archivos de configuración a tus VMs de Cloud TPU con el siguiente comando:

gcloud alpha compute tpus tpu-vm scp llama-config.json fsdp-config.json ${NODE_ID}:. \
   --worker=all \
   --project=${PROJECT_ID} \
   --zone=${ZONE}

Ejecuta el modelo

Con los archivos de configuración que creaste en la sección anterior, ejecuta la secuencia de comandos run_clm.py para entrenar el modelo Llama-3-8B en el conjunto de datos de WikiText. La secuencia de comandos de entrenamiento tarda alrededor de 10 minutos en ejecutarse en una Cloud TPU v6e-8.

Accede a Hugging Face en tu Cloud TPU con el siguiente comando:

gcloud alpha compute tpus tpu-vm ssh ${NODE_ID} \
   --project=${PROJECT_ID} \
   --zone ${ZONE} \
   --worker=all \
   --command='
   pip3 install "huggingface_hub[cli]"
   huggingface-cli login --token HUGGING_FACE_TOKEN'

Ejecuta el entrenamiento de modelos:

gcloud alpha compute tpus tpu-vm ssh ${NODE_ID} \
   --project=${PROJECT_ID} \
   --zone ${ZONE} \
   --worker=all \
   --command='
   export PJRT_DEVICE=TPU
   export XLA_USE_SPMD=1
   export ENABLE_PJRT_COMPATIBILITY=true
   # Optional variables for debugging:
   export XLA_IR_DEBUG=1
   export XLA_HLO_DEBUG=1
   export PROFILE_EPOCH=0
   export PROFILE_STEP=3
   export PROFILE_DURATION_MS=100000
   # Set PROFILE_LOGDIR to a local VM path or gs://my-bucket/profile_path
   export PROFILE_LOGDIR=PROFILE_PATH
   python3 transformers/examples/pytorch/language-modeling/run_clm.py \
     --dataset_name wikitext \
     --dataset_config_name wikitext-2-raw-v1 \
     --per_device_train_batch_size 16 \
     --do_train \
     --output_dir /home/$USER/tmp/test-clm \
     --overwrite_output_dir \
     --config_name /home/$USER/llama-config.json \
     --cache_dir /home/$USER/cache \
     --tokenizer_name meta-llama/Meta-Llama-3-8B \
     --block_size 8192 \
     --optim adafactor \
     --save_strategy no \
     --logging_strategy no \
     --fsdp "full_shard" \
     --fsdp_config /home/$USER/fsdp-config.json \
     --torch_dtype bfloat16 \
     --dataloader_drop_last yes \
     --flash_attention \
     --max_steps 20'

Solución de problemas de PyTorch/XLA

Si configuraste las variables opcionales para la depuración en la sección anterior, el perfil del modelo se almacenará en la ubicación especificada por la variable PROFILE_LOGDIR. Puedes extraer el archivo xplane.pb almacenado en esta ubicación y usar tensorboard para ver los perfiles en tu navegador con las instrucciones de TensorBoard.

Si PyTorch/XLA no funciona como se espera, consulta la guía de solución de problemas, que incluye sugerencias para depurar, generar perfiles y optimizar tu modelo.

Resultados de comparativas

En la siguiente sección, se incluyen los resultados de la evaluación comparativa de MaxDiffusion en v6e.

MaxDiffusion

Ejecutamos la secuencia de comandos de entrenamiento de MaxDiffusion en una v6e-4, una v6e-16 y dos v6e-16. Consulta los rendimientos en la siguiente tabla.

	v6e-4	v6e-16	Dos v6e-16
Pasos de entrenamiento	0.069	0.073	0.13
Tamaño del lote global	8	32	64
Capacidad de procesamiento (ejemplos/s)	115.9	438.4	492.3