Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado en Vertex AI, y descubre lo que puedes compilar con una ventana de contexto de un millón de tokens. Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado en Vertex AI, y descubre lo que puedes compilar con una ventana de contexto de un millón de tokens.

Transcribe la voz a texto con la CLI de gcloud

En esta página, se muestra cómo enviar una solicitud de reconocimiento de voz a Speech-to-Text con la herramienta de gcloud desde la línea de comandos.

Con Speech-to-Text, se puede realizar una integración sencilla de las tecnologías de reconocimiento de voz de Google en las aplicaciones de los desarrolladores. Puedes enviar datos de audio a la API de Speech-to-Text que, a su vez, muestra una transcripción de texto de ese archivo de audio. Para obtener más información sobre el servicio, consulta Conceptos básicos de Speech-to-Text.

Antes de comenzar

Antes de enviar una solicitud a la API de Speech-to-Text, debes completar las siguientes acciones. Consulta la página antes de comenzar para obtener más detalles.

Habilitar Speech-to-Text en un proyecto.
1. Asegúrate de que la facturación esté habilitada para Speech-to-Text.
Instala Google Cloud CLI y, luego, inicializa la ejecución del siguiente comando:
```
gcloud init
```
Crea un bucket de Google Cloud Storage nuevo para almacenar tus datos de audio (opcional).

Realiza una solicitud de transcripción de audio

Ahora puedes usar Speech-to-Text para transcribir un archivo de audio a texto. Usa la siguiente muestra de código para enviar una solicitud de recognize a la API de Speech-to-Text.

Abre el shell de línea de comandos y ejecuta el siguiente comando.

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

Con este comando, se envía una solicitud para que se transcriba el audio de un FLAC alojado en una ubicación de acceso público mediante Speech-to-Text.

Si la solicitud es exitosa, el servidor muestra una respuesta en formato JSON:

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

Felicitaciones Enviaste tu primera solicitud a Speech-to-Text.

Si recibes un error o una respuesta vacía de Speech-to-Text, consulta los pasos de Solución de problemas y Mensajes de error.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Usa la consola de Google Cloud para borrar tu proyecto si no lo necesitas.

¿Qué sigue?

Practica transcribir archivos de audio cortos.
Aprende a agrupar archivos de audio largos para reconocimiento de voz.
Aprende a transcribir audio con transmisión continua como, por ejemplo, desde un micrófono.
Comienza a usar Speech-to-Text en el idioma de tu preferencia mediante una biblioteca cliente de Speech-to-Text.
Trabaja con las aplicaciones de muestra.
Para mejorar el rendimiento y la exactitud, así como ver otras sugerencias, consulta la documentación de prácticas recomendadas.