Cuotas y límites

En este documento se detallan las restricciones y los límites de uso actuales de la API de Speech‑to‑Text. Esta página se actualizará para reflejar los cambios en estas restricciones y límites de uso. Nos reservamos el derecho de modificar los límites.

Puedes solicitar un incremento de la cuota si es necesario. Consulta la página de cuotas de Google Cloud para obtener más información sobre cómo revisar y administrar tu cuota.

Después de enviar la solicitud, Google puede comunicarse contigo para pedirte más información y también informarte si se aprobó o rechazó.

Límites de contenido

Solicitudes síncronas

Las solicitudes de reconocimiento síncronas (mediante el método Recognize) aceptan datos de audio intercalados en el campo content de la solicitud o como un URI de Cloud Storage en el campo uri de la solicitud. El audio enviado a una solicitud síncrona se limita a 10 MB o 1 minuto de duración de audio (lo que se alcance primero). Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento síncrono.

Solicitudes de transmisión

Las solicitudes de reconocimiento de transmisión continua (mediante el método StreamingRecognize) solo aceptan audio intercalado en el campo audio de la solicitud. Cada solicitud en la transmisión está limitada a 25 KB de audio. Una transmisión puede permanecer abierta hasta por 5 minutos, y el audio debe enviarse a una velocidad aproximada de tiempo real. Si necesitas transmitir contenido durante más de 5 minutos, consulta el instructivo de transmisión ilimitada. Para obtener más información sobre el reconocimiento de transmisión, consulta la descripción general del reconocimiento de transmisión.

Solicitudes por lotes

Las solicitudes de reconocimiento por lotes (mediante el método BatchRecognize) solo aceptan audio como un URI de Cloud Storage en el campo uri de la solicitud. Cada BatchRecognizeRequest puede contener hasta 15 files para transcribir. Cada archivo puede tener hasta 8 horas de duración. Para obtener más información sobre el reconocimiento síncrono, consulta la descripción general del reconocimiento por lotes.

Reconocimiento de varios idiomas

El reconocimiento de varios idiomas solo está disponible en los extremos globales, de EE.UU. y de la UE de Speech-to-Text.

Adaptación

En todas las solicitudes, también puedes proporcionar recursos PhraseSet y CustomClass. Se aplican los siguientes límites a estos recursos:

Límite de adaptación de voz	Valor
Valor máximo de mejora de frase permitido	20
Frases en un PhraseSet	1,200
Frases por solicitud	5,000
Caracteres por frase	100
Total de caracteres por solicitud	100,000
Cantidad máxima de elementos en una CustomClass	500
Cantidad máxima de caracteres por elemento de CustomClass	500
Cantidad máxima de PhraseSets por SpeechAdaptation	20
Cantidad máxima de CustomClasses por SpeechAdaptation	20

Límites de recursos

Los límites de los recursos actuales de la API para Speech‑to‑Text son los siguientes (y están sujetos a cambios):

Tipo de límite	Límite de uso
Cantidad de reconocedores (por región)	5,000
Cantidad de clases personalizadas (por región)	5,000
Cantidad de conjuntos de frases (por región)	5,000

Límites de solicitudes

Los límites de uso actuales de la API para Speech‑to‑Text son los siguientes (y están sujetos a cambios):

Tipo de límite	Límite de uso
Solicitudes de recursos cada 60 segundos (por región)	100
Solicitudes de operaciones cada 60 segundos (por región)	150
Solicitudes de reconocimiento síncronas cada 60 segundos (por región)	300
Solicitudes de reconocimiento de transmisión cada 60 segundos (por región) *	3,000
Sesiones de reconocimiento de transmisión cada 5 minutos (por región) *	300
Solicitudes de reconocimiento de transmisión cada 60 segundos (por región)	150

* El reconocimiento de transmisión continua tiene un límite de cuota de 300 sesiones simultáneas por 5 minutos y un límite de 3,000 solicitudes por minuto, que se aplica a todas las sesiones simultáneas. La solicitud de configuración inicial de una sesión no se cuenta para la cuota de solicitudes.

Los límites se aplican a cada proyecto de desarrollador de Speech‑to‑Text y se comparten en todas las aplicaciones y direcciones IP que usen un proyecto de desarrollador específico.