Mejora los resultados de la transcripción con la adaptación de voz

Resumen

En Speech-to-Text, puedes usar la función de adaptación de voz para ayudar a que se reconozcan palabras o frases específicas con más frecuencia que otras opciones que podrían sugerirse. Por ejemplo, supongamos que tus datos de audio suelen incluir la palabra “clima”. Cuando se encuentra la palabra “clima”, quieres que se transcriba la palabra como “clima” con más frecuencia que "cima" en Speech-to-Text. En este caso, puedes usar la adaptación de voz para inclinar a que se reconozca “clima” en Speech-to-Text.

La adaptación de voz es particularmente útil para los siguientes casos prácticos:

  • Mejora la exactitud de las palabras y frases que aparecen con frecuencia en tus datos de audio. Por ejemplo, puedes enviar una alerta al modelo de reconocimiento sobre los comandos por voz que suelen pronunciar tus usuarios.

  • Expande el vocabulario de palabras reconocidas con Speech-to-Text. El vocabulario contenido en Speech-to-Text es muy grande. Sin embargo, si tus datos de audio a menudo contienen palabras poco comunes en el lenguaje general (como nombres propios o palabras específicas del dominio), puedes agregarlas mediante la adaptación de voz.

  • Mejora la exactitud de la transcripción de voz cuando el audio suministrado contenga ruido o no sea muy claro.

De manera opcional, puedes ajustar la inclinación del modelo de reconocimiento mediante la función de mejora de la adaptación de voz (Beta).

Mejora el reconocimiento de palabras especificadas

En Speech-to-Text, para aumentar la probabilidad de que se reconozca la palabra “clima” cuando se transcriban tus datos de audio, pasa “clima” en el campo phrases de un objeto SpeechContext. Asigna el objeto SpeechContext al campo speechContexts del objeto RecognitionConfig en tu solicitud a la API de Speech-to-Text.

En el siguiente fragmento, se muestra parte de una carga útil JSON enviada a la API de Speech-to-Text. En el fragmento JSON, se proporciona la palabra “clima” para la adaptación de voz.

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather"]
    }]
}

Mejora el reconocimiento de frases de varias palabras

Cuando proporcionas una frase de varias palabras, es más probable que se reconozcan esas palabras en secuencia en Speech-to-Text. Cuando se proporciona una frase, también aumenta la probabilidad de reconocer partes de ella, incluidas las palabras individuales. Consulta la página Límites de contenido para conocer los límites de cantidad y tamaño de estas frases.

En el siguiente fragmento, se muestra parte de una carga útil JSON enviada a la API de Speech-to-Text. El fragmento JSON incluye un arreglo de frases de varias palabras asignadas al campo phrases de un objeto SpeechContext.

"config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["weather is hot", "weather is cold"]
    }]
}

Mejora el reconocimiento mediante clases

Las clases representan conceptos comunes que ocurren en el lenguaje natural, como unidades monetarias y fechas del calendario. Mediante una clase, puedes mejorar la exactitud de la transcripción para grupos grandes de palabras que se asignan a un concepto común, pero que no siempre incluyen palabras o frases idénticas.

Por ejemplo, supongamos que tus datos de audio incluyen grabaciones de personas que dicen su dirección. Podías tener una grabación de audio de alguien que dice: “Mi casa está en 123 Main Street, la cuarta casa a la izquierda”. En este caso, deseas que se reconozca la primera secuencia de números (“123”) como una dirección en lugar de un número ordinal (“centésimo vigésimo tercero”) en Speech-to-Text. Sin embargo, no todas las personas viven en “123 Main Street”. No es práctico enumerar todas las direcciones posibles en un objeto SpeechContext. En su lugar, puedes usar una clase para indicar que un número de calle debe reconocerse sin importar cuál sea el número. En este ejemplo, se podrían transcribir con mayor exactitud frases como “123 Main Street” y “987 Grand Boulevard” porque ambas se reconocen como números de dirección en Speech-to-Text.

Tokens de clase

Para usar una clase en la adaptación de voz, incluye un token de clase en el campo phrases del objeto SpeechContext. Consulta la lista en Tokens de clase admitidos a fin de ver cuáles están disponibles para tu idioma. Por ejemplo, para mejorar la transcripción de los números de dirección de tu audio de origen, proporciona el valor $ADDRESSNUM en tu objeto SpeechContext.

Puedes usar clases como elementos independientes en el arreglo phrases o incorporar uno o más tokens de clase en frases de varias palabras más largas. Por ejemplo, puedes indicar un número de dirección en una frase más larga mediante la inclusión del token de clase en una string: ["my address is $ADDRESSNUM"]. Sin embargo, esta frase no será útil en los casos en los que el audio contenga una frase similar, pero no idéntica, como: “Estoy en 123 Main Street”. Para facilitar el reconocimiento de frases similares, es importante incluir, además, el token de clase de forma independiente: ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Si usas un token de clase no válido o con errores de formato, se ignora el token sin activar un error, pero aún se utiliza el resto de la frase para el contexto en Speech-to-Text.

En el siguiente fragmento, se muestra un ejemplo de una carga útil JSON enviada a la API de Speech-to-Text. El fragmento JSON incluye un objeto SpeechContext que usa un token de clase.

  "config": {
    "encoding":"LINEAR16",
    "sampleRateHertz": 8000,
    "languageCode":"en-US",
    "speechContexts": [{
      "phrases": ["$ADDRESSNUM"]
     }]
  }

Qué sigue