Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Mejora los resultados de la transcripción con la adaptación de modelo

Descripción general

En Speech-to-Text, puedes usar la función de adaptación de modelo para ayudar a que se reconozcan palabras o frases específicas con más frecuencia que otras opciones que podrían sugerirse. Por ejemplo, supongamos que tus datos de audio suelen incluir la palabra “clima”. Cuando se encuentra la palabra “clima”, quieres que se transcriba la palabra como “clima” con más frecuencia que "cima" en Speech-to-Text. En este caso, puedes usar la adaptación de modelo a fin de restringir Speech-to-Text para que reconozca “ciervo”.

La adaptación de modelo es particularmente útil en los siguientes casos prácticos:

  • Mejora la exactitud de las palabras y frases que aparecen con frecuencia en tus datos de audio. Por ejemplo, puedes enviar una alerta al modelo de reconocimiento sobre los comandos por voz que suelen pronunciar tus usuarios.

  • Expande el vocabulario de palabras reconocidas con Speech-to-Text. El vocabulario contenido en Speech-to-Text es muy grande. Sin embargo, si tus datos de audio a menudo contienen palabras poco comunes en el lenguaje general (como nombres propios o palabras específicas del dominio), puedes agregarlas mediante la adaptación de modelo.

  • Mejora la exactitud de la transcripción de voz cuando el audio suministrado contenga ruido o no sea muy claro.

De manera opcional, puedes ajustar la personalización del modelo de reconocimiento mediante la función de mejora de adaptación de modelo (Beta).

Mejora el reconocimiento de palabras y frases

En Speech-to-Text, para aumentar la probabilidad de que se reconozca la palabra "clima" cuando se transcriban tus datos de audio, puedes pasar la palabra "clima" en el PhraseSet en un recurso de SpeechAdaptation.

Cuando proporcionas una frase de varias palabras, es más probable que se reconozcan esas palabras en secuencia en Speech-to-Text. Cuando se proporciona una frase, también aumenta la probabilidad de reconocer partes de ella, incluidas las palabras individuales. Consulta la página Límites de contenido para conocer los límites de cantidad y tamaño de estas frases.

Mejora el reconocimiento mediante clases

Las clases representan conceptos comunes que ocurren en el lenguaje natural, como unidades monetarias y fechas del calendario. Mediante una clase, puedes mejorar la exactitud de la transcripción para grupos grandes de palabras que se asignan a un concepto común, pero que no siempre incluyen palabras o frases idénticas.

Por ejemplo, supongamos que tus datos de audio incluyen grabaciones de personas que dicen su dirección. Podías tener una grabación de audio de alguien que dice: “Mi casa está en 123 Main Street, la cuarta casa a la izquierda”. En este caso, deseas que se reconozca la primera secuencia de números (“123”) como una dirección en lugar de un número ordinal (“centésimo vigésimo tercero”) en Speech-to-Text. Sin embargo, no todas las personas viven en “123 Main Street”. No es práctico enumerar todas las direcciones posibles en un recurso PhraseSet. En su lugar, puedes usar una clase para indicar que un número de calle debe reconocerse sin importar cuál sea el número. En este ejemplo, se podrían transcribir con mayor exactitud frases como “123 Main Street” y “987 Grand Boulevard” porque ambas se reconocen como números de dirección en Speech-to-Text.

Tokens de clase

Para usar una clase en la adaptación del modelo, incluye un token de clase en el campo phrases de un recurso PhraseSet. Consulta la lista en Tokens de clase admitidos a fin de ver cuáles están disponibles para tu idioma. Por ejemplo, para mejorar la transcripción de los números de dirección de tu audio de origen, proporciona el valor $ADDRESSNUM en tu objeto SpeechContext.

Puedes usar clases como elementos independientes en el arreglo phrases o incorporar uno o más tokens de clase en frases de varias palabras más largas. Por ejemplo, puedes indicar un número de dirección en una frase más larga mediante la inclusión del token de clase en una string: ["my address is $ADDRESSNUM"]. Sin embargo, esta frase no será útil en los casos en los que el audio contenga una frase similar, pero no idéntica, como: “Estoy en 123 Main Street”. Para facilitar el reconocimiento de frases similares, es importante incluir, además, el token de clase de forma independiente: ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Si usas un token de clase no válido o con errores de formato, se ignora el token sin activar un error, pero aún se utiliza el resto de la frase para el contexto en Speech-to-Text.

En el siguiente fragmento, se muestra un ejemplo de una carga útil JSON enviada a la API de Speech-to-Text. El fragmento JSON incluye un objeto SpeechContext que usa un token de clase.

Clases personalizadas

También puedes crear tu propio CustomClass, una clase compuesta por tu propia lista personalizada de elementos o valores relacionados. Por ejemplo, deseas transcribir datos de audio que puedan incluir el nombre de uno de varios cientos de restaurantes regionales. Los nombres de restaurantes son relativamente poco comunes en la voz general y, por lo tanto, es menos probable que se los elija como la respuesta "correcta" para el modelo de reconocimiento. Puedes restringir el modelo de reconocimiento para identificar de manera correcta estos nombres cuando aparecen en tu audio mediante una clase personalizada.

Para usar una clase personalizada, crea un recurso CustomClass que incluya cada nombre de restaurante como ClassItem. Las clases personalizadas funcionan de la misma manera que los tokens de clase compilados previamente. Un objeto phrase puede incluir tokens de clase previamente compilados y clases personalizadas.

Ajusta los resultados de la transcripción con la mejora

De forma predeterminada, la adaptación de modelo proporciona un efecto relativamente pequeño, en especial para las frases de una palabra. La función de optimización del modelo te permite aumentar el sesgo del modelo de reconocimiento mediante la asignación de más peso a algunas frases. Te recomendamos que implementes el aumento si 1) ya implementaste la adaptación de modelo y 2) quieres ajustar aún más la intensidad de los efectos de la adaptación del modelo en los resultados de tu transcripción. Para ver si la función de mejora está disponible en tu idioma, consulta la página de idiomas admitidos.

Por ejemplo, tienes muchas grabaciones de personas que preguntan si “se normalizaron los vuelos hacia Asia”, en las que la palabra “Asia” aparece con más frecuencia que “hacia”. En este caso, puedes usar la adaptación del modelo para aumentar la probabilidad de que el modelo reconozca tanto "Asia" como "hacia" si los agregas como phrases en un recurso PhraseSet. Esta acción le indicará a Speech-to-Text que reconozca “Asia” y “hacia” con más frecuencia que, por ejemplo, “lacia” o “fascia”.

Sin embargo, “Asia” debe reconocerse con más frecuencia que “hacia” debido a sus apariciones más frecuentes en el audio. Es posible que ya hayas transcrito el audio con la API de Speech-to-Text y hayas encontrado una gran cantidad de errores que reconozcan la palabra correcta (“Asia”). En este caso, te recomendamos usar la función de mejora para asignar un valor de impulso más alto a “Asia” que “hacia”. El valor ponderada más alto asignado a “Asia” admite la API de Speech-to-Text para seleccionar “Asia” con más frecuencia que “hacia”. Sin los valores de impulso, el modelo de reconocimiento reconocerá "Asia" y "hacia" con la misma probabilidad.

Conceptos básicos de la mejora

Cuando usas la mejora, asignas un valor ponderado a los elementos phrase en un recurso PhraseSet. En Speech-to-Text, se hace referencia a este valor ponderado cuando se selecciona una posible transcripción de palabras en tus datos de audio. Cuanto más alto sea el valor, mayor será la probabilidad de que se elija esa palabra o frase entre las posibles alternativas en Speech-to-Text.

Si asignas un valor de mejora a una frase de varias palabras, la mejora se aplica a toda y solo a la frase completa. Por ejemplo, deseas asignar un valor de mejora a la frase “Mi exposición favorita en el Museo Americano de Historia Natural es la ballena azul”. Si agregas esa frase a un objeto phrase y asigna un valor de mejora, es más probable que el modelo de reconocimiento reconozca esa frase en su totalidad.

Si no obtienes los resultados que buscas mediante la mejora de una frase de varias palabras, te sugerimos que agregues todos los bigramas (2 palabras, en orden) que compongan la frase como elementos phrase adicionales y asigna los valores de mejora a cada uno. Siguiendo con el ejemplo anterior, podrías investigar cómo agregar de bigramas y endgrams adicionales (más de 2 palabras), como “mi favorito”, “mi exposición favorita”, “exposición favorita”, “mi exposición favorita en el Museo Americano de Historia Natural”, “Museo Americano de Historia Natural”, “ballena azul”, etcétera. El modelo de reconocimiento STT es más probable que reconozca frases relacionadas en tu audio que contengan partes de la frase mejorada, pero no coincidan palabra por palabra.

Configuración de valores de impulso

Los valores de impulso deben ser un número de punto flotante mayor que 0. El límite máximo práctico para los valores de mejora es de 20. Si deseas obtener mejores resultados, experimenta con los resultados de la transcripción mediante el aumento o la disminución de tus valores de mejora hasta que obtengas resultados de transcripción precisos.

Los valores de mejora más altos pueden dar como resultado menos falsos negativos, que son casos en los que la palabra o frase ocurrió en el audio, pero no se reconoció correctamente en Speech-to-Text. Sin embargo, la mejora también puede aumentar la probabilidad de falsos positivos; es decir, casos en los que la palabra o la frase aparecen en la transcripción aunque esto no haya ocurrido en el audio.

Caso práctico de ejemplo con la adaptación de modelo

En el siguiente ejemplo, se explica el proceso de adaptación de modelo para transcribir una grabación de audio de alguien que dice “Call me fionity and oh my shaw what we here here”. En este caso, es importante que el modelo identifique "ferencia" y "ionidad" correctamente.

Con el siguiente comando, se realiza el reconocimiento del audio sin adaptación del modelo. La transcripción que se obtiene es incorrecta: "Llámame el té de Fiona y, al parecer, no sé qué tengo aquí un día".

   curl -H "Authorization: Bearer $(gcloud auth
   --impersonate-service-account=$SA_EMAIL print-access-token)" -H
   "Content-Type: application/json; charset=utf-8"
   "https://speech.googleapis.com/v1p1beta1/speech:recognize" -d '{"config":
   {"languageCode": "en-US"}, "audio":
   {"uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"}}'
   

Ejemplo de solicitud:

     {
       "config":{
       "languageCode":"en-US"
       },
       "audio":{
          "uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"
       }
     }
   

Mejora la transcripción con un PhraseSet

  1. Crea un PhraseSet:

    curl -X POST -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/phraseSets"
    -d '{"phraseSetId": "test-phrase-set-1"}'
    

    Ejemplo de solicitud:

    {
       "phraseSetId":"test-phrase-set-1"
    }
    
  2. Obtén el PhraseSet:

    curl -X GET -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id>/locations/global/phraseSets/test-phrase-set-1"\
    
  3. Agrega las frases “fionity” y “ionity” al PhraseSet y asigna un valor boost de 10 a cada uno:

    curl -X PATCH -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/phraseSets/test-phrase-set-1?updateMask=phrases"\
    -d '{"phrases": [{"value": "ionity", "boost": 10}, {"value": "fionity", "boost": 10}]}'
    

    PhraseSet se actualizó a:

    {
      "phrases":[
         {
              "value":"ionity",
              "boost":10
           },
           {
              "value":"fionity",
              "boost":10
           }
        ]
     }
    
  4. Vuelve a reconocer el audio, esta vez mediante la adaptación de modelo y la PhraseSet creada antes. Los resultados transcritos ahora son correctos: “Call me fionity and Oh my shaw what we do here here”.

    curl -H "Authorization: Bearer $(gcloud auth --impersonate-service-account=$SA_EMAIL print-access-token)"
    -H "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/speech:recognize" -d '{"config":
    {"adaptation": {"phrase_set_references": ["projects/project_id/locations/global/phraseSets/test-phrase-set-1"]},
    "languageCode": "en-US"}, "audio": {"uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"}}'
    

    Ejemplo de solicitud:

    {
       "config":{
          "adaptation":{
             "phrase_set_references":[
                "projects/project_id/locations/global/phraseSets/test-phrase-set-1"
             ]
          },
          "languageCode":"en-US"
       },
       "audio":{
          "uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"
       }
    }
    

Mejora los resultados de la transcripción con un CustomClass

  1. Crea un CustomClass:

    curl -X POST -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/customClasses"
    -d '{"customClassId": "test-custom-class-1"}'
    

    Ejemplo de solicitud:

    {
       "phraseSetId":"test-phrase-set-1"
    }
    
  2. Obtén el CustomClass:

     curl -X GET -H "Authorization: Bearer $(gcloud auth
     --impersonate-service-account=$SA_EMAIL print-access-token)" -H
     "Content-Type: application/json; charset=utf-8"
     "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/customClasses/test-custom-class-1"
     

  3. Reconoce el clip de audio de prueba. El CustomClass está vacío, por lo que la transcripción que se muestra sigue siendo incorrecta: "Llámame el té de Fiona y, luego, tengo lo que tengo con un día":

    curl -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/speech:recognize" -d '{"config":
    {"adaptation": {"phraseSets": [{"phrases": [{"value":
    "${projects/project_idlocations/global/customClasses/test-custom-class-1}",
    "boost": "10"}]}]}, "languageCode": "en-US"}, "audio":
    {"uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"}}'
    

    Ejemplo de solicitud:

      {
       "config":{
          "adaptation":{
             "phraseSets":[
                {
                   "phrases":[
                      {
                         "value":"${projects/project_id/locations/global/customClasses/test-custom-class-1}",
                         "boost":"10"
                      }
                   ]
                }
             ]
          },
          "languageCode":"en-US"
       },
       "audio":{
          "uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"
       }
     }
    
  4. Agrega las frases "fionity" y "ionity" a la clase personalizada:

    curl -X PATCH -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/customClasses/test-custom-class-1?updateMask=items"
    -d '{"items": [{"value": "ionity"}, {"value": "fionity"}]}'
    

    Esto actualiza la clase personalizada en lo siguiente:

    {
       "items":[
          {
             "value":"ionity"
          },
          {
             "value":"fionity"
          }
       ]
    }
    
  5. Reconoce nuevamente el audio de muestra, esta vez con "ferencia" y "onidad" en el CustomClass. La transcripción ahora es correcta: "Llamar a la fonética y yo ver lo que tenemos aquí ionidad".

    curl -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/speech:recognize" -d '{"config":
    {"adaptation": {"phraseSets": [{"phrases": [{"value":
    "${projects/project_id/locations/global/customClasses/test-custom-class-1}",
    "boost": "10"}]}]}, "languageCode": "en-US"}, "audio":
    {"uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"}}'
    

    Ejemplo de solicitud:

    {
       "config":{
          "adaptation":{
             "phraseSets":[
                {
                   "phrases":[
                      {
    "value":"${projects/project_id/locations/global/customClasses/test-custom-class-1}",
                         "boost":"10"
                      }
                   ]
                }
             ]
          },
          "languageCode":"en-US"
       },
       "audio":{
          "uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"
       }
    }
    

Consulta una CustomClass en un PhraseSet

  1. Actualiza el recurso PhraseSet que creaste antes para hacer referencia al CustomClass:

    curl -X PATCH -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/phraseSets/test-phrase-set-1?updateMask=phrases"
    -d '{"phrases": [{"value": "${projects/project_id/locations/global/customClasses/test-custom-class-1}", "boost": 10}]}'
    

    Ejemplo de solicitud:

    {
       "config":{
          "adaptation":{
             "phraseSets":[
                {
                   "phrases":[
                      {
                         "value":"${projects/project_id/locations/global/customClasses/test-custom-class-1}",
                         "boost":"10"
                      }
                   ]
                }
             ]
          },
          "languageCode":"en-US"
       },
       "audio":{
          "uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"
       }
    }
    
  2. Reconoce el audio con el recurso PhraseSet (que se refiere al CustomClass). La transcripción es correcta: “Llamar a la fondad y obsequé lo que tenemos aquí.”

    curl -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/speech:recognize" -d '{"config":
    {"adaptation": {"phrase_set_references":
    ["projects/project_id/locations/global/phraseSets/test-phrase-set-1"]},
    "languageCode": "en-US"}, "audio":
    {"uri":"gs://biasing-resources-test-audio/call_me_fionity_and_ionity.wav"}}'
    

    Ejemplo de solicitud:

    {
       "phrases":[
          {
             "value":"${projects/project_id/locations/global/customClasses/test-custom-class-1}",
             "boost":10
          }
       ]
    }
    

Borra CustomClass y PhraseSet

  1. Borra PhraseSet:

    curl -X DELETE -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/phraseSets/test-phrase-set-1"
    
  2. Borra CustomClass:

    curl -X DELETE -H "Authorization: Bearer $(gcloud auth
    --impersonate-service-account=$SA_EMAIL print-access-token)" -H
    "Content-Type: application/json; charset=utf-8"
    "https://speech.googleapis.com/v1p1beta1/projects/project_id/locations/global/customClasses/test-custom-class-1"
    

¿Qué sigue?