Melhore os resultados da transcrição com a adaptação do modelo

Visão geral

É possível usar o recurso adaptação do modelo para ajudar a Speech-to-Text a reconhecer palavras ou frases específicas com mais frequência do que outras opções sugeridas. Por exemplo, suponha que seus dados de áudio geralmente incluem a palavra "clima". Quando a Speech-to-Text encontra a palavra "clima", você quer transcrevê-la como "clima" com mais frequência do que "lima". Nesse caso, você pode usar a adequação do modelo para criar um viés e pedir para a Speech-to-Text reconhecer o termo como "clima".

A adaptação do modelo é particularmente útil nos seguintes casos de uso:

  • Melhorar a precisão de palavras e frases que ocorrem com frequência nos dados de áudio. Por exemplo, é possível criar um alerta para o modelo de reconhecimento para que identifique comandos de voz normalmente falados pelos usuários.

  • Como expandir o vocabulário das palavras reconhecidas pela Speech-to-Text. O Speech-to-Text inclui um vocabulário muito extenso. No entanto, se os dados de áudio costumam conter palavras raras no uso geral do idioma, como nomes próprios ou palavras específicas de uma área, é possível adicioná-las usando a adaptação do modelo.

  • Como melhorar a precisão da transcrição de fala quando o áudio fornecido tiver ruídos ou não for muito claro.

Opcionalmente, é possível ajustar a polarização do modelo de reconhecimento usando o recurso de otimização de adaptação de modelos.

Melhorar o reconhecimento de palavras e frases

Para aumentar a probabilidade da Speech-to-Text reconhecer a palavra "clima" ao transcrever seus dados de áudio, passe a única palavra "clima" no campo PhraseSet objeto em um recurso SpeechAdaptation.

Quando você fornece uma frase com várias palavras, a Speech-to-Text tem mais chances de reconhecer essas palavras na sequência. Fornecer uma frase também aumenta a probabilidade de reconhecimento de partes da frase, incluindo palavras individuais. Consulte a página limites de conteúdo para ver os limites de número e tamanho dessas frases.

Como melhorar o reconhecimento usando classes

As classes representam conceitos comuns que ocorrem naturalmente no idioma, como moedas e datas. Uma classe permite melhorar a precisão da transcrição para grandes grupos de palavras que mapeiam um conceito comum, mas que nem sempre incluem palavras ou frases idênticas.

Por exemplo, suponha que seus dados de áudio incluem gravações de pessoas dizendo o próprio endereço. Você pode ter uma gravação de áudio de alguém dizendo "Minha casa fica na Avenida Central, 123, quarta casa à esquerda". Nesse caso, você quer que a Speech-to-Text reconheça a primeira sequência de números ("123") como um endereço, em vez de um número ordinal ("cento e vinte e três"). No entanto, nem todas as pessoas moram na "Avenida Central, 123". Não é muito prático listar todos os endereços possíveis em um recurso PhraseSet. Em vez disso, é possível usar uma classe para indicar que um número de rua deve ser reconhecido independentemente do número. Neste exemplo, a Speech-to-Text pode transcrever frases com mais precisão, como "Avenida Central, 123" e "Avenida Beira-Mar, 987", já que ambos são reconhecidos como números de endereço.

Tokens de classe

Para usar uma classe na adaptação do modelo, inclua um token de classe no campo phrases de um recurso PhraseSet. Consulte a lista de tokens de classe compatíveis para ver quais tokens estão disponíveis para seu idioma. Por exemplo, para melhorar a transcrição de números de endereço do áudio de origem, forneça o valor $ADDRESSNUM em uma frase em um PhraseSet.

É possível usar classes como itens independentes na matriz phrases ou incorporar um ou mais tokens de classe em frases mais longas com várias palavras. Por exemplo, é possível indicar um número de endereço em uma frase maior incluindo o token de classe em uma string: ["my address is $ADDRESSNUM"]. No entanto, essa frase não ajudará em casos em que o áudio contém uma frase semelhante, mas não idêntica, como "Estou na Avenida Principal, 123". Para ajudar no reconhecimento de frases semelhantes, é importante incluir o token de classe sozinho: ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Se você usar um token de classe inválido ou malformado, a Speech-to-Text ignora o token sem mostrar um erro e ainda usa o restante da frase como contexto.

Classes personalizadas

Você também pode criar seu próprio CustomClass, uma classe composta pela sua própria lista personalizada de itens ou valores relacionados. Por exemplo, você quer transcrever dados de áudio que provavelmente incluem o nome de qualquer um dos vários restaurantes regionais. Os nomes dos restaurantes são relativamente raros na fala geral e, portanto, são menos propensos a serem escolhidos como a resposta "correta" pelo modelo de reconhecimento. Você pode polarizar o modelo de reconhecimento para identificar corretamente esses nomes quando eles aparecerem no áudio usando uma classe personalizada.

Para usar uma classe personalizada, crie um recurso CustomClass que inclua cada nome de restaurante como um ClassItem. As classes personalizadas funcionam da mesma forma que os tokens de classe pré-criados. Um phrase pode incluir tokens de classe pré-criados e classes personalizadas.

Ajustar os resultados da transcrição usando a otimização

Por padrão, a adaptação do modelo fornece um efeito relativamente pequeno, especialmente para frases com uma palavra. O recurso de otimização da adaptação do modelo permite aumentar o viés do modelo de reconhecimento atribuindo mais peso a algumas frases do que a outras. Recomendamos que você implemente o aumento se 1) você já tiver implementado a adaptação do modelo e 2) quiser ajustar a força dos efeitos da adaptação do modelo nos resultados da transcrição. Para ver se o recurso de otimização está disponível para seu idioma, consulte a página de suporte a idiomas.

Por exemplo, você tem muitas gravações de pessoas perguntando sobre "a seção de espera para participar da sessão", com a palavra" "sessão" ocorrendo com mais frequência do que "seção". Nesse caso, você pode usar a adaptação do modelo para aumentar a probabilidade do modelo reconhecer "sessão" e "seção" adicionando-as como phrases em um recurso PhraseSet. Isso informará à Speech-to-Text para reconhecer "sessão" e "seção" com mais frequência do que, por exemplo, "secção".

No entanto, "sessão" deve ser reconhecida com mais frequência do que" "seção" devido ao fato de aparecerem com mais frequência no áudio. Talvez você já tenha transcrito seu áudio usando a API Speech-to-Text e encontrou um grande número de erros reconhecendo a palavra correta ("sessão"). Nesse caso, convém usar o recurso boost para atribuir um valor de aumento maior para "sessão" que "seção". O valor ponderado mais alto atribuído à "sessão" direciona a API Speech-to-Text para escolher "sessão" com mais frequência do que "seção". Sem os valores de otimização, o modelo de reconhecimento reconhecerá "sessão" e "seção" com a mesma probabilidade.

Noções básicas sobre o Google Boost

Ao usar a otimização, atribua um valor ponderado a phrase itens em um recurso PhraseSet. A Speech-to-Text consulta esse valor ponderado ao selecionar uma possível transcrição para palavras nos seus dados de áudio. Quanto maior o valor, maior será a probabilidade da Speech-to-Text escolher essa palavra ou frase entre as possíveis alternativas.

Se você atribuir um valor de otimização a uma frase com várias palavras, a otimização será aplicada à frase inteira e apenas a toda. Por exemplo, você quer atribuir um valor de aumento à frase "Minha exposição favorita no Museu de História Natural dos Estados Unidos é a baleia-azul". Se você adicionar essa frase a um objeto phrase e atribuir um valor de aumento, é mais provável que o modelo de reconhecimento reconheça essa frase inteira em cada palavra.

Se você não encontrar os resultados que está procurando ao promover uma frase com várias palavras, sugerimos que você adicione todas as frases, como duas palavras, em ordem, que compõem a frase como adicional. phrase itens e atribuir valores de otimização para cada um. Continuando com o exemplo acima, você poderia investigar a adição de bigramas e endgramas adicionais (mais de 2 palavras), como "minha favorita", "minha exposição favorita", "exposição favorita", "minha exposição favorita". no American Museum of Natural History, "American Museum of Natural History", "blue rain" e assim por diante. O modelo de reconhecimento de STT tem mais chances de reconhecer frases relacionadas no áudio que contêm partes da frase original aprimorada, mas não têm correspondência entre palavras.

Definir os valores de otimização

Os valores de otimização precisam ser um valor flutuante maior que 0. O limite máximo prático para valores de otimização é 20. Para melhores resultados, teste seus resultados de transcrição ajustando os valores de otimização para cima ou para baixo até conseguir resultados de transcrição precisos.

Valores de otimização maiores podem resultar em menos falsos negativos, que são casos em que a palavra ou frase ocorreu no áudio, mas não foi reconhecida corretamente pela Speech-to-Text. No entanto, a otimização também pode aumentar a probabilidade de falsos positivos. Ou seja, casos em que a palavra ou frase aparece na transcrição, mesmo que não tenha ocorrido no áudio.

Exemplo de caso de uso usando a adaptação do modelo

O exemplo a seguir mostra o processo de uso da adaptação do modelo para transcrever uma gravação de áudio de alguém dizendo "A palavra é tarifa". Nesse caso, sem a adaptação da fala, a Speech-to-Text identifica a palavra "fair". Usando a adaptação de fala, a Speech-to-Text pode identificar a palavra "tarifa".

Melhorar a transcrição usando um PhraseSet

  1. O exemplo a seguir cria um PhraseSet com a frase "fare" e o adiciona como um inline_phrase_set em uma solicitação de reconhecimento:

Python

Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

# Copyright 2022 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_phrase_set(project_id, recognizer_id, audio_file):
    # Instantiates a client
    client = SpeechClient()

    request = cloud_speech.CreateRecognizerRequest(
        parent=f"projects/{project_id}/locations/global",
        recognizer_id=recognizer_id,
        recognizer=cloud_speech.Recognizer(
            language_codes=["en-US"], model="latest_short"
        ),
    )

    # Creates a Recognizer
    operation = client.create_recognizer(request=request)
    recognizer = operation.result()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config={}, adaptation=adaptation
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=recognizer.name, config=config, content=content
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

if __name__ == "__main__":
    adaptation_v2_inline_phrase_set()

  1. Este exemplo cria um recurso PhraseSet com a mesma frase e refere-se a ele em uma solicitação de reconhecimento:

Python

Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

# Copyright 2022 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_phrase_set_reference(
    project_id, recognizer_id, phrase_set_id, audio_file
):
    # Instantiates a client
    client = SpeechClient()

    request = cloud_speech.CreateRecognizerRequest(
        parent=f"projects/{project_id}/locations/global",
        recognizer_id=recognizer_id,
        recognizer=cloud_speech.Recognizer(
            language_codes=["en-US"], model="latest_short"
        ),
    )

    # Creates a Recognizer
    operation = client.create_recognizer(request=request)
    recognizer = operation.result()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}]),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config={}, adaptation=adaptation
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=recognizer.name, config=config, content=content
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

if __name__ == "__main__":
    adaptation_v2_phrase_set_reference()

Melhore os resultados da transcrição usando um CustomClass

  1. O exemplo a seguir cria um CustomClass com um item "fare" e o nome "fare". Em seguida, faz referência ao CustomClass em um inline_phrase_set em uma solicitação de reconhecimento:

Python

Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

# Copyright 2022 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_custom_class(project_id, recognizer_id, audio_file):
    # Instantiates a client
    client = SpeechClient()

    request = cloud_speech.CreateRecognizerRequest(
        parent=f"projects/{project_id}/locations/global",
        recognizer_id=recognizer_id,
        recognizer=cloud_speech.Recognizer(
            language_codes=["en-US"], model="latest_short"
        ),
    )

    # Creates a Recognizer
    operation = client.create_recognizer(request=request)
    recognizer = operation.result()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "${fare}", "boost": 20}])
    custom_class = cloud_speech.CustomClass(name="fare", items=[{"value": "fare"}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ],
        custom_classes=[custom_class],
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config={}, adaptation=adaptation
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=recognizer.name, config=config, content=content
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

if __name__ == "__main__":
    adaptation_v2_inline_custom_class()

  1. Este exemplo cria um recurso CustomClass com o mesmo item. Em seguida, cria um recurso PhraseSet com uma frase que faz referência ao nome do recurso CustomClass. Em seguida, ele faz referência ao recurso PhraseSet em uma solicitação de reconhecimento:

Python

Para autenticar no Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.

# Copyright 2022 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_custom_class_reference(
    project_id, recognizer_id, phrase_set_id, custom_class_id, audio_file
):
    # Instantiates a client
    client = SpeechClient()

    request = cloud_speech.CreateRecognizerRequest(
        parent=f"projects/{project_id}/locations/global",
        recognizer_id=recognizer_id,
        recognizer=cloud_speech.Recognizer(
            language_codes=["en-US"], model="latest_short"
        ),
    )

    # Creates a Recognizer
    operation = client.create_recognizer(request=request)
    recognizer = operation.result()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent CustomClass to reference in phrases
    request = cloud_speech.CreateCustomClassRequest(
        parent=f"projects/{project_id}/locations/global",
        custom_class_id=custom_class_id,
        custom_class=cloud_speech.CustomClass(items=[{"value": "fare"}]),
    )

    operation = client.create_custom_class(request=request)
    custom_class = operation.result()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(
            phrases=[{"value": f"${{{custom_class.name}}}", "boost": 20}]
        ),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config={}, adaptation=adaptation
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=recognizer.name, config=config, content=content
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

if __name__ == "__main__":
    adaptation_v2_custom_class_reference()

A seguir