Sprache mithilfe medizinischer Modelle erkennen

Speech-to-Text bietet neben anderen Standard- und erweiterten Spracherkennungsmodellen zwei medizinische Modelle. Die medizinischen Modelle sind speziell auf die Erkennung von Begriffen zugeschnitten, die häufig im medizinischen Kontext vorkommen, z. B. Diagnose, Medikament, Symptom, Behandlung und Erkrankung. Wenn Sie Audiodaten dieses Typs erfassen, können Sie mit diesen Modellen die Transkriptionsergebnisse verbessern.

Es gibt zwei medizinische Modelle, die jeweils auf bestimmte Anwendungsfälle zugeschnitten sind:

  • medical_conversation: Für Unterhaltungen zwischen einem medizinischen Anbieter, z. B. einem Arzt oder einem Krankenpfleger, und einem Patienten. Verwenden Sie dieses Modell, wenn sowohl der Anbieter als auch der Patient spricht. Alle gesprochenen Wörter werden automatisch erkannt und im erstellten Transkript mit Labels versehen.
  • medical_dictation: Für Diktate, die von einem einzelnen medizinischen Anbieter gesprochen werden, z. B. ein Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt.

Für medizinische Modelle stehen nur die im Folgenden aufgeführten Speech-to-Text-Features zur Verfügung. Features, die in dieser Liste fehlen, können mit keinem medizinischen Modell verwendet werden. Die automatische Zeichensetzung ist standardmäßig aktiviert.

Das medizinische Unterhaltungsmodell unterstützt die folgenden Features:

Das medizinische Diktatmodell unterstützt die folgenden Features:

Transkriptionsanfrage senden

REST

Im folgenden Codebeispiel wird das Modell medical_conversation verwendet, um eine Audiodatei in einem öffentlichen Cloud Storage-Bucket zu transkribieren.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LANGUAGE_CODE: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird. Medizinische Modelle sind nur für US-Englisch verfügbar.
  • ENCODING: Die Codierung der Audiodaten, die transkribiert werden sollen. Wenn Sie das öffentliche Audiobeispiel verwenden, lautet die Codierung LINEAR16.
  • PROJECT_ID: Die alphanumerische ID Ihres Google Cloud-Projekts.

HTTP-Methode und URL:

POST https://speech.googleapis.com/v1/speech:recognize

JSON-Text anfordern:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Gesprochene Satzzeichen

Das medizinische Diktatmodell unterstützt gesprochene Satzzeichen für medizinische Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Gesprochene Satzzeichen werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text unterstützt die folgenden gesprochenen Satzzeichen:

  • Punkt
  • Komma
  • Doppelpunkt
  • Großbuchstaben
  • Schrägstrich
  • Gedankenstrich
  • Bindestrich
  • Fragezeichen
  • Semikolon
  • quote
  • unquote
  • Schließendes Anführungszeichen
  • Öffnende Klammer
  • Schließende Klammer
  • Endklammer

Befehle zur Formatierung

Das medizinische Diktatmodell unterstützt Sprachbefehle für die Formatierung von Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Die Sprachbefehle werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text unterstützt die folgenden Sprachbefehle:

  • Nächster Punkt
  • Nächste Nummer
  • Nächster Absatz
  • Großbuchstaben
  • Großschreibung
  • Neue Zeile
  • Nächstes Element
  • Nächstes Problem
  • Nächste Problemnummer
  • Nächste Zeile
  • Nächster Abschnitt
  • Nächste Nummer
  • scratch
  • scratch that
  • Diktat beenden

Gesprochene Überschriften

Das medizinische Diktatmodell unterstützt gesprochene Überschriften für diktierte Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Überschriften werden in der Transkription durch Klammern markiert und großgeschrieben. Die zurückgegebene Transkription kann beispielsweise so aussehen:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text unterstützt die folgenden gesprochenen Überschriften:

  • HAUPTBESCHWERDE
  • AKTUELLE MEDIKAMENTE
  • MEDIKAMENTE ABSETZEN
  • ABESETZPLAN
  • FAMILIENGESCHICHTE
  • ERGEBNISSE
  • ÜBERSICHT DER SYSTEME
  • VERLAUF DER BESTEHENDEN KRANKHEIT
  • INDIKATIONEN
  • LABOR
  • CHIRURGISCHER VERLAUF
  • KÖRPERLICHE PRÜFUNG
  • ÜBERSICHT DER SYSTEME
  • RADIOLOGIE