Diese Seite wurde von der Cloud Translation API übersetzt.

Sprache mithilfe medizinischer Modelle erkennen

Speech-to-Text bietet neben anderen Standard- und erweiterten Spracherkennungsmodellen zwei medizinische Modelle. Die medizinischen Modelle sind speziell auf die Erkennung von Begriffen zugeschnitten, die häufig im medizinischen Kontext vorkommen, z. B. Diagnose, Medikament, Symptom, Behandlung und Erkrankung. Wenn Sie Audiodaten dieses Typs erfassen, können Sie mit diesen Modellen die Transkriptionsergebnisse verbessern.

Es gibt zwei medizinische Modelle, die jeweils auf bestimmte Anwendungsfälle zugeschnitten sind:

medical_conversation: Für Unterhaltungen zwischen einem medizinischen Anbieter, z. B. einem Arzt oder einem Krankenpfleger, und einem Patienten. Verwenden Sie dieses Modell, wenn sowohl der Anbieter als auch der Patient spricht. Alle gesprochenen Wörter werden automatisch erkannt und im erstellten Transkript mit Labels versehen.
medical_dictation: Für Diktate, die von einem einzelnen medizinischen Anbieter gesprochen werden, z. B. ein Arzt, der Notizen zu den Bluttestergebnissen eines Patienten schreibt.

Für medizinische Modelle stehen nur die im Folgenden aufgeführten Speech-to-Text-Features zur Verfügung. Features, die in dieser Liste fehlen, können mit keinem medizinischen Modell verwendet werden.

Das medizinische Unterhaltungsmodell unterstützt die folgenden Features:

Außerdem müssen die folgenden Funktionen aktiviert sein:

Automatische Zeichensetzung

Das medizinische Diktatmodell unterstützt die folgenden Features:

Außerdem müssen die folgenden Funktionen aktiviert sein:

Transkriptionsanfrage senden

REST

Im folgenden Codebeispiel wird das Modell medical_conversation verwendet, um eine Audiodatei in einem öffentlichen Cloud Storage-Bucket zu transkribieren.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

LANGUAGE_CODE: Der BCP-47-Code der Sprache, die in Ihrem Audioclip gesprochen wird. Medizinische Modelle sind nur für US-Englisch verfügbar.
ENCODING: Die Codierung der Audiodaten, die transkribiert werden sollen. Wenn Sie das öffentliche Audiobeispiel verwenden, lautet die Codierung LINEAR16.
PROJECT_ID: Die alphanumerische ID Ihres Google Cloud-Projekts.

HTTP-Methode und URL:

POST https://speech.googleapis.com/v1/speech:recognize

JSON-Text anfordern:

{
  "config": {
    "languageCode": "LANGUAGE_CODE",
    "encoding": "ENCODING",
    "model": "medical_conversation"
  },
  "audio": {
    "uri": "gs://cloud-samples-data/speech/medical_conversation_2.wav"
  }
}

Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:

curl (Linux, macOS oder Cloud Shell)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud-Befehlszeile angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud-Befehlszeile anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://speech.googleapis.com/v1/speech:recognize"

PowerShell (Windows)

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud-Befehlszeile angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://speech.googleapis.com/v1/speech:recognize" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

  "results": [
    {
      "alternatives": [
        {
          "transcript": "Um-hum . Yeah. Hello , good morning . Good
          morning . So , tell me what's going on . Uh , sure , so , um , I
          woke up probably three or four days ago , which , uh , wheezing and short of breath .
          Okay , any cough or chest pain ? I cough infrequently , but no ,
          uh , chest pain . Have you been exposed to anyone with covid ?
          Uh , no , and I also took a test , which was negative . Uh , is it getting
          worse , or better ? Uh , it has been getting a lot worse"
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "Okay . Was there something that triggered this exposure to cold , for
          example ? Um , I had a gone hiking , and I got caught in the rain the day
          before this all started ."
        }
      ]
    }
  ]
}

Gesprochene Satzzeichen

Das medizinische Diktatmodell unterstützt gesprochene Satzzeichen für medizinische Notizen. Dieses Feature ist immer aktiviert. Gesprochene Satzzeichen werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:

Patient could be showing signs of trauma [question mark] They said they were [quote] having elevated heart rate [unquote].

Speech-to-Text unterstützt die folgenden gesprochenen Satzzeichen:

Punkt
Komma
Doppelpunkt
Großbuchstaben
Schrägstrich
Gedankenstrich
Bindestrich
Fragezeichen
Semikolon
Anführungszeichen
unquote
Schließendes Anführungszeichen
Öffnende Klammer
Schließende Klammer
Endklammer

Befehle zur Formatierung

Das medizinische Diktatmodell unterstützt Sprachbefehle für die Formatierung von Notizen. Dieses Feature ist immer aktiviert. Die Sprachbefehle werden in der Sprachtranskription durch Klammern markiert. Die zurückgegebene Transkription kann beispielsweise so aussehen:

[next line] Patient says they are experiencing fever [next point].

Speech-to-Text unterstützt die folgenden Sprachbefehle:

Nächster Punkt
Nächste Nummer
Nächster Absatz
Großbuchstaben
Großschreibung
Neue Zeile
Nächstes Element
Nächstes Problem
Nächste Problemnummer
Nächste Zeile
Nächster Abschnitt
Nächste Nummer
scratch
scratch that
Diktat beenden

Gesprochene Überschriften

Das medizinische Diktatmodell unterstützt gesprochene Überschriften für diktierte Notizen. Dieses Feature ist standardmäßig aktiviert und kann nicht deaktiviert werden. Überschriften werden in der Transkription durch Klammern markiert und großgeschrieben. Die zurückgegebene Transkription kann beispielsweise so aussehen:

[CURRENT MEDICATIONS] Patient is currently taking no medications.

Speech-to-Text unterstützt die folgenden gesprochenen Überschriften:

HAUPTBESCHWERDE
AKTUELLE MEDIKAMENTE
MEDIKAMENTE ABSETZEN
ABESETZPLAN
FAMILIENGESCHICHTE
ERGEBNISSE
ÜBERSICHT DER SYSTEME
VERLAUF DER BESTEHENDEN KRANKHEIT
INDIKATIONEN
LABOR
CHIRURGISCHER VERLAUF
KÖRPERLICHE PRÜFUNG
ÜBERSICHT DER SYSTEME
RADIOLOGIE