Eine Audiocodierung bezeichnet die Art und Weise, in der Audiodaten gespeichert und übertragen werden. Die nachfolgende Dokumentation beschreibt, wie solche Codierungen funktionieren. Richtlinien zur Auswahl der besten Codierung für Ihre Anwendung finden Sie unter Best Practices.
Die digitale Audiocodierung ist ein komplexes Thema. Im Allgemeinen brauchen Sie die Details zur Verarbeitung von Audiodaten innerhalb der Speech API nicht zu kennen. Die hier erläuterten Konzepte sollen Ihnen lediglich einen allgemeinen Überblick geben. Einige dieser Hintergrundinformationen können für das Verständnis der Funktionsweise der API und die Formatierung und Verarbeitung von Audiodaten in Ihren Anwendungen nützlich sein.
Audioformate im Vergleich zu Audiocodierungen
Beachten Sie, dass ein Audioformat nicht dasselbe ist wie eine Audiocodierung. Ein gängiges Dateiformat wie .wav
definiert beispielsweise das Format des Headers einer Audiodatei, ist aber selbst keine Audiocodierung. Bei .wav
-Audiodateien wird häufig, aber nicht immer, eine lineare PCM-Codierung verwendet. Sie können nicht davon ausgehen, dass eine .wav
-Datei eine bestimmte Codierung aufweist. Dazu müssen Sie den Header prüfen.
Decodierungskonfiguration
Die zum Decodieren von übergebenen Audios erforderlichen Parameter werden in decoding_config
angegeben.
Wenn Ihr Audio in einem der von AutoDetectDecodingConfig
unterstützten Formate vorliegt, wird dringend empfohlen, das Feld auto_decoding_config
zu aktivieren, damit Speech-to-Text die richtigen Parameter für Sie ermitteln kann.
Andernfalls müssen Sie die Decodierungsparameter explizit durch Festlegen des Felds explicit_decoding_config
angeben. Diese Parameter finden Sie normalerweise in den Einstellungen, die für die Audioaufnahme verwendet werden.
Warum muss Audio codiert werden?
Audiodaten bestehen aus den Wellenformen unterschiedlicher Frequenzen und Amplituden. Um diese Wellenformen in digitalen Medien darzustellen, müssen die Wellenformen mit Raten abgetastet werden, die zumindest Töne der höchsten Frequenz darstellen können, die Sie replizieren möchten. Zudem muss auch eine ausreichende Bittiefe gespeichert werden, um die richtige Amplitude der Wellenformen, d. h. die lauten und leisen Passagen, im gesamten Tonsample darzustellen.
Die Fähigkeit eines Audiogeräts, Frequenzen wiederzugeben, wird als Frequenzgang bezeichnet. Die Fähigkeit, laute und leise Passagen wiederzugeben, wird als Aussteuerungsbereich bezeichnet. Diese beiden Fähigkeiten werden oft zusammen als die Qualität (Fidelity) eines Audiogeräts bezeichnet. Die Codierung ist vereinfacht ausgedrückt ein Mittel, mit dem Ton unter Verwendung dieser beiden Grundprinzipien rekonstruiert werden kann. Eine Codierung bietet auch die Möglichkeit, diese Daten effizient zu speichern und zu übertragen.
Abtastraten
Der Ton liegt in Form einer analogen Wellenform vor. Ein Segment einer digitalen Audioaufnahme nähert sich dieser analogen Wellenform an, indem die Amplitude dieser analogen Welle mit einer ausreichend hohen Rate abgetastet wird, um die Frequenzen dieser Welle nachzubilden. Die Abtastrate eines digitalen Audiosegments gibt die Anzahl der Samples wieder, die aus dem Audioquellmaterial entnommen werden können. Die Zahl der Samples pro Sekunde wird Abtastrate genannt. Eine hohe Abtastrate erhöht die Fähigkeit der digitalen Audiodateien, hohe Frequenzen originalgetreu wiederzugeben.
Das Nyquist-Shannon-Abtasttheorem besagt, dass für eine digitale Erfassung mehr als das Doppelte der höchsten Frequenz jeder Schallwelle abgetastet werden muss. Um Audioaufnahmen im Bereich des menschlichen Gehörs (20-20.000 Hz) wiedergeben zu können, muss ein digitales Audioformat mindestens 40.000 Mal pro Sekunde abtasten. Aus diesem Grund verwenden Audio-CDs eine Abtastrate von 44.100 Hz.
Bittiefen
Die Bittiefe beeinflusst den Aussteuerungsbereich jeden Tonsamples. Eine höhere Bittiefe ermöglicht eine genauere Darstellung der Amplituden. Wenn eine Audioaufnahme viele laute und leise Töne enthält, benötigen Sie eine höhere Bittiefe für die korrekte Wiedergabe der Töne.
Höhere Bittiefen reduzieren auch den Signal-Rausch-Abstand innerhalb eines Audiosamples. Audio-CDs mit Musik haben eine Bittiefe von 16 Bit. Das DVD Audio-Format verwendet eine Bittiefe von 24 Bit, während die meisten Telefoniegeräte eine Bittiefe von 8 Bit aufweisen. Bestimmte Kompressionstechniken kompensieren geringere Bittiefen, sind dann aber oft verlustbehaftet.
Nicht komprimierte Audiodaten
Die meisten digitalen Audioverarbeitungstechnologien nutzen diese beiden Methoden, Abtastrate und Bittiefe, um Audiodaten auf einfache Weise zu speichern. Eine der am häufigsten verwendeten digitalen Audiotechnologien wird als Pulscodemodulation (Pulse Code Modulation = PCM) bezeichnet. Diese Technologie wurde durch die Compact Disc bekannt. Dabei werden Audiodaten in festgelegten Intervallen abgetastet und die Amplitude der abgetasteten Welle wird an diesem Punkt als digitaler Wert mit der Bittiefe des Samples gespeichert.
Die lineare PCM, d. h. eine gleichbleibende Amplitudenantwort über das gesamte Sample hinweg, ist der Standard, der bei CDs verwendet wird. Auch bei der LINEAR16
-Codierung der Speech-to-Text API wird er verwendet. Beide Codierungen produzieren einen nicht komprimierten Stream von Bytes, der den Audiodaten direkt entspricht. Beide Standards verwenden eine Bittiefe von 16 Bit. Die lineare PCM verwendet eine Abtastrate von 44.100 Hz für CDs, die für die Wiedergabe von Musik geeignet ist. Eine Abtastrate von 16.000 Hz ist dagegen eher für die Wiedergabe von Sprache geeignet.
Die lineare PCM ist ein Beispiel für die nicht komprimierte Audioaufnahme, da die digitalen Daten genau so gespeichert werden, wie es die oben erläuterten Standards vorsehen. Beim Lesen eines einkanaligen Streams von Bytes, der mit linearer PCM codiert wurde, können Sie alle 16 Bit (2 Byte) abzählen, um beispielsweise einen weiteren Amplitudenwert der Wellenform zu erhalten. Fast alle Geräte können digitale Daten nativ bearbeiten. Sie können lineare PCM-Audiodateien sogar in einem Texteditor zuschneiden. Aber nicht komprimierte Audioformate sind nicht besonders gut für die effiziente Übertragung oder Speicherung digitaler Audiodaten geeignet. Aus diesem Grund verwenden die meisten Audioanwendungen digitale Kompressionstechniken.
Komprimierte Audiodaten
Audiodaten sind meistens wie alle anderen Daten komprimiert. Dies vereinfacht die Übertragung und das Speichern der Daten. Die Kompression von Audiocodierungen kann verlustfrei oder verlustbehaftet erfolgen. Eine verlustfreie Kompression lässt sich entpacken und stellt die digitalen Daten in ihrer ursprünglichen Form wieder her. Eine verlustbehaftete Kompression entfernt während der Kompression und Dekompression einige Informationen. Das Entfernen dieser Informationen wird über Parameter gesteuert, die angeben, welche Toleranz eine Kompression bei der Entfernung von Daten anwenden soll.
Verlustfreie Kompression
Eine verlustfreie Kompression komprimiert digitale Audiodaten unter Verwendung komplexer Umordnungen der gespeicherten Daten, führt jedoch zu keiner Verschlechterung der Qualität des ursprünglichen digitalen Samples. Bei einer verlustfreien Kompression findet beim Entpacken der Daten in ihre ursprüngliche digitale Form kein Informationsverlust statt.
Verlustfreie Kompressionstechniken verfügen dennoch über Optimierungsparameter. Häufig definieren diese Parameter Kompromisse zwischen Dateigröße und Dekompressionszeit. FLAC
verwendet beispielsweise Kompressionsstufenparameter zwischen 0 (am schnellsten) und 8 (kleinste Dateigröße). Höhere FLAC-Kompressionsstufen verlieren ebenso wie niedrigere keinerlei Informationen. Bei den höheren Kompressionsstufen erfordert der Kompressionsalgorithmus lediglich mehr Rechenleistung bei der Zusammenstellung oder beim Rückbau der ursprünglichen digitalen Audiodaten.
Die Speech-to-Text API unterstützt zwei verlustfreie Codierungen: FLAC
und LINEAR16
.
Technisch gesehen ist LINEAR16
keine "verlustfreie Komprimierung", da keine Komprimierung stattfindet. Wenn die Dateigröße oder Datenübertragung für Sie wichtig sind, wählen Sie FLAC
als Audiocodierung.
Verlustbehaftete Kompression
Die verlustbehaftete Kompression komprimiert Audiodaten, indem bestimmte Informationen bei der Zusammenstellung der komprimierten Daten entfernt oder reduziert werden. Die Speech-to-Text API unterstützt mehrere verlustbehaftete Formate. Diese sollten Sie aber vermeiden, wenn Sie mit Audiodaten arbeiten, da der Datenverlust die Erkennungsgenauigkeit beeinträchtigen kann.
Der beliebte Codec MP3 ist ein Beispiel für eine verlustbehaftete Codierung. Alle MP3-Kompressionsmethoden entfernen Audiosignale, die außerhalb des menschlichen Hörbereichs liegen. Sie passen den Grad der Kompression an, indem sie die effektive Bitrate des MP3-Codecs oder die Anzahl der Bit pro Sekunde für das Speichern der Audiodaten ändern.
Zum Beispiel hat eine Stereo-CD mit linearer PCM von 16 Bit eine effektive Bitrate von:
44100 * 2 channels * 16 bits = 1411200 bits per second (bps) = 1411 kbps
Die MP3-Kompression entfernt solche digitalen Daten mit Bitraten wie beispielsweise 320 kbit/s, 128 kbit/s oder 96 kbit/s, was zu einer Verschlechterung der Tonqualität führt. MP3 unterstützt auch variable Bitraten, wodurch Audiodaten noch weiter komprimiert werden können. Beide Techniken entfernen Informationen und können die Qualität beeinträchtigen. Viele Menschen erkennen beispielsweise den Unterschied zwischen mit 96 kbit/s und 128 kbit/s codierter MP3-Musik.
Andere Kompressionsformen parametrisieren einige andere Beschränkungen.
MULAW ist eine PCM-Codierung mit 8 Bit, bei der die Amplitude der Stichprobe logarithmisch statt linear moduliert wird. Als Ergebnis verringert uLaw den effektiven Aussteuerungsbereich der so komprimierten Audiodaten. Obwohl uLaw eingeführt wurde, um die Codierung von Sprache gegenüber anderen Audiotypen zu optimieren, ist das nicht komprimierte 16-Bit-PCM LINEAR16
der 8-Bit-uLaw-Kompression noch weit überlegen.
AMR und AMR_WB führen die Modulation von codierten Audiosamples aus, indem sie eine variable Bitrate auf das Audioquellsample anwenden.
Obwohl die Speech-to-Text API mehrere verlustbehaftete Formate unterstützt, sollten Sie deren Verwendung vermeiden, wenn Sie mit Audioquelldaten arbeiten. Obwohl der Verlust solcher Daten aufgrund einer verlustbehafteten Kompression vom menschlichen Ohr möglicherweise nicht wahrnehmbar ist, kann sich die Genauigkeit der Spracherkennung von digitalen Systemen dadurch deutlich verschlechtern.