Fungsi ML.TRANSCRIBE

Dokumen ini menjelaskan fungsi ML.TRANSCRIBE, yang memungkinkan Anda mentranskripsikan file audio dari tabel objek.

Sintaksis

ML.TRANSCRIBE(
  MODEL `project_id.dataset.model_name`,
  TABLE `project_id.dataset.object_table`,
  [RECOGNITION_CONFIG => ( JSON 'recognition_config')]
)

Argumen

ML.TRANSCRIBE menggunakan argumen berikut:

  • project_id: Project ID Anda.

  • dataset: Set data BigQuery yang berisi model.

  • model: Nama model jarak jauh dengan REMOTE_SERVICE_TYPE dari CLOUD_AI_SPEECH_TO_TEXT_V2.

  • object_table: Nama tabel objek yang berisi URI file audio.

    File audio dalam tabel objek harus berjenis jenis yang didukung. Error akan ditampilkan untuk setiap baris yang berisi file audio dari jenis yang tidak didukung.

  • recognition_config: nilai STRING yang berisi resource RecognitionConfig dalam format JSON.

    Jika pengenal telah ditentukan untuk model jarak jauh dengan menggunakan opsi SPEECH_RECOGNIZER, Anda dapat secara opsional menentukan nilai recognition_config untuk mengganti konfigurasi default pengenal yang ditentukan.

    Argumen ini diperlukan jika tidak ada pengenal yang ditentukan untuk model jarak jauh menggunakan opsi SPEECH_RECOGNIZER.

Output

ML.TRANSCRIBE menampilkan kolom berikut:

  • transcripts: nilai STRING yang berisi transkrip dari pemrosesan file audio.
  • ml_transcribe_result: nilai JSON yang berisi hasil pemroses dokumen dari Document AI API.
  • ml_transcribe_result_status: nilai STRING yang berisi status respons API untuk baris yang sesuai. Nilai ini kosong jika operasi berhasil.
  • Kolom tabel objek.

Kuota

Lihat Kuota dan batas fungsi layanan Cloud AI.

Lokasi

ML.TRANSCRIBE harus berjalan di region yang sama dengan model jarak jauh yang direferensikan oleh fungsi tersebut. Anda hanya dapat membuat model berdasarkan Speech-to-Text di lokasi berikut:

  • asia-northeast1
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west1
  • europe-west2
  • europe-west3
  • europe-west4
  • northamerica-northeast1
  • us
  • us-central1
  • us-east1
  • us-east4
  • us-west1

Batasan

Fungsi ini tidak dapat memproses file audio yang berdurasi lebih dari 1 menit. Setiap baris yang berisi file tersebut akan menampilkan error.

Contoh

Contoh berikut mentranskripsikan file audio yang direpresentasikan oleh tabel audio:

Buat model:

# Create model
CREATE OR REPLACE MODEL
`myproject.mydataset.transcribe_model`
REMOTE WITH CONNECTION `myproject.myregion.myconnection`
OPTIONS (remote_service_type = 'CLOUD_AI_SPEECH_TO_TEXT_V2',
speech_recognizer = 'projects/project_number/locations/recognizer_location/recognizer/recognizer_id');

Transkripsikan file audio tanpa mengganti konfigurasi default pengenal:

SELECT *
FROM ML.TRANSCRIBE(
  MODEL `myproject.mydataset.transcribe_model`,
  TABLE `myproject.mydataset.audio`
);

Transkripsikan file audio dan ganti konfigurasi default pengenal:

SELECT *
FROM ML.TRANSCRIBE(
  MODEL `myproject.mydataset.transcribe_model`,
  TABLE `myproject.mydataset.audio`,
  recognition_config => ( JSON '{"language_codes": ["en-US" ],"model": "telephony","auto_decoding_config": {}}')
);

Hasilnya akan mirip dengan berikut ini:

transcripts ml_transcribe_result ml_transcribe_status uri ...
OK Google streaming hal-hal asing dari Netflix ke TV saya. Oke, lagu asing dari Netflix diputar di smart home TV dan hanya... {"metadata":{"total_billed_duration":{"seconds":56}},"results":[{"alternatives":[{"confidence":0.738729,"transcript"... gs://mybucket/audio_files

Langkah selanjutnya