データセットを作成して管理する

データセットには、翻訳するコンテンツタイプの代表サンプルが、ソース言語とターゲット言語の対応するセグメントのペアとして含まれています。このデータセットを入力値として利用し、モデルをトレーニングします。

1 つのプロジェクトに複数のデータセットを含めることができます。また、それぞれを個別のモデルのトレーニングに使用できます。

データセットを作成する

モデルのトレーニングデータを格納するデータセットを作成します。データセットを作成するときに、トレーニングデータのソース言語とターゲット言語を指定します。サポートされている言語とバリエーションの詳細については、カスタムモデルに対する言語サポートをご覧ください。

ウェブ UI

AutoML Translation コンソールを使用すると、新しいデータセットを作成してアイテムをデータセットにインポートできます。

AutoML Translation のコンソールに移動します。

[翻訳] ページに移動
ナビゲーションパネルで、[データセット] をクリックします。
[データセット] ページで、[データセットを作成] をクリックします。
[データセットを作成] ダイアログで、データセットの詳細を指定します。
- データセットの名前を入力します。
- ソース言語とターゲット言語をプルダウンリストから選択します。
- [作成] をクリックします。

REST

以下の例では、POST リクエストを project.locations.datasets/create メソッドに送信しています。

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
LOCATION: データセットが配置されるリージョン（us-central1 など）
DATASET_NAME: データセットの名前。
SOURCE_LANG_CODE: データセットのソース言語を指定する言語コード。
TARGET_LANG_CODE: データセットのターゲット言語を指定する言語コード。

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

リクエストの本文（JSON）:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell（Windows）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアントライブラリページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンスドキュメントをご覧ください。

PHP: クライアントライブラリページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンスドキュメントをご覧ください。

Ruby: クライアントライブラリページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンスドキュメントをご覧ください。

セグメントをデータセットにインポートする

データセットを作成したら、セグメントペアをデータセットにインポートできます。ソースデータの準備の詳細については、トレーニングデータの準備をご覧ください。

Google Cloud コンソールでは、ファイルごとに、インポートしたセグメントペアに 1 つ以上の Key-Value ペアでタグ付けできます。タグ設定により、セグメントをソース別に見つけてフィルタすることが容易になります。たとえば、Key-Value ペアは Domain:costmetics または Year:2020 です。

タグは、 Google Cloud コンソールからセグメントをインポートするときに追加できます。API ではタグ付けはサポートされていません。また、すでにインポートしたセグメントに対してタグを変更する、または追加することもできません。

ウェブ UI

次の手順で、アイテムを既存のデータセットにインポートします。

AutoML Translation のコンソールに移動します。

[翻訳] ページに移動
ナビゲーションパネルで、[データセット] をクリックします。
データセットリストで、トレーニングデータを追加するデータセットの名前をクリックします。
[インポート] タブに移動します。
モデルトレーニング用にセグメントペアをインポートするファイルを追加します。

ローカルコンピュータから Cloud Storage バケットにファイルをアップロードするか、Cloud Storage から既存のファイルを選択します。

デフォルトでは、Cloud Translation はデータをトレーニングセット、検証セット、テストセットに自動的に分割します。分割ごとに別々のファイルをアップロードする場合は、[トレーニング、検証、テストに別のファイルを使用します（上級者向け）] を選択します。検証セットとテストセットでセグメントペア数の上限 10,000 を超えないように、データセットにセグメントペアが 100,000 個を超える場合は、このオプションを使用します。
セグメントペアにタグを追加するには、[タグ（省略可）] を開きます。
1. ファイルのリストで [編集] をクリックすると、指定したファイルのすべてのセグメントペアに 1 つ以上のタグを追加できます。
2. [タグ] ペインで、[タグを追加] をクリックします。
3. キーと値を入力します。この Key-Value ペアでセグメントをフィルタリングできます
4. さらにタグを追加するには、[タグを追加] をクリックします。
5. タグの追加が完了したら、[続行] をクリックします。
[続行] をクリックして、セグメントペアをインポートします。

インポートが完了すると、インポートしたセグメントペアをデータセットの [文] タブで確認できます。セグメントは、分割（トレーニング、検証、テスト）と 1 つ以上のタグでフィルタします。

REST

projects.locations.datasets.importData メソッドを使用して、アイテムをデータセットにインポートします。

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
LOCATION: データセットが配置されるリージョン（us-central1 など）
DATASET_ID: データを追加するデータセットの ID。
FILE_DISPLAY_NAME: インポートするデータを含むファイルの名前。
USAGE: これらのセグメントペア（TRAIN、VALIDATION、TEST）のデータ分割を指定します。
FILE_PATH: Cloud Storage のソースデータファイルのパス。

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

リクエストの本文（JSON）:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData"

PowerShell（Windows）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアントライブラリページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンスドキュメントをご覧ください。

PHP: クライアントライブラリページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンスドキュメントをご覧ください。

Ruby: クライアントライブラリページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンスドキュメントをご覧ください。

データセットを作成して入力すると、モデルをトレーニングできます。詳細については、モデルの作成と管理をご覧ください。

インポートに関する問題

データセットの作成時に、セグメントペアが長すぎたり、ソース言語とターゲット言語のセグメントが同一であったり（未翻訳）重複している（同じソース言語のテキストを含むセグメントが複数存在している）場合、AutoML Translation でセグメントペアが削除される可能性があります。

セグメントペアが長すぎる場合は、セグメントを約 200 単語に分割してからデータセットを再作成することをおすすめします。最大長は 200 語です。データの処理中に、AutoML Translation は内部プロセスを使用して入力データをトークン化します。これにより、セグメントのサイズが大きくなる可能性があります。このトークン化されたデータは、AutoML Translation でデータサイズの測定に使用するものです。

同一のセグメントペアの場合は、データセットから削除します。一部のセグメントが翻訳されないようにするには、用語集リソースを使用してカスタム辞書を作成します。

データをエクスポートする

既存のデータセットから Cloud Storage バケットにセグメントペアをエクスポートできます。

ウェブ UI

AutoML Translation のコンソールに移動します。

[翻訳] ページに移動
ナビゲーションパネルで [データセット] をクリックして、データセットのリストを表示します。
データをエクスポートするデータセットの名前をクリックします。
データセットの詳細ページで、[データをエクスポート] をクリックします。
エクスポートされた TSV ファイルが保存される Cloud Storage の宛先を選択します。
[エクスポート] をクリックします。

AutoML Translation は、データセットのセット（トレーニング、検証、テスト）に応じた名前の TSV ファイルを出力します。

REST

projects.locations.datasets.exportData メソッドを使用して、データを TSV ファイルとして Cloud Storage にエクスポートします。

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
LOCATION: エクスポートするデータセットが配置されているリージョン（us-central1 など）。
DATASET_ID: エクスポートするデータセットの ID。
DESTINATION_DIRECTORY: 出力が送信される Cloud Storage パス。

HTTP メソッドと URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

リクエストの本文（JSON）:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData"

PowerShell（Windows）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

その他の言語

C#: クライアントライブラリページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンスドキュメントをご覧ください。

PHP: クライアントライブラリページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンスドキュメントをご覧ください。

Ruby: クライアントライブラリページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンスドキュメントをご覧ください。

データセットのリスト表示

プロジェクトで使用可能なデータセットを一覧表示します。

ウェブ UI

AutoML Translation コンソールを使用して使用可能なデータセットを一覧表示するには、ナビゲーションパネルで [データセット] をクリックします。

別のプロジェクトのデータセットを表示するには、タイトルバーの右上にあるプルダウンリストからプロジェクトを選択します。

REST

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
LOCATION: 一覧表示するデータセットが配置されているリージョン（us-central1 など）。

HTTP メソッドと URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

次のコマンドを実行します。

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell（Windows）

次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

その他の言語

C#: クライアントライブラリページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンスドキュメントをご覧ください。

PHP: クライアントライブラリページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンスドキュメントをご覧ください。

Ruby: クライアントライブラリページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンスドキュメントをご覧ください。

データセットの削除

ウェブ UI

AutoML Translation コンソールのナビゲーションパネルで、[データセット] をクリックして、使用可能なデータセットを一覧表示します。
削除するデータセットで、[その他] > [削除] を選択します。
確認ダイアログボックスで [確認] をクリックします。

REST

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
LOCATION: 一覧表示するデータセットが配置されているリージョン（us-central1 など）。
DATASET_ID: 削除するデータセットの ID。

HTTP メソッドと URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

次のコマンドを実行します。

curl -X DELETE \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID"

PowerShell（Windows）

次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method DELETE `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

その他の言語

C#: クライアントライブラリページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンスドキュメントをご覧ください。

PHP: クライアントライブラリページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンスドキュメントをご覧ください。

Ruby: クライアントライブラリページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンスドキュメントをご覧ください。