데이터 세트 만들기 및 관리

데이터 세트에는 출발어와 도착어의 대응하는 세그먼트 쌍으로 번역할 콘텐츠 유형의 대표 샘플이 들어 있습니다. 데이터 세트는 모델 학습을 위한 입력으로 사용됩니다.

프로젝트는 여러 데이터 세트가 있을 수 있습니다. 각각을 사용하여 별도의 모델을 학습시킬 수 있습니다.

데이터 세트 생성

모델의 학습 데이터를 포함할 데이터 세트를 만듭니다. 데이터 세트를 만들 때 학습 데이터의 출발어와 도착어를 지정합니다. 지원되는 언어 및 변형에 대한 자세한 내용은 커스텀 모델에 대한 언어 지원을 참조하세요.

웹 UI

AutoML Translation 콘솔을 사용하면 새 데이터 세트를 만들고 이 데이터 세트에 항목을 가져올 수 있습니다.

AutoML Translation 콘솔로 이동합니다.

번역 페이지로 이동
탐색창에서 데이터 세트를 클릭합니다.
데이터 세트 페이지에서 데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 대화상자에서 데이터 세트에 대한 세부정보를 지정합니다.
- 데이터 세트의 이름을 입력합니다.
- 드롭다운 목록에서 출발어와 도착어를 선택합니다.
- 만들기를 클릭합니다.

REST

다음 예시는 project.locations.datasets/create 메서드에 POST 요청을 보내는 방법을 보여줍니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
LOCATION: 데이터 세트가 있는 리전입니다(예: us-central1).
DATASET_NAME: 데이터 세트의 이름입니다.
SOURCE_LANG_CODE: 데이터 세트의 출발어를 지정하는 언어 코드입니다.
TARGET_LANG_CODE: 데이터 세트의 도착어를 지정하는 언어 코드입니다.

HTTP 메서드 및 URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

JSON 요청 본문:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

추가 언어

C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 후 .NET용 Cloud Translation 참고 문서를 참조하세요.

PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 후 PHP용 Cloud Translation 참고 문서를 참조하세요.

Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Cloud Translation 참고 문서를 참조하세요.

데이터 세트로 세그먼트 가져오기

데이터 세트를 만든 후에는 세그먼트 쌍을 데이터 세트로 가져올 수 있습니다. 소스 데이터 준비에 대한 자세한 내용은 학습 데이터 준비를 참조하세요.

Google Cloud 콘솔에서는 각 파일에 대해 가져온 세그먼트 쌍을 하나 이상의 키-값 쌍으로 태그할 수 있습니다. 태그를 지정하면 소스별로 세그먼트를 더 쉽게 찾고 필터링할 수 있습니다. 예를 들어 키-값 쌍은 Domain:costmetics 또는 Year:2020일 수 있습니다.

Google Cloud 콘솔을 통해 세그먼트를 가져올 때 태그를 추가할 수 있습니다. 태그 지정은 API에서 지원되지 않습니다. 또한 이미 가져온 세그먼트에는 태그를 수정하거나 태그를 추가할 수 없습니다.

웹 UI

다음 단계에서는 항목을 기존 데이터 세트로 가져옵니다.

AutoML Translation 콘솔로 이동합니다.

번역 페이지로 이동
탐색창에서 데이터 세트를 클릭합니다.
데이터 세트 목록에서 학습 데이터를 추가할 데이터 세트의 이름을 클릭합니다.
가져오기 탭으로 이동합니다.
파일을 추가하여 모델 학습용 세그먼트 쌍을 가져옵니다.

로컬 컴퓨터에서 Cloud Storage 버킷으로 파일을 업로드하거나 Cloud Storage에서 기존 파일을 선택합니다.

기본적으로 Cloud Translation은 자동으로 데이터를 학습, 검증, 테스트 세트로 분할합니다. 각 분할에 별도의 파일을 업로드하려면 학습, 검증, 테스트에 개별 파일 사용(고급)을 선택합니다. 데이터 세트에 100,000개가 넘는 세그먼트 쌍이 있는 경우 검증 및 테스트 세트의 최대 세그먼트 쌍 한도인 10,000개를 초과하지 않도록 이 옵션을 사용하세요.
세그먼트 쌍에 태그를 추가하려면 태그(선택사항)를 펼칩니다.
1. 특정 파일의 모든 세그먼트 쌍에 하나 이상의 태그를 추가하려면 파일 목록에서 수정을 클릭합니다.
2. 태그 창에서 태그 추가를 클릭합니다.
3. 키 및 값을 입력합니다. 이 키-값 쌍으로 세그먼트를 필터링할 수 있습니다.
4. 태그를 더 추가하려면 태그 추가를 클릭합니다.
5. 태그 추가를 완료했으면 계속을 클릭합니다.
계속을 클릭하여 세그먼트 쌍을 가져옵니다.

가져오기가 완료되면 데이터 세트의 문장 탭에서 가져온 문장 쌍을 볼 수 있습니다. 분할(학습, 검증 또는 테스트) 및 하나 이상의 태그를 기준으로 세그먼트를 필터링합니다.

REST

projects.locations.datasets.importData 메서드를 사용하여 데이터 세트로 항목을 가져올 수 있습니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
LOCATION: 데이터 세트가 있는 리전입니다(예: us-central1).
DATASET_ID: 데이터를 추가할 데이터 세트의 ID입니다.
FILE_DISPLAY_NAME: 가져올 데이터가 포함된 파일의 이름입니다.
USAGE: 이러한 세그먼트 쌍(TRAIN, VALIDATION, TEST)에 대한 데이터 분할을 지정합니다.
FILE_PATH: Cloud Storage의 소스 데이터 파일 경로입니다.

HTTP 메서드 및 URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

JSON 요청 본문:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData"

PowerShell(Windows)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

추가 언어

C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 후 .NET용 Cloud Translation 참고 문서를 참조하세요.

PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 후 PHP용 Cloud Translation 참고 문서를 참조하세요.

Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Cloud Translation 참고 문서를 참조하세요.

데이터 세트를 만들고 채운 후에는 모델을 학습시킬 수 있습니다. 자세한 내용은 모델 만들기 및 관리를 참조하세요.

가져오기 문제

데이터 세트를 만들 때 세그먼트 쌍이 너무 길거나, 출발어와 도착어의 세그먼트가 동일하거나(번역되지 않은 경우) 중복이 있는 경우(출발어가 동일한 여러 세그먼트) 세그먼트 쌍이 삭제될 수 있습니다.

세그먼트 쌍이 너무 긴 경우 세그먼트를 약 200단어 이하로 분할한 다음 데이터 세트를 다시 만드는 것이 좋습니다. 200단어 제한은 최대 길이의 추정치입니다. 데이터를 처리하는 동안 AutoML Translation은 내부 프로세스를 사용하여 입력 데이터를 토큰화하므로 세그먼트의 크기를 늘릴 수 있습니다. 이 토큰화된 데이터는 AutoML Translation이 데이터 크기를 측정하는 데 사용하는 데이터입니다.

동일한 세그먼트 쌍의 경우 데이터 세트에서 삭제합니다. 일부 세그먼트가 번역되지 않도록 하려면 대신 용어집 리소스를 사용하여 커스텀 사전을 구축하세요.

데이터 내보내기

기존 데이터 세트의 세그먼트 쌍을 Cloud Storage 버킷으로 내보낼 수 있습니다.

웹 UI

AutoML Translation 콘솔로 이동합니다.

번역 페이지로 이동
탐색창에서 데이터 세트를 클릭하여 데이터 세트 목록을 확인합니다.
데이터를 내보낼 데이터 세트 이름을 클릭합니다.
데이터 세트 세부정보 페이지에서 데이터 내보내기를 클릭합니다.
내보낸 TSV 파일이 저장되는 Cloud Storage 대상을 선택합니다.
내보내기를 클릭합니다.

AutoML Translation은 데이터 세트 집합(학습, 검증, 테스트)에 따라 이름이 지정된 TSV 파일을 출력합니다.

REST

projects.locations.datasets.exportData 메서드를 사용하여 데이터를 Cloud Storage에 TSV 파일로 내보냅니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
LOCATION: 내보낼 데이터 세트가 있는 리전입니다(예: us-central1).
DATASET_ID: 내보낼 데이터 세트의 ID입니다.
DESTINATION_DIRECTORY: 출력이 전송되는 Cloud Storage 경로입니다.

HTTP 메서드 및 URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

JSON 요청 본문:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData"

PowerShell(Windows)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

추가 언어

C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 후 .NET용 Cloud Translation 참고 문서를 참조하세요.

PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 후 PHP용 Cloud Translation 참고 문서를 참조하세요.

Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Cloud Translation 참고 문서를 참조하세요.

데이터 세트 나열

프로젝트에서 사용 가능한 데이터 세트를 나열합니다.

웹 UI

AutoML Translation 콘솔을 사용하여 사용 가능한 데이터 세트 목록을 보려면 탐색창에서 데이터 세트를 클릭합니다.

다른 프로젝트의 데이터 세트를 보려면 제목 표시줄 오른쪽 위에 있는 드롭다운 목록에서 프로젝트를 선택하세요.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
LOCATION: 나열할 데이터 세트가 있는 리전입니다(예: us-central1).

HTTP 메서드 및 URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

다음 명령어를 실행합니다.

curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets"

PowerShell(Windows)

다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

추가 언어

C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 후 .NET용 Cloud Translation 참고 문서를 참조하세요.

PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 후 PHP용 Cloud Translation 참고 문서를 참조하세요.

Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Cloud Translation 참고 문서를 참조하세요.

데이터 세트 삭제

웹 UI

AutoML Translation 콘솔의 탐색창에서 데이터 세트를 클릭하여 사용 가능한 데이터 세트 목록을 표시합니다.
삭제할 데이터 세트에서 더보기 > 삭제를 선택합니다.
확인 대화상자에서 확인을 클릭합니다.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: Google Cloud 프로젝트 ID입니다.
LOCATION: 나열할 데이터 세트가 있는 리전입니다(예: us-central1).
DATASET_ID: 삭제할 데이터 세트의 ID입니다.

HTTP 메서드 및 URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

다음 명령어를 실행합니다.

curl -X DELETE \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "x-goog-user-project: PROJECT_ID" \
     "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID"

PowerShell(Windows)

다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }

Invoke-WebRequest `
    -Method DELETE `
    -Headers $headers `
    -Uri "https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

추가 언어

C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 후 .NET용 Cloud Translation 참고 문서를 참조하세요.

PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 후 PHP용 Cloud Translation 참고 문서를 참조하세요.

Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Cloud Translation 참고 문서를 참조하세요.