이 페이지에서는 분류 모델 학습을 시작할 수 있도록 텍스트 데이터에서 Vertex AI 데이터 세트를 만드는 방법을 보여줍니다. Google Cloud Console 또는 Vertex AI API를 사용하여 데이터 세트를 만들 수 있습니다.
빈 데이터 세트를 만들고 데이터 가져오기 또는 연결
Google Cloud 콘솔
다음 안내에 따라 빈 데이터 세트를 만들고 데이터를 가져오거나 연결합니다.
- Google Cloud 콘솔의 Vertex AI 섹션에서 데이터 세트 페이지로 이동합니다.
- 만들기를 클릭하여 데이터 세트 만들기 세부정보 페이지를 엽니다.
- 데이터 세트 이름 필드를 수정하여 데이터 세트를 설명하는 표시 이름을 지정합니다.
- 텍스트 탭을 선택합니다.
- 단일 라벨 분류 또는 다중 라벨 분류를 선택합니다.
- 리전 드롭다운 목록에서 리전을 선택합니다.
- 만들기를 클릭하여 빈 데이터 세트를 만들고 데이터 가져오기 페이지로 이동합니다.
- 가져오기 방법 선택 섹션에서 다음 옵션 중 하나를 선택합니다.
컴퓨터에서 데이터 업로드
- 가져오기 방법 선택 섹션에서 컴퓨터의 데이터를 업로드하도록 선택합니다.
- 파일 선택을 클릭하고 Cloud Storage 버킷에 업로드할 모든 로컬 파일을 선택합니다.
- Cloud Storage 경로 선택 섹션에서 탐색을 클릭하여 데이터를 업로드할 Cloud Storage 버킷 위치를 선택합니다.
컴퓨터에서 가져오기 파일 업로드
- 컴퓨터에서 가져오기 파일 업로드를 클릭합니다.
- 파일 선택을 클릭하고 Cloud Storage 버킷에 업로드할 로컬 가져오기 파일을 선택합니다.
- Cloud Storage 경로 선택 섹션에서 탐색을 클릭하여 파일을 업로드할 Cloud Storage 버킷 위치를 선택합니다.
Cloud Storage에서 가져오기 파일 선택
- Cloud Storage에서 가져오기 파일 선택을 클릭합니다.
- Cloud Storage 경로 선택 섹션에서 탐색을 클릭하여 Cloud Storage에서 가져오기 파일을 선택합니다.
- 계속을 클릭합니다.
데이터 크기에 따라 몇 시간이 소요될 수 있습니다. 탭을 닫았다가 나중에 다시 돌아와도 됩니다. 데이터를 가져오면 이메일이 전송됩니다.
API
머신러닝 모델을 만들려면 우선 학습할 대표 데이터 모음이 있어야 합니다. 데이터를 가져온 후 적절히 수정하여 모델 학습을 시작할 수 있습니다.
데이터 세트 만들기
다음 샘플을 사용하여 데이터의 데이터 세트를 만듭니다.
REST
요청 데이터를 사용하기 전에 다음을 바꿉니다.
-
LOCATION: 데이터 세트가 저장될 리전입니다. 데이터 세트 리소스를 지원하는 리전이어야 합니다. 예를 들면
us-central1
입니다. 사용 가능한 위치 목록을 참조하세요. - PROJECT_ID: 프로젝트 ID
- DATASET_NAME: 데이터 세트의 이름입니다.
HTTP 메서드 및 URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
JSON 요청 본문:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/text_1.0.0.yaml" }
요청을 보내려면 다음 옵션 중 하나를 선택합니다.
curl
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
다음과 비슷한 출력이 표시됩니다. 응답의 OPERATION_ID를 사용하여 작업 상태를 확인할 수 있습니다.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } } }
Terraform
다음 샘플에서는 google_vertex_ai_dataset
Terraform 리소스를 사용하여 text-dataset
라는 텍스트 데이터 세트를 만듭니다.
Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.
Java
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Java 설정 안내를 따르세요. 자세한 내용은 Vertex AI Java API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Node.js 설정 안내를 따르세요. 자세한 내용은 Vertex AI Node.js API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Python
Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 확인하세요.
다음 샘플에서는 Python용 Vertex AI SDK를 사용하여 데이터 세트를 만들고 데이터를 가져옵니다. 이 샘플 코드를 실행하는 경우 이 가이드의 데이터 가져오기 섹션을 건너뛸 수 있습니다.
이 특정 샘플은 단일 라벨 분류에 사용되는 데이터를 가져옵니다. 모델의 목표가 다른 경우 코드를 조정해야 합니다.
데이터 가져오기
빈 데이터 세트를 만든 후 데이터를 데이터 세트로 가져올 수 있습니다. Python용 Vertex AI SDK를 사용하여 데이터 세트를 만든 경우 데이터 세트를 만들 때 이미 데이터를 가져왔을 수 있습니다. 이 경우 이 섹션을 건너뛸 수 있습니다.
아래에서 목표에 대한 탭을 선택합니다.
단일 라벨 분류
REST
요청 데이터를 사용하기 전에 다음을 바꿉니다.
- LOCATION: 데이터 세트가 저장될 리전입니다. 예를 들면
us-central1
입니다. - PROJECT_ID: 프로젝트 ID
- DATASET_ID: 데이터 세트의 ID입니다.
- IMPORT_FILE_URI: 모델 학습에 사용할 Cloud Storage에 저장된 데이터 항목을 나열하는 Cloud Storage의 CSV 또는 JSON Lines 파일 경로입니다. 가져오기 파일 형식과 제한사항에 대한 자세한 내용은 텍스트 데이터 준비를 참조하세요.
HTTP 메서드 및 URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
JSON 요청 본문:
{ "import_configs": [ { "gcs_source": { "uris": "IMPORT_FILE_URI" }, "import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/text_classification_single_label_io_format_1.0.0.yaml" } ] }
요청을 보내려면 다음 옵션 중 하나를 선택합니다.
curl
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
다음과 비슷한 출력이 표시됩니다. 응답의 OPERATION_ID를 사용하여 작업 상태를 확인할 수 있습니다.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata", "genericMetadata": { "createTime": "2020-07-08T20:32:02.543801Z", "updateTime": "2020-07-08T20:32:02.543801Z" } } }
Java
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Java 설정 안내를 따르세요. 자세한 내용은 Vertex AI Java API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Node.js 설정 안내를 따르세요. 자세한 내용은 Vertex AI Node.js API 참고 문서를 참조하세요.
Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Python
Vertex AI SDK for Python을 설치하거나 업데이트하는 방법은 Vertex AI SDK for Python 설치를 참조하세요. 자세한 내용은 Python API 참고 문서를 확인하세요.
멀티 라벨 분류
REST
요청 데이터를 사용하기 전에 다음을 바꿉니다.
- LOCATION: 데이터 세트가 저장될 리전입니다. 예를 들면
us-central1
입니다. - PROJECT_ID: 프로젝트 ID
- DATASET_ID: 데이터 세트의 ID입니다.
- IMPORT_FILE_URI: 모델 학습에 사용할 Cloud Storage에 저장된 데이터 항목을 나열하는 Cloud Storage의 CSV 또는 JSON Lines 파일 경로입니다. 가져오기 파일 형식과 제한사항에 대한 자세한 내용은 텍스트 데이터 준비를 참조하세요.
HTTP 메서드 및 URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
JSON 요청 본문:
{ "import_configs": [ { "gcs_source": { "uris": "IMPORT_FILE_URI" }, "import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/text_classification_multi_label_io_format_1.0.0.yaml" } ] }
요청을 보내려면 다음 옵션 중 하나를 선택합니다.
curl
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
요청 본문을 request.json
파일에 저장하고 다음 명령어를 실행합니다.
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
다음과 비슷한 출력이 표시됩니다. 응답의 OPERATION_ID를 사용하여 작업 상태를 확인할 수 있습니다.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata", "genericMetadata": { "createTime": "2020-07-08T20:32:02.543801Z", "updateTime": "2020-07-08T20:32:02.543801Z" } } }
작업 상태 가져오기
일부 요청은 완료하는 데 시간이 걸리는 장기 실행 작업을 시작합니다. 이러한 요청은 작업 상태를 보거나 작업을 취소하는 데 사용할 수 있는 작업 이름을 반환합니다. Vertex AI는 장기 실행 작업을 호출하는 도우미 메서드를 제공합니다. 자세한 내용은 장기 실행 작업 다루기를 참조하세요.