기본적으로 Vertex AI는 무작위 분할 알고리즘을 사용하여 데이터를 3개의 데이터 분할로 구분합니다. Vertex AI는 학습 데이터 세트의 80%를 학습 세트로, 10%를 검증 세트로, 10%를 테스트 세트로 무작위 선택합니다. 또는 수동 분할이나 시간순 분할을 사용할 수도 있지만 이렇게 하려면 데이터 분할 열이나 시간 열을 준비해야 합니다.
데이터 분할에 대해 자세히 알아보기
데이터 구조 요구사항
학습 데이터는 다음과 같은 기본 요구사항을 준수해야 합니다.
요구사항 유형
요구사항
크기
데이터 세트는 100GB 이하여야 합니다.
열 개수
데이터 세트에는 최소 2개에서 최대 1,000개의 열이 있어야 합니다. 데이터 세트에는 모델 학습에 대한 대상 및 하나 이상의 기능이 있어야 합니다. 이상적으로는 학습 데이터에 열이 3개 이상 있는 것이 좋습니다. 최대 열 수에는 특성 열과 비특성 열이 모두 포함됩니다.
타겟 열
대상 열을 지정해야 합니다. 대상 열을 사용하면 Vertex AI가 학습 데이터를 원하는 결과와 연결할 수 있습니다. null 값을 포함해서는 안 되며 범주형 또는 숫자여야 합니다. 범주형인 경우 열에는 고유 값이 2개에서 500개까지 있어야 합니다.
열 이름 형식
열 이름에는 영숫자 문자 또는 밑줄(_)을 사용할 수 있습니다. 열 이름은 밑줄로 시작할 수 없습니다.
행 개수
데이터 세트에는 최소 1,000개에서 최대 100,000,000개의 행이 있어야 합니다. 데이터 세트에 있는 특성 수에 따라 1,000개의 행으로는 고성능 모델을 학습시키기에 부족할 수 있습니다. 자세히 알아보기
Vertex AI 데이터 세트를 만드는 프로젝트와 다른 프로젝트에 BigQuery 테이블 또는 뷰가 있거나 외부 데이터 소스를 통해 BigQuery 테이블 또는 뷰가 지원되는 경우 Vertex AI 서비스 에이전트에 하나 이상의 역할을 추가해야 할 수 있습니다. BigQuery의 역할 추가 요구사항을 참조하세요.
BigQuery 테이블의 스키마는 지정하지 않아도 됩니다.
Vertex AI는 데이터를 가져올 때 테이블의 스키마를 자동으로 추론합니다.
학습 데이터의 위치를 지정하는 BigQuery URI는 다음 형식을 따라야 합니다.
bq://<project_id>.<dataset_id>.<table_id>
URI는 다른 특수문자는 포함할 수 없습니다.
BigQuery 데이터 유형과 이러한 유형이 Vertex AI에 매핑되는 방식을 알아보려면 BigQuery 테이블을 참조하세요. BigQuery 외부 데이터 소스 사용에 대한 자세한 내용은 외부 데이터 소스 소개를 참조하세요.
CSV
CSV 파일은 Cloud Storage 또는 로컬 컴퓨터에 있을 수 있으며, 다음 요구사항을 준수해야 합니다.
첫 번째 파일의 첫 번째 줄은 열 이름을 포함한 헤더여야 합니다. 후속 파일의 첫 번째 행이 헤더와 같으면 이 행도 헤더로 처리되고, 그렇지 않은 경우에는 데이터로 처리됩니다.
열 이름에는 영숫자 문자 또는 밑줄(_)을 사용할 수 있습니다.
열 이름은 밑줄로 시작할 수 없습니다.
각 파일은 10GB를 초과할 수 없습니다.
여러 파일을 포함할 수도 있지만 최대 용량은 100GB로 제한됩니다.
구분 기호는 쉼표(',')여야 합니다.
CSV 데이터의 스키마는 지정하지 않아도 됩니다. Vertex AI는 데이터를 가져올 때 테이블의 스키마를 자동으로 추론하며 열 이름에 헤더 행을 사용합니다.
Vertex AI와 동일한 프로젝트에 버킷이 없는 경우 Vertex AI 서비스 에이전트에 역할을 하나 이상 추가해야 합니다.
Cloud Storage의 역할 추가 요구사항을 참조하세요.
Vertex AI는 데이터를 가져오기 전에 이 버킷을 스테이징 영역으로 사용합니다.
학습 데이터에 가중치 추가
기본적으로 Vertex AI는 학습 데이터의 각 행에 동일한 가중치를 적용합니다. 학습 용도로는 어떤 행도 다른 행보다 더 중요한 것으로 간주되지 않습니다.
학습을 위해 일부 행에 더 높은 중요도를 부여하면 좋을 때도 있습니다. 예를 들어 지출 데이터를 사용한다면, 고액 지출자와 관련된 데이터가 모델에 더 큰 영향을 줘야 합니다. 특정 결과가 누락되는 일을 막고 싶다면 해당 결과의 행에 더 많은 가중치를 부여하면 됩니다.
데이터세트에 가중치 열을 추가하면 행에 상대적 가중치를 부여할 수 있습니다. 가중치 열은 숫자 열이어야 합니다. 가중치 값은 0~10,000이 될 수 있습니다.
값이 클수록 모델 학습 시 행이 더 중요함을 나타냅니다. 가중치가 0인 행은 무시됩니다. 가중치 열을 포함하는 경우 모든 행의 값이 포함되어야 합니다.
나중에 모델을 학습시킬 때 이 열을 Weight 열로 지정합니다.
커스텀 가중치 스키마는 모델 학습용으로만 사용하며 모델 평가에 사용되는 테스트 세트에는 영향을 미치지 않습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Prepare training data\n\nThis page shows you how to prepare your tabular data for training classification\nand regression models in Vertex AI. The quality of your training data\nimpacts the effectiveness of the models you create.\n\nThis document covers the following topics:\n\n1. [Data structure requirements](#data-structure)\n2. [Prepare your import source](#import-source)\n3. [Add weights to your training data](#weight)\n\nBy default, Vertex AI uses a\n[random split](/vertex-ai/docs/tabular-data/data-splits#classification-random)\nalgorithm to separate your data into three data splits. Vertex AI\nrandomly selects 80% of your data rows for the training set, 10% for the\nvalidation set, and 10% for the test set. Alternatively, you can use a\n[manual split](/vertex-ai/docs/tabular-data/data-splits#classification-manual)\nor a [chronological split](/vertex-ai/docs/tabular-data/data-splits#classification-time),\nbut this requires you to prepare a data split column or a time column.\n[Learn more](/vertex-ai/docs/tabular-data/data-splits) about data splits.\n\nData structure requirements\n---------------------------\n\nYour training data must conform to the following basic requirements:\n\nPrepare your import source\n--------------------------\n\nYou can provide model training data to Vertex AI in two formats:\n\n- BigQuery tables\n- Comma-separated values (CSV)\n\nWhich source you use depends on how your data is stored, and the size and\ncomplexity of your data. If your dataset is small, and you don't need more\ncomplex data types, CSV might be easier. For larger datasets that include arrays\nand structs, use BigQuery. \n\n### BigQuery\n\nYour BigQuery table or view must conform to the\n[BigQuery location requirements](/vertex-ai/docs/general/locations#bq-locations).\n\nIf your BigQuery table or view is in a different project than the\nproject where you're creating your Vertex AI dataset, or your\nBigQuery table or view is backed by an external data source, add\none or more roles to the Vertex AI Service Agent. See\n[Role addition requirements for BigQuery](/vertex-ai/docs/general/access-control#bq-roles).\n\nYou do not need to specify a schema for your BigQuery table.\nVertex AI automatically infers the schema for your table when you\nimport your data.\n\nYour BigQuery URI (specifying the location of your training data)\nmust conform to the following format: \n\n```\nbq://\u003cproject_id\u003e.\u003cdataset_id\u003e.\u003ctable_id\u003e\n```\n\nThe URI cannot contain any other special characters.\n\nFor information about BigQuery data types and how they map into\nVertex AI, see [BigQuery tables](/vertex-ai/docs/datasets/data-types-tabular#bq). For more\ninformation about using BigQuery external data sources, see\n[Introduction to external data sources](/bigquery/external-data-sources).\n\n### CSV\n\nCSV files can be in Cloud Storage, or on your local computer. They must\nconform to the following requirements:\n\n- The first line of the first file must be a header, containing the names of the columns. If the first row of a subsequent file is the same as the header, then the row is also treated as a header, otherwise the row is treated as data.\n- Column names can include any alphanumeric character or an underscore (_). The column name cannot begin with an underscore.\n- Each file must not be larger than 10 GB.\n\n You can include multiple files, up to a maximum amount of 100 GB.\n- The delimiter must be a comma (\",\").\n\nYou do not need to specify a schema for your CSV data. Vertex AI\nautomatically infers the schema for your table when you import your data, and\nuses the header row for column names.\n\nFor more information about CSV file format and data types, see\n[CSV files](/vertex-ai/docs/datasets/data-types-tabular#csv).\n\nIf you import your data from Cloud Storage, it must be in a\nbucket that meets the following requirements:\n\n- It conforms to the [Vertex AI bucket requirements](/vertex-ai/docs/general/locations#buckets).\n- If the bucket is not in the same project as Vertex AI, add one or more roles to the Vertex AI Service Agent. See [Role addition requirements for Cloud Storage](/vertex-ai/docs/general/access-control#storage-roles).\n\nIf you import your data from your local computer, you must have a\nCloud Storage bucket that meets the following requirements:\n\n- It conforms to the [Vertex AI bucket requirements](/vertex-ai/docs/general/locations#buckets).\n- If the bucket is not in the same project as Vertex AI,\n add one or more roles to the Vertex AI Service Agent.\n See [Role addition requirements for Cloud Storage](/vertex-ai/docs/general/access-control#storage-roles).\n\n Vertex AI uses this bucket as a staging area before importing\n your data.\n\nAdd weights to your training data\n---------------------------------\n\nBy default, Vertex AI weighs each row of your training data\nequally. For training purposes, no row is considered more important than\nanother.\n\nSometimes, you might want some rows to have more importance for training. For\nexample, if you use spending data, you might want the data associated with\nhigher spenders to have a larger impact on the model. If you want\nto avoid missing a specific outcome, then weight rows with that outcome more\nheavily.\n\nGive rows a relative weight by adding a weight column to your dataset. The\nweight column must be a numeric column. The weight value can be 0‑10,000.\nHigher values indicate that the row is more important when training the model. A\nweight of 0 causes the row to be ignored. If you include a weight column, it\nmust contain a value for every row.\n\nLater, when you train your model, specify this column as the `Weight`\ncolumn.\n\nCustom weighting schemes are used only for training the model; they do not\naffect the test set used for model evaluation.\n\nWhat's next\n-----------\n\n- [Create your dataset](/vertex-ai/docs/tabular-data/classification-regression/create-dataset).\n- Learn about [best practices for creating tabular training data](/vertex-ai/docs/tabular-data/bp-tabular).\n- Learn how [Vertex AI works with different types of tabular data](/vertex-ai/docs/datasets/data-types-tabular)."]]