이 페이지는 Cloud Translation API를 통해 번역되었습니다.

ML.GENERATE_EMBEDDING을 반복적으로 호출하여 할당량 오류 처리

이 튜토리얼에서는 BigQuery bqutil.procedure.bqml_generate_embeddings 공개 저장 프러시저를 사용하여 ML.GENERATE_EMBEDDING 함수 호출을 반복하는 방법을 보여줍니다. 함수를 반복적으로 호출하면 함수에 적용되는 할당량 및 한도를 초과하여 발생하는 재시도 가능한 오류를 해결할 수 있습니다.

GitHub에서 bqutil.procedure.bqml_generate_embeddings 저장 프러시저의 소스 코드를 검토하려면 bqml_generate_embeddings.sqlx를 참조하세요. 저장 프러시저 매개변수 및 사용에 대한 자세한 내용은 리드미 파일을 참조하세요.

이 튜토리얼에서는 다음 작업을 안내합니다.

text-embedding-005 모델을 통해 원격 모델 만들기
bqutil.procedure.bqml_generate_embeddings 저장 프러시저를 통해 원격 모델 및 bigquery-public-data.bbc_news.fulltext 공개 데이터 테이블을 사용하여 ML.GENERATE_EMBEDDING 함수 호출 반복

필수 권한

이 튜토리얼을 실행하려면 다음 Identity and Access Management(IAM) 역할이 필요합니다.

BigQuery 데이터 세트, 연결, 모델을 만들고 사용하기: BigQuery 관리자(roles/bigquery.admin)
연결의 서비스 계정에 권한 부여: 프로젝트 IAM 관리자(roles/resourcemanager.projectIamAdmin)

이러한 사전 정의된 역할에는 이 문서의 작업을 수행하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 확장하세요.

필수 권한

데이터 세트 만들기: bigquery.datasets.create
연결을 만들고, 위임하고, 사용하기: bigquery.connections.*
기본 연결 설정: bigquery.config.*
서비스 계정 권한 설정: resourcemanager.projects.getIamPolicy 및 resourcemanager.projects.setIamPolicy
모델을 만들고 추론을 실행하기:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
- bigquery.models.updateMetadata

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

비용

이 문서에서는 비용이 청구될 수 있는 Google Cloud구성요소( )를 사용합니다.

BigQuery ML: You incur costs for the data that you process in BigQuery.
Vertex AI: You incur costs for calls to the Vertex AI model.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용합니다.

Google Cloud 신규 사용자는 무료 체험판을 사용할 수 있습니다.

BigQuery 가격 책정에 대한 자세한 내용은 BigQuery 가격 책정을 참조하세요.

Vertex AI 가격 책정에 대한 자세한 내용은 Vertex AI 가격 책정을 참고하세요.

시작하기 전에

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, BigQuery Connection, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

데이터 세트 생성

모델과 샘플 데이터를 저장할 BigQuery 데이터 세트를 만듭니다.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery 페이지로 이동
탐색기 창에서 프로젝트 이름을 클릭합니다.
작업 보기 > 데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 페이지에서 다음을 수행합니다.
1. 데이터 세트 ID에 target_dataset를 입력합니다.
2. 위치 유형에 대해 멀티 리전을 선택한 다음 US(미국 내 여러 리전)를 선택합니다.
3. 나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.

텍스트 임베딩 생성 모델 만들기

호스팅된 Vertex AI text-embedding-005 모델을 나타내는 원격 모델을 만듭니다.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery로 이동
쿼리 편집기에서 다음 쿼리를 실행합니다.
```
CREATE OR REPLACE MODEL `target_dataset.embedding_model`
  REMOTE WITH CONNECTION DEFAULT
  OPTIONS (ENDPOINT = 'text-embedding-005');
```
쿼리가 완료되는 데 몇 초 정도 걸리며 그 이후에는 embedding 모델이 탐색기 창의 sample 데이터 세트에 표시됩니다. 이 쿼리에서는 CREATE MODEL 문을 사용하여 모델을 만들므로 쿼리 결과가 없습니다.

저장 프러시저 실행

target_dataset.embedding_model 모델 및 bigquery-public-data.bbc_news.fulltext 공개 데이터 테이블을 사용하여 ML.GENERATE_EMBEDDING 함수 호출을 반복하는 bqutil.procedure.bqml_generate_embeddings 저장 프러시저를 실행합니다.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery로 이동

쿼리 편집기에서 다음 쿼리를 실행합니다.

CALL `bqutil.procedure.bqml_generate_embeddings`(
    "bigquery-public-data.bbc_news.fulltext",            -- source table
    "PROJECT_ID.target_dataset.news_body_embeddings",  -- destination table
    "PROJECT_ID.target_dataset.embedding_model",       -- model
    "body",                                              -- content column
    ["filename"],                                        -- key columns
    '{}'                                                 -- optional arguments encoded as a JSON string
);

PROJECT_ID를 이 튜토리얼에서 사용 중인 프로젝트의 프로젝트 ID로 바꿉니다.

저장 프러시저는 ML.GENERATE_EMBEDDING 함수의 출력을 포함하는 target_dataset.news_body_embeddings 테이블을 만듭니다.

쿼리 실행이 완료되면 target_dataset.news_body_embeddings 테이블에 재시도 가능한 오류가 포함된 행이 없는지 확인합니다. 쿼리 편집기에서 다음 쿼리를 실행합니다.
```
SELECT *
FROM `target_dataset.news_body_embeddings`
WHERE ml_generate_embedding_status LIKE '%A retryable error occurred%';
```
쿼리가 No data to display 메시지를 반환합니다.

삭제

주의: 프로젝트 삭제가 미치는 영향은 다음과 같습니다.

프로젝트의 모든 항목이 삭제됩니다. 이 문서의 태스크에 기존 프로젝트를 사용한 경우 프로젝트를 삭제하면 프로젝트에서 수행한 다른 작업도 삭제됩니다.
커스텀 프로젝트 ID가 손실됩니다. 이 프로젝트를 만들 때 앞으로 사용할 커스텀 프로젝트 ID를 만들었을 수 있습니다. appspot.com URL과 같이 프로젝트 ID를 사용하는 URL을 보존하려면 전체 프로젝트를 삭제하는 대신 프로젝트 내에서 선택한 리소스만 삭제합니다.

여러 아키텍처, 튜토리얼, 빠른 시작을 살펴보려는 경우 프로젝트를 재사용하면 프로젝트 할당량 한도 초과를 방지할 수 있습니다.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.