생성형 AI 및 데이터 거버넌스

Google은 업계 최초로 AI/ML 개인 정보 보호 약정을 발표했습니다. 여기에는 클라우드에 저장된 고객 데이터에 대해 고객이 가장 높은 수준의 보안 및 제어 권한을 가져야 한다는 Google의 신념이 표명되어 있습니다. 이 약정은 Google Cloud 생성형 AI 제품으로 확장됩니다. Google은 Google Cloud가 제품 개발에 사용하는 데이터에 대한 검토가 포함하여 업무팀이 강력한 데이터 거버넌스 규정을 통해 이러한 약정을 준수하도록 보장합니다. Google이 데이터를 처리하는 방식에 대한 자세한 내용은 Google Cloud 데이터 처리 추가 조항(CDPA)에서도 찾아볼 수 있습니다.

정의

용어 설명
기반 모델 대량의 데이터로 학습되며 광범위한 작업에 사용할 수 있는 대규모 머신러닝(ML) 모델입니다.
어댑터 모델 어댑터 레이어 또는 어댑터 가중치라고도 합니다. 이 모델은 기반 모델과 함께 작동하여 전문 작업의 성능을 향상시키는 ML 모델입니다.
고객 데이터 정의는 Google Cloud Platform 서비스 약관을 참조하세요.
학습 데이터를 사용하여 ML 모델을 학습시키는 프로세스입니다.
예측 추론이라고도 하며, ML 모델로 입력을 처리하여 출력을 생성하는 작업을 의미합니다.
안전 분류 기준 예측 과정에서 예를 들어 폭력물과 같은 특정 카테고리의 콘텐츠를 식별하는 데 사용됩니다.

기반 모델 학습

기본적으로 Google Cloud는 기반 모델을 학습시키는 데 고객 데이터를 사용하지 않습니다. 고객은 프롬프트, 응답, 모든 어댑터 모델 학습 데이터가 기반 모델 학습에 사용되지 않는다는 점을 알고 Google Cloud의 기반 모델을 사용할 수 있습니다.

어댑터 모델 학습

Vertex AI가 제공하는 서비스를 사용하여 어댑터 모델을 학습시킬 수 있습니다. 어댑터 모델 학습 데이터는 고객 데이터이며 저장되지 않습니다. 또한 고객 데이터는 Google Cloud의 기반 모델을 개선하는 데 사용되지 않습니다. 어댑터 모델은 어댑터 모델을 학습시킨 고객만 사용할 수 있습니다. Google은 어댑터 모델이 기존 Google 지식 재산을 사용하는 경우를 제외하고 어댑터 모델에 대한 소유권을 주장하지 않습니다. 기본적으로 고객 데이터는 암호화된 형식으로 저장되고 전송 중에 암호화됩니다. 또한 고객은 고객 관리 암호화 키(CMEK)를 사용하여 어댑터 모델의 암호화를 제어하고 언제든지 어댑터 모델을 삭제할 수 있습니다.

예측

기반 모델, 어댑터 모델, 예측 중 안전 분류 기준에서 처리되는 입력 및 출력은 고객 데이터입니다. 고객이 입력 및 출력을 캐시하도록 선택하는 방식으로 명시적으로 허가하지 않은 경우 Google에서 고객 데이터를 로깅하지 않습니다.

Google은 예측 중에 고객의 출력을 생성하거나 기반 모델을 학습시키기 위해 고객 데이터를 로깅하지 않습니다. 기본적으로 Google은 Gemini 모델에 대한 고객의 입력과 출력을 캐시하여 고객의 후속 프롬프트에 대한 응답을 가속화합니다. 캐시된 콘텐츠는 최대 24시간 동안 저장됩니다. 캐시된 데이터에는 프로젝트 수준의 개인 정보 보호가 적용됩니다. API를 사용하여 캐싱 상태를 확인하거나, Google Cloud 프로젝트에서 캐싱을 중지하거나, Google Cloud 프로젝트에서 캐싱을 다시 사용 설정하는 방법을 알아보려면 캐싱을 사용 설정하거나 중지하려면 어떻게 해야 하나요?를 참조하세요. 캐싱을 중지하면 지연 시간이 길어질 수 있습니다.

신뢰할 수 있는 테스터 프로그램 선택 해제

이전에 신뢰할 수 있는 테스터 프로그램 약관에 따라 GA 이전 AI/ML 서비스 개선을 위해 Google의 사용자 데이터 사용 허락을 선택한 경우 신뢰할 수 있는 테스터 프로그램 - 선택 해제 요청 양식을 사용해서 선택 해제할 수 있습니다.

다음 단계