책임감 있는 AI

Vertex AI Agent Builder를 사용하면 개발자가 Google의 파운데이션 모델, 검색 전문 기술, 대화형 AI 기술을 활용하여 Vertex AI Agents 및 Vertex AI Search를 통해 엔터프라이즈급 생성형 AI 애플리케이션을 만들 수 있습니다. 아직은 초기 단계의 기술이기 때문에 기능과 용도가 발전하는 과정에서 오남용의 가능성 또는 의도치 않거나 예상치 못한 결과로 이어질 가능성이 있습니다. 예를 들어 Vertex AI Agent Builder는 불쾌감을 주거나 무신경하거나 사실과 다른 텍스트를 포함한 예상치 못한 출력을 생성할 수 있습니다.

이러한 위험과 복잡성을 고려하여 Vertex AI Agent Builder는 Google의 AI 원칙을 염두에 두고 설계되었습니다. 그러나 개발자가 이를 이해하고 안전하고 책임감 있는 배포를 위해 모델을 테스트하는 것이 중요합니다. 개발자 지원을 위해 Vertex AI Agent Builder에는 사용 사례 내에서 고객이 잠재적으로 유해한 출력을 차단할 수 있도록 안전 필터가 내장되어 있습니다. 자세한 내용은 Vertex AI Search의 안전 설정을 참조하세요.

Vertex AI Agent Builder가 고객의 고유한 사용 사례 및 컨텍스트에 통합된 경우 추가적인 책임감 있는 AI 고려사항과 모델 제한사항을 고려해야 할 수 있습니다. 공정성, 해석 가능성, 개인 정보 보호 및 보안 권장 지침을 활용하는 것이 좋습니다.

Vertex AI Search에서는 선정적인 웹사이트 검색 결과를 필터링하는 세이프서치 필터를 제공합니다. 선정적인 검색 결과에는 포르노, 폭력, 유혈 장면과 같은 콘텐츠가 포함될 수 있습니다. 비공개 콘텐츠에는 세이프서치 필터링을 사용할 수 없습니다.

요약(웹사이트 검색 및 비공개 콘텐츠 모두에 해당)에는 경멸적, 선정적, 악의적이거나 폭력적인 정보와 같은 대답이 필터링됩니다. 또한 요약 응답에는 '유해한 카테고리'와 민감한 것으로 간주될 수 있는 주제를 포함하는 안전 속성이 포함됩니다.

웹사이트 검색

세이프서치는 웹사이트와 같이 Vertex AI Search에서 색인을 생성한 공개 콘텐츠에 적용할 수 있습니다. 세이프서치를 사용하면 Vertex AI Search를 통해 고객의 Vertex AI Search 결과에서 이미지, 동영상, 웹사이트 전반의 모든 쿼리에 대해 선정적인 콘텐츠를 필터링할 수 있습니다. 이러한 필터가 100% 정확하지는 않지만 필터링 기능을 지속적으로 평가하고 업데이트하고 있습니다.

특정 컨텍스트 및 사용 사례에서 고객은 Vertex AI Search에서 포괄적인 통계 및 결과를 수집하기 위해 선정적인 콘텐츠가 포함되더라도 다양한 정보에 액세스해야 할 수 있습니다. 고객은 safe_search를 'true' 또는 'false'로 설정하여 API를 사용하여 안전 필터를 사용 설정하거나 사용 중지할 수 있습니다.

Vertex AI Search에서 세이프서치를 사용 설정하려면 다음 API 호출을 사용하세요.

curl -X POST\
 -H "Authorization: Bearer $(gcloud auth application-default print-access-token)"
 -H "Content-Type: application/json"\
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/servingConfigs/default_config:search"
     -d '{
      "query": { "input": "FREE_TEXT"},
  "serving_config": "SERVING_CONFIG_ID",
  "safe_search": "true",
}'

Vertex AI Search에서 질문으로 검색에 대해 자녀 보호 모드를 사용 설정하려면 다음 API 호출을 사용하세요.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/conversations/CONVERSATION_ID:converse" \
-d '{
  "query": { "input": "FREE_TEXT"},
  "serving_config": "SERVING_CONFIG_ID",
  "safe_search": "true",
}'

safe_search 설정은 검색 결과뿐만 아니라 요약(검색 결과를 기반으로 함)과 같은 Vertex AI Search 출력에도 적용됩니다.

요약과 같은 Vertex AI Search 출력은 safe_search가 사용 중지된 경우에도 잠재적으로 유해한 콘텐츠를 필터링하는 안전 속성 목록에 대해 평가됩니다.

비공개 콘텐츠 및 웹사이트 검색을 위한 요약

요약과 같은 Vertex AI Search 출력은 웹사이트 검색의 safe_search가 사용 중지된 경우에도 경멸적이거나 성적으로 노골적이거나 유해하거나 폭력적인 정보와 같이 잠재적으로 유해한 콘텐츠를 필터링하는 안전 속성 목록에 대해 평가됩니다. 또한 Vertex AI Search API 응답에서 safetyAttributes를 사용하여 '유해한 카테고리'와 민감하다고 간주될 수 있는 주제가 포함된 응답을 필터링할 수 있습니다.

대체 응답

요약 모델이 빈 문자열 또는 일반적인 응답으로 요청에 응답하는 경우 입력 또는 출력으로 인해 안전 필터가 트리거되었음을 의미합니다. Vertex AI Search API 응답에서 정책 위반 가능성이 감지되면 SummarySkippedReasonBLOCKED_DUE_TO_POTENTIAL_POLICY_VIOLATION으로 설정됩니다.

안전 필터가 부적절하게 트리거되고 있다고 생각되면 Google Cloud 콘솔을 통해 이 문제를 신고하세요.

Vertex AI 에이전트의 안전 설정

채팅은 사용자 쿼리와 상담사 답변 모두에 다양한 안전 필터링 메커니즘을 사용합니다. 이 필터링에는 경멸적이거나, 성적으로 노골적이거나, 유해하거나, 폭력적인 정보와 같은 카테고리가 포함됩니다. 이렇게 하면 채팅이 안전하지 않은 쿼리에 적절하게 응답하고 답변이 일반적으로 안전합니다. Dialogflow 콘솔에서 원치 않는 콘텐츠에 대한 추가 필터를 지정하고 해당 필터링이 적용될 때 대체 응답을 정의할 수도 있습니다. 안전 필터링이 부적절하게 트리거되고 있다고 생각되면 Google Cloud 콘솔을 통해 이 문제를 신고하세요.

책임감 있는 AI 권장사항

Vertex AI 에이전트를 활용할 때는 다음과 같은 책임감 있는 AI 권장사항을 따르는 것이 좋습니다.

  • 최종 사용자에게 봇과 상호작용하고 있다는 사실을 알립니다.

  • 해당하는 경우 사용자에게 응답이 녹음되는지 여부와 녹음 시점을 알려야 합니다.

  • 사용자에게 유해한 대답을 신고할 수 있는 방법을 제공합니다.

제한사항

Vertex AI 상담사는 경멸적이거나, 성적으로 노골적이거나, 유해하거나, 폭력적인 정보와 같은 카테고리의 안전 필터를 비롯한 여러 가지 방법으로 책임을 통합합니다. 하지만 위에 설명한 대로 이러한 안전 필터는 100% 정확하지는 않습니다. Google은 필터링 기능을 지속적으로 평가하고 업데이트하는 과정에서, 고객이 모델 의견을 제공하고, 사회적 이익을 창출하는 사용 사례를 모색하며, 안전이 중요한 상황에서는 Vertex AI 에이전트를 사용하지 않기를 권장합니다.

Vertex AI Agents는 주제 전문가에게 정보를 제공할 수 있는 여러 도구 중 하나이며, 사람의 감독 없이 의사결정 맥락에서 사용하도록 의도되지 않았습니다. 안전 필터가 사용 설정되지 않은 구조화되지 않은 비공개 데이터를 통합할 때는 사용하기 전에 모델 평가 및 사람 검증의 역할을 확대하는 것이 좋습니다.

추가 리소스