포괄적인 ML 가이드 - AutoML

Google은 인공지능(AI) 연구에 동기를 부여하고 기틀을 잡아주는 원칙에 대해 고심해 왔습니다. 그리고 그러한 고민을 토대로 모든 사용자와 상황에 맞는 책임감 있는 AI 관행 및 제품에 초점을 두고 인간 중심의 접근 방식을 마련하기 위해 노력하고 있습니다. 책임감 있고 포괄적인 AI의 이러한 가치는 AutoML 머신러닝 제품군의 핵심이며 다음과 같은 방식으로 나타납니다.

AutoML은 이전에 머신러닝을 경험한 적이 없어도 사용이 가능한 코드 없는 간편한 사용자 환경을 제공하므로 더욱 다양한 조직과 개인이 AI를 활용할 수 있습니다.

AutoML은 전이 학습 및 Learning to Learn과 같은 알고리즘 기법을 통해 조직이 일반적으로 요구되는 것보다 작은 데이터 세트를 사용하여 커스텀 모델을 빌드할 수 있도록 만들어 진입 문턱을 낮춥니다.

AutoML을 사용하면 의미 있고 문맥상 관련성이 높은 ML 시스템을 쉽게 생성할 수 있습니다. 예를 들어 Google의 일반 모델이 내 분야의 속어나 언어를 캡처하지 못한다면 원하는 언어 특성이 포함된 커스텀 모델을 만들 수 있습니다. 일반 의류 분류 모델이 내 문화권에서 착용하는 의류에 맞지 않다면 더 효과적인 모델을 학습시킬 수 있습니다.

Google은 모든 사람이 머신러닝의 이점을 누릴 수 있게 하겠다는 사명감을 갖고, 우리 삶의 기반이 되고 삶에 영향을 미치는 사회적 범주에 대한 기존의 편견을 줄이는 데 깊은 관심을 가지고 있습니다. Google에서는 이러한 연구 분야를 머신러닝 공정성이라고 합니다. 이 페이지에서는 머신러닝의 공정성에 대한 Google의 현재 생각과 공정성을 기하며 AutoML을 사용하는 방법에 대한 권장사항을 공유합니다.

머신러닝의 공정성이란?

머신러닝의 공정성은 학계, 실무자, 일반 대중 사이에서 연구와 토론이 활발하게 이루어지고 있는 흥미로운 영역입니다. 목표는 알고리즘 시스템이나 알고리즘을 기초로 한 의사 결정 과정에서 인종, 소득, 성적 지향, 종교, 성별 등 역사적으로 차별과 소외의 기준이 되었던 특성이 나타날 경우, 이를 인지하고 이와 관련하여 사람들을 부당하거나 불리하게 대우하지 않는 것입니다.

이러한 알고리즘 문제는 학습 데이터 세트에 삽입된 사회적 편견, ML 시스템 개발 중 이루어진 의사 결정, ML 시스템이 실제로 배포될 때 발생하는 복잡한 피드백 루프 등 다양한 방법으로 나타납니다.

머신러닝에서 공정성을 추구하다 보면 다양한 관점과 목표를 보게 됩니다. 예를 들어 모든 사회 집단에 똑같이 우수한 예측 성능을 제공하도록 ML 분류자를 학습시킬 수 있습니다. 또는 역사적 불평등의 영향에 대한 연구를 바탕으로 앞으로는 불리한 결과를 시정하거나 완화하는 ML 시스템을 설계하는 것을 목표로 할지도 모릅니다. 이렇게 공정성을 추구하는 접근법은 모두 중요하며 서로 연관된 경우가 많습니다.

자세한 내용은 Google의 책임감 있는 AI 관행 및 공정성 관련 권장사항, Google의 머신러닝과 인간의 편견 동영상, 모리츠 하르트 및 솔론 바로카스의 'ML의 공정성 가이드'를 참조하세요.

ML 및 AutoML의 공정성

AutoML에서는 다양한 방식으로 포용과 공정성을 향상시킬 수 있습니다. 앞서 언급했듯이, 현재 이용 중인 머신러닝 모델이 과거 데이터 부족이나 데이터 왜곡으로 인해 문화권 또는 사용자의 요구사항을 완전히 충족하지 못할 경우 더 나은 커스텀 모델을 만들면 됩니다. AutoML로 생성한 모든 커스텀 모델에서 사용 사례와 관련된 모든 카테고리에 똑같이 우수한 예측 성능을 제공하는 데 도움이 되는 데이터를 포함시킴으로써 공정성을 추구할 수 있습니다. 이렇게 공정성을 높이면 ML 시스템과 관련해 다음과 같은 부정적인 결과가 나타날 가능성을 줄일 수 있습니다.

표현적 피해

ML 시스템이 특정 집단에 대한 부정적인 고정 관념을 증폭시키거나 반영할 때 이러한 유형의 피해가 발생합니다. 예를 들어, 이미지 검색결과 또는 자동 텍스트 제안을 생성하는 ML 모델은 불쾌감을 줄 수 있는 이전 사용자 행동(예: 흔한 검색어 또는 댓글)이 학습된 경우가 많습니다. 표현적 피해는 개인 사용자에게 당장의 불쾌감을 줄 뿐만 아니라 많은 사람에게 확산되고 장기적으로 사회에 영향을 미칩니다.

기회 제한

머신러닝 시스템은 개인의 기회, 리소스, 전반적인 삶의 질과 관련된 접근성에 실질적 및 지속적으로 영향을 주는 예측과 결정에 점점 더 많이 사용되고 있습니다.

불공평한 제품 오류

불공정은 기본적인 사용성과 접근성의 문제가 되기도 합니다. 공중 화장실에 설치된 물비누 용기를 예로 들면, 피부색이 어두운 사람이 사용할 경우 손을 인식하지 못하는 오류 발생률이 현저히 높은 것으로 밝혀졌습니다.

AutoML로 커스텀 모델을 빌드하고 ML 시스템에서 사용하는 과정에서 공정성을 높일 수 있는 단계에 대해 알아보겠습니다. 학습 데이터 세트의 편향을 줄이고 커스텀 모델의 성능 차이를 평가하는 방법과 커스텀 모델을 사용할 때 고려할 사항을 중점적으로 살펴볼 예정입니다.

사용 사례의 머신러닝 공정성을 평가하기 위한 첫 번째 단계는 무엇인가요?

제품의 컨텍스트와 사용을 고려하세요.

경우에 따라 공정성은 위에서 설명한 바와 같이 기본적인 사용성과 접근성의 문제가 되기도 합니다.

한편으로 공정성은 데이터가 통계적으로 관련성이 있더라도 민감한 특성을 직접 식별하거나 이러한 특성과 상관 관계가 높은 경우 해당 데이터의 사용을 제한하는 법률 및 규정과 일맥상통하기도 합니다. 민감한 특성을 가진 사람들이 상황에 따라 차별 대우로부터 법적 보호를 받는 경우도 있습니다(예: '보호 대상').

또 다른 경우에는 불공정이 단번에 확연히 드러나지는 않지만 ML 시스템이 실제로 어떻게 사용될지, 시간이 지남에 따라 편향이 어떻게 시스템에 침투하게 될지 등 사회적, 정치적, 윤리적으로 미묘한 차이가 있는 질문을 해야 하는 경우가 있습니다. 가령 AI를 사용하여 자동화된 텍스트 또는 번역을 생성할 때 어떤 유형의 편견이나 고정 관념이 윤리적으로 문제가 될 수 있을지(예: 성별을 직업 유형과 연관시키거나 정치적 견해와 종교를 연관 짓는 것) 고민해야 합니다.

자체 ML 시스템을 빌드할 때 먼저 내 지역과 애플리케이션을 제공할 지역 모두의 차별 관련 규정뿐만 아니라 내 분야의 기존 연구 또는 제품 정보를 검토하여 일반적인 공정성 문제에 대해 알아보세요.

다음 핵심 질문을 생각해 보세요

자문해 볼 가치가 있는 몇 가지 질문을 소개합니다. '예'라고 답한 질문이 하나라도 있는 경우 해당 사용 사례에 잠재적인 편향 관련 문제가 있는지 보다 철저히 분석하는 것이 좋습니다.

사용 사례 또는 제품이 생체 인식, 인종, 피부색, 종교, 성적 지향, 사회 경제적 지위, 소득, 국가, 위치, 건강, 언어, 방언과 같은 데이터를 구체적으로 사용하나요?

사용 사례 또는 제품에서 활용하는 데이터가 위에 나열된 개인 특성과 상관 관계가 높은가요?(예: 우편번호 또는 기타 지리정보 데이터는 사회 경제적 지위 또는 소득과 상관 관계가 있는 경우가 많으며, 이미지/동영상 데이터는 인종, 성별, 연령에 관한 정보를 제공할 수 있음)

사용 사례나 제품이 개인의 경제적 기회나 기타 인생의 중요한 기회에 부정적인 영향을 미칠 수 있나요?

이번에는 AutoML 워크플로의 여러 단계를 진행하는 동안 공정성을 높이기 위해 취할 수 있는 방법을 살펴보겠습니다.

데이터 가이드라인

AutoML의 첫 번째 단계는 학습 데이터를 한데 모으는 것입니다. 학습 데이터가 완벽하게 편향되지 않을 수는 없지만 잠재적 데이터 편향 요인을 신중하게 고려하고 조치를 취하면 더 포괄적이고 좋은 제품을 빌드할 가능성이 크게 높아집니다.

데이터에 존재할 수 있는 편향의 유형

편향된 데이터 분포

편향된 데이터는 학습 데이터가 제품의 대상 고객을 정확히 나타내지 않는 경우에 발생합니다. 데이터가 어떻게 수집되었는지 신중히 생각해 보세요. 예를 들어, 사용자가 제출한 사진의 데이터 세트를 이미지 선명도로 필터링하면 고가의 카메라를 보유한 사용자의 사진이 너무 많이 포함되어 데이터가 왜곡될 수 있습니다. 일반적으로 제품을 제공할 사용자 그룹과 관련하여 데이터 분포도를 고려하세요. 관련 그룹별로 충분한 데이터가 있나요? 실제 환경에서는 미묘한 시스템적 요인으로 인해 데이터 세트가 사용 사례의 전체적인 다양성을 포착하지 못하는 경우가 많습니다.

이 편향을 줄이려면 여러 출처에서 데이터를 수집하거나 데이터를 신중하게 필터링하여 지나치게 많이 대변된 그룹에서 가장 유용한 예시만 추릴 수 있습니다.

편향된 데이터 표현

모든 인구통계학적 그룹에 대해 적절한 양의 데이터를 보유하고 있지만 일부 그룹은 다른 그룹보다 덜 긍정적으로 표현될 수 있습니다. 배우에 관한 마이크로블로그 게시물의 데이터 세트를 생각해 보세요. 남성과 여성 출연자를 50 대 50의 비율로 모으는 것까지는 좋았는데 콘텐츠를 자세히 살펴보니 여성 출연자에 관한 게시물이 남성 출연자보다 더 부정적인 경향을 나타낼 수 있습니다. 그렇다면 모델은 일종의 성적 편향을 학습하게 됩니다.

일부 부문의 경우 그룹 간의 다른 표현이 문제가 되지 않을 수 있습니다. 예를 들어 의학 분류에서는 보다 정확한 진단을 위해 미묘한 인구통계학적 차이를 포착하는 것이 중요합니다. 그러나 다른 분야에서는 편향된 부정적 연관성이 재정적 또는 교육적 영향을 일으키고, 경제적 기회를 제한하며, 정서적/정신적 괴로움을 유발할 수 있습니다.

가능하다면 데이터에 이러한 부정적인 연관성이 있는지 직접 검토하고, 이러한 연관성을 없애는 것이 옳다고 생각되면 규칙 기반 필터를 적용하여 부정적인 표현을 삭제하세요.

프록시 변수

보호되는 인구통계 정보를 인코딩하는 변수를 없애면 모델에 편향이 존재하지 않을 것이라고 생각하기 쉽습니다. 하지만 위치, 교육 수준, 소득 등 인구통계와 높은 상관 관계를 보이는 변수가 많습니다. 데이터의 인구통계 정보를 이용할 수 있다면 해당 정보를 바탕으로 결과를 분석하여 모델에서 서로 다른 집단을 동등하게 취급하는지 확인하는 것이 좋습니다.

편향된 라벨

AutoML의 학습 데이터를 만들 때는 데이터에 관련 카테고리로 라벨을 지정하는 것이 필수입니다. 이 라벨의 편향을 최소화하는 것은 데이터의 대표성을 보장하는 것만큼 중요합니다. 라벨을 누가 지정했는지 파악하세요. 라벨 지정자들은 어디에 있나요? 이들이 구사하는 모국어는 무엇인가요? 연령과 성별은 어떻게 되나요? 평가자 풀을 같은 그룹으로만 구성하면 은연중에 부정확하거나 왜곡된 라벨을 생성할 수 있습니다.

라벨 지정자가 해당 분야의 전문가인지 확인하거나 관련 측면에 대한 교육 자료를 제공하고, 라벨 품질을 무작위로 확인하는 2차 검토 절차를 마련하는 것이 이상적입니다. 라벨을 지정하기 어려운 데이터일수록 라벨 지정자의 업무 이해도를 높이기 위해 노력해야 합니다. 경계 상자를 그리고 텍스트 항목에 라벨을 지정하는 작업은 사용자에 따라 직관적인 처리가 어려울 수도 있으므로 모든 작업을 분석하여 일반적인 질문을 예측해 보는 것이 좋습니다. 의사 결정 과정에서 주관성보다는 객관성에 맞게 최적화하는 것을 목표로 하세요. 라벨 지정자에게 '무의식적 편향'에 대해 교육하는 방법 또한 다양성 목표와 관련하여 라벨의 품질을 향상하는 데 도움이 되는 것으로 나타났습니다. 마지막으로, 라벨 지정자가 문제를 스스로 보고하고 지침에 대한 확인 질문을 하도록 허용하면 라벨링 프로세스의 편향을 최소화할 수 있습니다.

팁: AutoML에서 수동 라벨링 서비스를 사용 중인 경우 지침을 작성할 때 다음 가이드라인을 고려하세요.

라벨링 지침 및 교육 자료는 사용 사례에 맞는 구체적인 정보, 최종 사용자에 대한 설명, 라벨 지정자가 사용자층의 다양성을 염두에 두는 데 도움이 되는 예시를 제공해야 합니다.

평가자로부터 받은 의견을 검토하여 혼동이 있는 부분을 파악하고, 반환된 데이터 라벨의 무작위 검사, 승인, 거부를 수행할 때 민감한 카테고리를 면밀히 검토합니다.

데이터 세트가 준비되면 테스트/학습 분할 지정 고려하기

Vertex AI 및 Translation AutoML 초보자용 가이드에서 데이터 세트가 머신러닝 프로세스에서 어떻게 분할되는지 설명했습니다. 가이드에서 언급했듯이, AutoML에서는 Google이 자동으로 데이터 세트를 분할하도록 하거나 사용자가 직접 테스트/학습 분할을 지정할 수 있습니다. 사용 사례에 맞다면 직접 분할해 보는 것도 좋습니다.

데이터를 수동으로 분할할 때는 지금까지 살펴본 지침을 고려하여 다양하고 포괄적인 테스트 세트를 만드세요. 학습에 가장 포괄적인 데이터를 모두 사용하면 제대로 대표되지 않은 하위 그룹에 대해 모델 성능을 지나치게 긍정적으로 평가하게 될 수 있으며, 이 경우 테스트에 실패하게 됩니다. 특정 하위 그룹의 데이터가 부족한 경우, 학습/테스트를 직접 분할하여 데이터가 해당 학습 및 테스트 세트 간에 적절하게 분산되도록 합니다. AutoML Tables와 같은 일부 AutoML 제품에서는 희소 데이터 유형에 대한 커스텀 가중치를 지정하여 학습 프로세스에서 중요성을 더 높이 부여할 수도 있습니다.

학습 데이터 검토

모든 카테고리에 데이터 항목이 권장된 수만큼 있나요? 카테고리 및 이미지/동영상/텍스트가 사용자층의 다양성을 나타내나요? 클래스 간에 분포가 거의 동일한가요? 학습 데이터(이미지, 동영상, 텍스트, 문장 쌍)가 모델에서 예측할 데이터 유형과 일치하나요?

평가: 모델의 성능 평가

모델의 공정성을 평가하려면 특정 사용 사례, 그리고 모델이 잘못되었을 때 최종 사용자에게 미칠 수 있는 영향을 깊이 생각해야 합니다. 즉, 다양한 오류가 다양한 사용자 그룹에 미치는 영향을 이해해야 합니다. 그래서 공정성과 관련한 잠재적 문제에 대해 생각해 보는 것이 중요합니다. 예를 들어, 모델 오류가 모든 사용자에게 동등하게 영향을 미치는지, 아니면 특정 사용자 그룹에 더 해로운지 생각해 봐야 합니다.

이러한 문제를 모두 고려하고 나면 최적화하기에 적합한 성능 측정항목(예: 정밀도 대 재현율)을 결정하고 성능 측정항목 간의 균형을 평가하며 오류의 예를 조사해 편향이 존재하는지 확인할 수 있습니다.

사용 사례: 여권 사진 평가

여권 사진을 편집하고 인쇄하도록 도와주는 도구를 만든다고 가정해 보겠습니다. 각 국가마다 사진 크기, 구도, 허용되는 배경색, 허용되는 표정, 사진에 허용되거나 허용되지 않는 기타 사항에 대한 규칙이 정해져 있습니다. 사용자가 여권 신청서를 제출하기 전에 사진이 허용되지 않을 수 있다는 경고 메시지를 표시하려고 합니다.

거짓양성:

시스템에서 사진을 승인 불가라고 표시했는데 실제로 해당 국가의 여권 당국에서 승인할 수 있는 사진이라면 거짓양성이라고 볼 수 있습니다. 재촬영한 사진은 승인 가능성이 더 높을 것이므로 큰 문제가 되지 않습니다.

거짓음성:

사용할 수 없는 사진을 감지하지 못한 경우 거짓음성으로 볼 수 있습니다. 고객이 기껏 비용을 들여서 사진을 인쇄하고 신청서를 제출했는데 거부된 것입니다. 최악의 경우, 여권을 제때 발급받지 못해 예정된 여행을 갈 수 없게 됩니다.

공정성 고려사항: 이 경우 모델이 인종 또는 성별 등을 기준으로 특정 그룹의 사람들에게 더 자주 거짓음성을 생성하는지 확인하는 것이 중요합니다. AutoML에서는 거짓음성을 하나씩 살펴보면서 문제가 있는 패턴이 있는지 확인하면 됩니다.

최적화 대상: 이 경우에는 재현율에 맞게 최적화하는 것이 좋습니다. 이는 거짓음성의 개수를 줄이는 것을 목표로 하며, 이 시나리오에서 거짓음성은 더 많은 문제를 야기하는 오류입니다.

사용 사례: 아동용 콘텐츠 필터

아동용 독서 앱을 빌드 중인데 연령에 맞는 도서로 이루어진 디지털 라이브러리를 포함시키려고 한다고 가정하겠습니다. 각 도서의 제목과 설명을 기준으로 성인용 도서와 아동용 도서의 데이터베이스에서 아동용 도서를 선택하는 텍스트 분류자를 설계하려고 합니다.

거짓양성:

아동용 도서로 잘못 분류된 성인용 도서가 아동의 독서 앱에 추가되어 아동이 연령에 맞지 않는 콘텐츠에 노출될 수 있는 경우를 거짓양성으로 볼 수 있습니다. 보호자는 매우 당황하여 앱을 삭제해 버릴 것입니다.

거짓음성:

아동용 도서가 성인용 도서로 잘못 분류되어 인앱 라이브러리에서 제외되는 경우를 거짓음성으로 볼 수 있습니다. 거짓음성은 책에 따라서 사소한 불편을 주거나 더 큰 문제가 될 수 있습니다. 예를 들어 잘 알려지지 않은 비인기 시리즈의 속편이 제외되는 경우에는 사소한 불편을 느낄 수도 있고, 아동용 도서에 포함된 콘텐츠가 명백히 교육적이거나 사회적인 가치를 가진 것으로 널리 인정받고 있지만 다소 논란의 여지는 있는 경우에는 더 큰 문제가 될 수 있습니다.

공정성 고려사항: 언뜻 보기에는 단순한 사례처럼 보일 수 있지만 사용 사례의 공정성을 평가하는 것이 얼마나 복잡한지를 잘 보여주는 예입니다. 한편으로는 어린이가 연령에 맞지 않는 콘텐츠에 노출될 가능성을 최소화하기 위해 거짓양성을 피해야 합니다. 다른 한편으로는 거짓음성도 유해할 수 있습니다. 예를 들어 텍스트 분류자가 LGBTQ를 주제로 한 아동용 도서(예: 부모의 성별이 동일한 어린이에 관한 이야기)를 부적절한 콘텐츠로 분류한다면 문제가 됩니다. 특정 문화나 지역에 관한 도서가 다른 문화나 지역의 도서보다 더 자주 제외되는 경우도 마찬가지입니다.

최적화 대상: 이 경우에는 정밀도에 맞게 최적화하는 것이 좋습니다. 앱은 전 세계 모든 아동 도서 중 일부만 표시할 것이므로 사용자에게 추천할 도서를 선정할 때는 조금 까다로워도 괜찮습니다. 도서를 표시하는 방법에 관한 UX 솔루션을 보호자의 입력을 요구하는 쪽으로 설계해 보는 것도 좋습니다. 예를 들어 부모에게 자녀와 함께 책을 읽도록 추천하는 기능을 추가하여 책과 관련된 쟁점에 대해 이야기를 나누도록 할 수 있습니다.

사용 사례: 설문조사 배포

설문조사 배포를 위해 응답 가능성이 가장 높은 참가자를 선택하는 모델을 구축한다고 가정하겠습니다. 참가자 선택 시 소득을 고려하면 안 되지만 데이터에 '소득' 열이 포함되어 있습니다. 그래서 AutoML Tables를 통해 학습에서 '소득' 열을 삭제합니다. 하지만 데이터를 소득 기준으로 나누어 결과에 영향을 미치지 않았는지 확인한 결과, 모델이 소득 수준을 고르게 선택하지 않았다는 사실을 발견했습니다. 왜 그런 것일까요?

프록시 변수: 고려 대상에서 '소득' 열을 삭제했더라도 데이터 세트의 데이터에 개인 소득에 대한 단서를 제공하는 다른 여러 변수가 포함되어 있을 수 있습니다. 우편번호, 교육 수준 또는 연령이 포함되어 있나요? 이러한 변수는 소득과 상관 관계가 있을 수 있습니다. 모델에서 모든 인구통계 부문이 균등하게 분할된 샘플을 선택하도록 하려면 AutoML Tables의 '분석' 탭에서 상관 관계 유무를 확인하세요. 또한 프로덕션 환경에서 사용하기에 앞서 모델에 편향이 존재하는지 신중하게 평가해야 합니다.

예측: 모델 스모크 테스트

AutoML에서 머신러닝 측정항목을 사용해 모델의 공정성 성능을 평가한 후 예측 탭에서 새 콘텐츠로 커스텀 모델을 시험해 보면 됩니다. 이때 다음 공정성 권장사항을 고려하세요.

문제 영역과 불공정성 및 편향 가능성에 대해 신중히 생각하세요. 자신의 분야는 자기가 가장 잘 압니다. 이미지나 동영상 분류자가 콘텐츠 속 사람의 인종이나 성별에 영향을 받을 가능성이 있나요? 텍스트 분류자가 인구통계학적 그룹을 지칭하는 용어에 민감할 가능성이 있나요? 번역기를 빌드할 때 사용하는 언어 조합에 두드러지는 문화적 차이가 있거나, 근본적인 사회적 편견을 드러낼 수 있는 부적절한 대명사 조합이 있나요? 프로덕션 환경에서 사용자에게 악영향을 미칠 수 있는 사례를 생각해 내고 예측 페이지 또는 단위 테스트로 테스트하세요.

명확한 예측이 없는 경우(거짓음성) 불쾌하거나 불공정한 예측만큼이나 사용자에게 부정적인 영향을 미칠 수 있음을 기억하세요. 모든 최종 사용자를 대상으로 구축하려는 환경에 부합하는 결과가 아니라면 관련 클래스에 데이터를 추가하여 데이터 세트의 편향을 제거하거나 발견한 모든 문제를 수정하는 방식으로 모델을 사용하면 됩니다.

사용: 프로덕션 환경의 모델

간단한 수정을 구현하세요. 모델이 완벽하지 않을 경우 새로운 데이터로 재학습시키는 것이 유일한 해답은 아닙니다. 때로는 간단한 사전 또는 사후 처리 단계로 특정 단어나 이미지 유형을 삭제하는 것이 효과적인 해결 방법이 될 수 있습니다.

다양한 오류 유형이 사용자에게 미치는 영향에 대한 이해를 바탕으로 정밀도와 재현율 간에 '공정한' 균형을 찾을 수 있도록 모델의 점수 임계값을 조정하세요.

모델이 빌드되어 예측을 제공하면 데이터 분포가 시간이 지남에 따라 미묘하게 변경될 수 있으며 모델에 더 이상 해당 분야의 관련 컨텍스트가 반영되지 않을 수 있습니다. 시간이 지남에 따라 모델 성능을 모니터링하여 올바르게 작동하는지 확인하고, 사용자로부터 의견을 수집하여 새 데이터 및 재학습이 필요한 잠재적 문제를 파악하세요.

때로는 생각하지도 않았던 특수한 상황이 나타나기도 합니다. 모델이 오작동해 사용자와 비즈니스에 부정적인 영향을 미칠 우려가 있는 경우 이슈 대응 계획을 수립하세요.

의견 보내기

이 문서는 수정될 수 있으며 새로운 정보가 있으면 업데이트될 예정입니다. 여기에 나온 내용에 대한 의견이 있으면 언제든 보내주세요. 커스텀 모델을 직접 제작할 때 효과적이었던 방법과 그렇지 않은 방법에 대해 이메일(inclusive-ml-feedback@google.com)로 알려주세요. 언제든지 여러분의 의견을 환영합니다.