Guía para el AA inclusivo: AutoML

En Google, analizamos los principios que motivan y dan forma a nuestro trabajo en inteligencia artificial (IA). Estamos comprometidos con un enfoque centrado en las personas que pone en primer plano las prácticas de IA responsables y los productos que funcionan para todas las personas y contextos. Estos valores de inclusión y responsabilidad en la IA son centrales en el conjunto de productos de aprendizaje automático de AutoML y se ponen de manifiesto de las siguientes maneras.

AutoML permite que más tipos de organizaciones y personas puedan aprovechar la IA, ya que ofrece una experiencia del usuario sin dificultades ni código, que no requiere experiencia previa en aprendizaje automático.

Con técnicas de algoritmos, como el aprendizaje por transferencia y “Learning to Learn”, AutoML reduce las exigencias de entrada, ya que permite que las organizaciones creen modelos personalizados con conjuntos de datos más pequeños que los que se precisan en general.

AutoML te da la capacidad de producir con facilidad sistemas de AA significativos y relevantes para el contexto. Por ejemplo, si ves que nuestro modelo genérico no captura el lenguaje coloquial o el vocabulario de tu área, puedes crear un modelo personalizado que incluya las características lingüísticas que necesitas. Si te parece que los modelos genéricos de clasificación de indumentaria no funcionan bien con la ropa que usa tu comunidad, puedes entrenar un modelo que se adapte mejor.

Como parte de nuestra misión de ofrecer los beneficios del aprendizaje automático a todo el mundo, nos preocupamos mucho por la reducción de los sesgos preexistentes relacionados con las categorías sociales que estructuran y afectan nuestra vida. En Google, esta área de investigación se llama equidad del aprendizaje automático. En esta página, compartimos nuestro pensamiento actual sobre este tema y nuestras recomendaciones sobre cómo aplicar AutoML a las conversaciones en relación con la equidad del aprendizaje automático.

¿Qué es la equidad en el aprendizaje automático?

La equidad en el aprendizaje automático es una interesante y dinámica área de investigación y debate entre los académicos, los profesionales y el público en general. El objetivo es comprender y evitar un tratamiento injusto o prejuicioso de las personas en relación con sus ingresos, su origen étnico, orientación sexual, religión, género y otras características asociadas históricamente con la discriminación y la exclusión en el lugar y el momento en el que se manifiesten en los sistemas algorítmicos o en la toma de decisiones basada en algoritmos.

Los desafíos algorítmicos surgen de diversas formas; por ejemplo, en el sesgo social incorporado en los conjuntos de datos de entrenamiento, en las decisiones que se toman durante el desarrollo de un sistema de AA o en los bucles de retroalimentación compleja que tienen lugar cuando se implementa un sistema de AA en el mundo real.

En la búsqueda de la equidad en el aprendizaje automático, observamos una variedad de perspectivas y objetivos válidos. Por ejemplo, podríamos entrenar clasificadores de AA para predecir de manera equitativa en todos los grupos sociales. O bien, gracias a la información de las investigaciones sobre el impacto de las desigualdades históricas, podríamos aspirar a diseñar sistemas de AA que intenten corregir o mitigar los resultados adversos en el futuro. Estos y otros enfoques son importantes y muchas veces están interrelacionados.

Para obtener más información, consulta las prácticas de IA responsables de Google y las prácticas de equidad recomendadas; el video de Google sobre el aprendizaje automático y el sesgo humano, y el instructivo sobre equidad en el AA de Moritz Hardt y Solon Barocas.

Equidad en el AA y AutoML

En AutoML, tenemos la oportunidad de promover la inclusión y la equidad de diferentes maneras. Como ya mencionamos, si los modelos de aprendizaje automático a los que puedes acceder en la actualidad no abordan por completo las necesidades de tu comunidad o de tus usuarios por ausencias históricas o tergiversación de los datos, puedes crear modelos personalizados que se ajusten mejor. En cualquier modelo personalizado creado con AutoML, puedes aspirar a lograr objetivos de equidad si incluyes datos que ayuden a que el modelo prediga con la misma certeza en todas las categorías relevantes de tu caso práctico. Estas acciones relacionadas con la equidad pueden ayudarte a mitigar el riesgo de generar los tipos de consecuencias negativas que se mencionan a continuación y que están asociados con algunos sistemas de AA.

Perjuicio en la representación

Este tipo de perjuicio se produce cuando un sistema de AA amplifica o refleja estereotipos negativos sobre grupos determinados. Por ejemplo, los modelos de AA que generan resultados de búsqueda de imágenes o sugerencias de texto automatizadas, a menudo, se entrenan según el comportamiento previo de los usuarios (p. ej., los términos comunes de búsqueda o sus comentarios). Esto puede producir resultados ofensivos. Además de ofender a usuarios particulares de forma inmediata, este tipo de perjuicio en la representación también tiene efectos sociales difusos y a largo plazo en grandes grupos de personas.

Negación de oportunidades

Los sistemas de aprendizaje automático se usan cada vez más para hacer predicciones y tomar decisiones que tienen consecuencias en la vida real y un impacto perdurable en el acceso de las personas a las oportunidades y los recursos, y en su calidad de vida en general.

Errores desproporcionados en los productos

En algunos casos, la falta de equidad es una cuestión de usabilidad y acceso básicos. Por ejemplo, algunos dispensadores de jabón usados en baños públicos mostraron una tasa de fracaso desproporcionadamente alta para individuos con tonos de piel más oscura.

Ahora, abordemos los pasos que puedes seguir para incentivar la equidad mientras compilas modelos personalizados en AutoML y los usas en tus sistemas de AA. Nos enfocaremos en la reducción del sesgo en los conjuntos de datos de entrenamiento, en la evaluación de tus modelos personalizados en busca de desigualdades en el rendimiento y en otros aspectos para tener en cuenta cuando usas tu modelo personalizado.

¿Cuáles son los primeros pasos para evaluar tu caso práctico en cuanto a la equidad en el aprendizaje automático?

Ten en cuenta el contexto y el uso de tu producto.

En algunos casos, como se describe arriba, la equidad es una cuestión de usabilidad y acceso básicos.

En otros casos, la equidad se entrecruza con las leyes y reglamentaciones que restringen el uso de los datos que identifican de manera directa algunas características sensibles, o se relacionan en gran medida con ellas, incluso si esos datos son relevantes para las estadísticas. Las personas con determinadas características de este tipo también podrían estar protegidas por la ley contra la discriminación en algunos contextos (p. ej., “clases protegidas”).

Por otro lado, hay casos en los que la injusticia no es evidente a simple vista, sino que es necesario hacerse preguntas matizadas de índole social, política o ética sobre cómo tu sistema de AA puede llevarse a la práctica o cómo puede permitir que el sesgo se manifieste con el tiempo. Por ejemplo, si usas IA para generar texto o traducciones automatizados, es importante considerar qué tipos de sesgos o estereotipos pueden ser problemáticos desde el punto de vista ético (p. ej.: la asociación del género con los tipos de trabajo o la religión con las opiniones políticas).

Cuando empieces a compilar tu sistema de AA, revisa las regulaciones relacionadas con la discriminación en tu región y en las ubicaciones en las que tu aplicación estará disponible. Además, consulta las investigaciones existentes o la información de productos en tu dominio para conocer mejor los problemas comunes asociados con la equidad.

Ten en cuenta las siguientes preguntas clave

A continuación, se incluyen más preguntas clave que vale la pena hacerse. Si tu respuesta a cualquiera de ellas es “sí”, quizás debas realizar un análisis más detallado de tu caso práctico para encontrar problemas potenciales relacionados con el sesgo.

¿Tu caso práctico o producto usa específicamente algunos de los siguientes datos: raza, color de la piel, datos biométricos, religión, orientación sexual, estado socioeconómico, ingresos, país, ubicación, salud, idioma o dialecto?

¿Tu caso práctico o tu producto usan datos que pueden estar relacionados con cualquiera de las características personales mencionadas con anterioridad (por ejemplo, el código postal y otros datos geoespaciales están relacionados, por lo general, con el estado socioeconómico o los ingresos; de manera similar, los datos de imágenes y videos pueden revelar información sobre el origen étnico, el género y la edad)?

¿Tu caso práctico o producto podría tener un impacto negativo en las oportunidades económicas o de otro tipo que sean importantes para la vida de las personas?

Observemos de qué formas puedes incentivar la equidad en el aprendizaje automático mientras procedes con los pasos del flujo de trabajo de AutoML.

Lineamientos de los datos

Comencemos con el primer paso en AutoML: recopilar tus datos de entrenamiento. Si bien ningún conjunto de datos de entrenamiento será “imparcial” por completo, puedes mejorar en gran medida tus posibilidades de crear un producto mejor y más inclusivo si evalúas con cuidado las posibles fuentes de sesgo en tus datos y tomas medidas para solucionarlas.

¿Qué tipo de sesgos puede haber en los datos?

Distribución sesgada de los datos

Esto sucede cuando tus datos de entrenamiento no representan con fidelidad la población a la que busca llegar tu producto. Piensa detenidamente cómo se recopilaron tus datos. Por ejemplo, si tienes un conjunto de datos de fotos que enviaron los usuarios y lo filtras por la claridad de las imágenes, esto podría sesgar los datos, ya que habría una mayor representación de los usuarios que tienen cámaras costosas. En general, analiza cómo están distribuidos tus datos con respecto a los grupos de usuarios a los que llegará tu producto. ¿Tienes datos suficientes de cada grupo relevante? A menudo, hay razones sutiles y sistémicas por las que tu conjunto de datos no captura la diversidad total de tu caso práctico en el mundo real.

Con el fin de mitigar este riesgo, podrías intentar adquirir datos de diversas fuentes o filtrarlos con cuidado para asegurarte de tomar solo los ejemplos más útiles de los grupos sobrerrepresentados.

Representación sesgada de los datos

Es posible que tengas una cantidad adecuada de datos de cada grupo demográfico que se te ocurra, pero que algunos estén representados de una forma menos positiva que otros. Piensa en un conjunto de datos de publicaciones de microblog sobre actores. Podría ser que hayas hecho un buen trabajo en la recopilación de un grupo de actores con un 50% de hombres y un 50% de mujeres, pero cuando analizas el contenido en profundidad, notas que las publicaciones sobre las actrices tienden a ser más negativas que las publicaciones sobre los actores. Esto podría tener como resultado que tu modelo aprenda algún tipo de sesgo de género.

Para algunas aplicaciones, las representaciones diferentes entre grupos pueden no ser un problema. En la clasificación médica, por ejemplo, es importante capturar las diferencias demográficas sutiles para hacer diagnósticos más precisos. Pero en otras aplicaciones, las asociaciones con sesgo negativo pueden tener repercusiones financieras o educativas, limitar las oportunidades económicas y causar angustia emocional y mental.

Considera revisar tus datos de forma manual en busca de estas asociaciones negativas si fuera viable o aplicar filtros basados en reglas para deshacerte de las representaciones negativas si crees que es adecuado en tu aplicación.

Variables del proxy

Es fácil pensar que una vez que quitas las variables que codifican la información demográfica protegida, tu modelo está libre de sesgo. Pero muchas variables están muy relacionadas con los datos demográficos, incluidos la ubicación, el nivel de educación y los ingresos, para nombrar algunos. Si tienes acceso a información demográfica sobre tus datos, siempre es una buena idea analizar los resultados en función de esa información para asegurarte de que el modelo trate con equidad a grupos diferentes.

Etiquetas sesgadas

Un paso esencial en la creación de datos de entrenamiento para AutoML es el etiquetado de tus datos en categorías relevantes. Minimizar el sesgo en estas etiquetas es tan importante como asegurarte de que tus datos sean representativos. ¿Conoces a las personas que asignan las etiquetas? ¿Dónde están ubicadas? ¿Cuál es su lengua materna? ¿Qué edad tienen y cuál es su género? Los grupos de evaluadores homogéneos pueden producir etiquetas incorrectas o sesgadas de formas que no resulten evidentes de inmediato.

Idealmente, asegúrate de que las personas que asignan las etiquetas sean expertos en tu área o dales instrucciones para capacitarlos en aspectos relevantes. También, deberías llevar a cabo un proceso de revisión secundario para verificar de forma aleatoria la calidad de las etiquetas. Cuanto más complicado sea etiquetar los datos, más duro deberás trabajar para asegurarte de que las personas que asignan las etiquetas entienden su trabajo. Dibujar cuadros de límite y etiquetar entidades de texto puede no ser intuitivo para todos, así que asegúrate de desglosar cada tarea y anticipar las preguntas comunes. Aspira a optimizar la toma de decisiones objetiva por sobre la subjetiva. Se demostró que la capacitación sobre el “sesgo inconsciente” para las personas que asignan las etiquetas ayuda a mejorar la calidad de las etiquetas respecto a los objetivos de diversidad. Además, permitir que estas personas informen problemas y hagan preguntas aclaratorias sobre las instrucciones también puede ayudar a minimizar el sesgo en el proceso de etiquetado.

Sugerencia: Si usas el servicio de etiquetado humano en AutoML, ten en cuenta los siguientes lineamientos cuando escribas las instrucciones.

Asegúrate de que las instrucciones de etiquetado y los materiales de entrenamiento incluyan contexto detallado y específico de tu caso práctico, una descripción de tus usuarios finales y ejemplos ilustrativos que ayuden a las personas que asignan las etiquetas a tener en mente la diversidad de tu base de usuarios.

Revisa los comentarios de los evaluadores para identificar las áreas confusas y presta especial atención a las categorías sensibles cuando verifiques, apruebes o rechaces las etiquetas de datos que recibas.

Una vez que tu conjunto de datos esté listo, analiza especificar la división de los conjuntos de pruebas/entrenamiento

En las guías para principiantes de AutoML de Vertex AI y Translation, analizamos cómo se divide tu conjunto de datos en el proceso del aprendizaje automático. Como ya mencionamos, en AutoML, puedes hacer que Google divida tu conjunto de datos de manera automática o puedes especificar de forma manual los conjuntos de prueba y entrenamiento. Si tu caso de uso lo amerita, quizá quieras considerar la segunda opción.

Mientras divides tus datos de forma manual, considera los lineamientos que mencionamos para crear conjuntos de prueba inclusivos y diversos. Si usas todos tus mejores ejemplos de datos inclusivos para el entrenamiento, las pruebas no serán efectivas, ya que obtendrás un panorama demasiado optimista del rendimiento del modelo para los subgrupos poco representados. Si tienes pocos datos sobre un subgrupo en particular, realizar la división de prueba y entrenamiento tú mismo ayudará a garantizar que tus datos estén distribuidos de forma representativa entre tus conjuntos de entrenamiento y de prueba. En algunos productos de AutoML, como AutoML Tables, puedes intentar especificar ponderaciones personalizadas para tipos poco frecuentes de datos a fin de darles más importancia en el proceso de entrenamiento.

Revisa tus datos de entrenamiento

¿Todas tus categorías tienen la cantidad recomendada de elementos de datos? ¿Tus categorías y tus imágenes, videos y texto representan la diversidad de tu base de usuarios? ¿La distribución es aproximadamente equitativa entre las clases? ¿Tus datos de entrenamiento (imágenes, videos, texto y pares de oraciones) coinciden con el tipo de datos sobre el que deseas que tu modelo haga predicciones?

Evalúa el rendimiento de tu modelo

Para la evaluación de equidad en tu modelo, es necesario que analices detenidamente tu caso práctico en particular y el impacto que el modelo podría tener en tus usuarios finales si se equivoca. Esto implica comprender el impacto de los diferentes tipos de errores en los distintos grupos de usuarios. Aquí es importante evaluar los posibles problemas de equidad. Por ejemplo, ¿los errores del modelo afectan a todos los usuarios por igual o son más perjudiciales para determinados grupos de usuarios?

Una vez que analizaste este problema, podrás decidir qué métricas de rendimiento vale la pena optimizar (por ejemplo, precisión contra recuperación), evaluar compensaciones entre ellas y examinar ejemplos de errores para buscar el sesgo.

Caso práctico: evaluación de la foto del pasaporte

Supongamos que quieres crear una herramienta que ayude a las personas a editar y a imprimir fotos para pasaportes. Cada país tiene sus propias reglas relacionadas con las dimensiones de la foto, el marco, los colores de fondo y las expresiones faciales aceptables, entre otros aspectos que se aceptan o rechazan en la foto. Deseas advertir a las personas si su foto no es aceptable antes de que la envíen en una solicitud de pasaporte.

Falso positivo:

En este caso, se produciría un falso positivo si el sistema marca que una foto no es aceptable cuando, en realidad, la autoridad de emisión de pasaportes del país la hubiera aceptado. No es un problema importante, es aún más probable que se acepte la nueva foto.

Falso negativo:

En este caso, se produciría un falso negativo si no se detecta una foto que no es aceptable. El cliente gastaría dinero para imprimir la foto, la enviaría en una solicitud y se la rechazarían. En el peor de los casos, perdería un viaje planificado porque no pudo obtener el pasaporte a tiempo.

Consideraciones sobre la equidad: en este caso, sería importante revisar si el modelo produce falsos negativos con mayor frecuencia en determinados grupos de personas; por ejemplo, según su raza o género. Puedes hacerlo en AutoML si examinas falsos negativos determinados para buscar patrones problemáticos.

Optimización: en este caso, probablemente debas optimizar la recuperación. La idea es reducir la cantidad de falsos negativos que, en este caso, son los errores más problemáticos.

Caso práctico: filtro de contenido para niños

Supongamos que creas una app de lectura para niños y quieres incluir una biblioteca digital de libros aptos para su edad. Quieres diseñar un clasificador de texto que seleccione libros infantiles a partir de una base de datos de libros de adultos y niños en función del título y la descripción de cada uno.

Falso positivo:

En este caso, se produciría un falso positivo si un libro para adultos que esté clasificado de forma incorrecta como infantil se agregara a la app de lectura para niños. Así, expondría a los niños a contenido no apto para su edad. Los padres se disgustarían mucho y, probablemente, borrarían la aplicación.

Falso negativo:

En este caso, se produciría un falso negativo si un libro infantil que esté marcado de forma incorrecta como para adultos se excluyera de la biblioteca de la app. Según el libro, esto podría ser un inconveniente menor (p. ej., si se excluye una secuela desconocida de una serie de libros poco popular) o podría ser mucho más problemático, por ejemplo, si el libro para niños incluye contenido que algunas personas consideran controversial, pero que, en general, es aceptado por su valor educativo o social.

Consideraciones sobre la equidad: aunque a primera vista pueda parecer simple, este caso resalta algunas de las complejidades de la evaluación de los casos prácticos en cuanto a la equidad. Por un lado, hay una necesidad clara de evitar los falsos positivos (es decir, de minimizar la posibilidad de que se exponga a los niños a contenido que no es apto para su edad). Por otro lado, los falsos negativos también pueden ser perjudiciales. Por ejemplo, si el clasificador de textos tiende a marcar como inapropiados los libros para niños con temas relacionados con la comunidad LGBTQ (como historias sobre niños con dos padres del mismo género), esto sería problemático. De forma similar, si los libros acerca de determinadas culturas o ubicaciones se excluyeran más a menudo que otros, esto sería igual de preocupante.

Optimización: en este caso, probablemente debas optimizar la precisión. De todos los libros para niños disponibles en el mundo, tu app solo mostrará una pequeña parte, de manera que puedes darte el lujo de ser meticuloso sobre cuáles quieres recomendar a tus usuarios. Sin embargo, también deberías considerar soluciones de UX sobre cómo mostrar los libros que puedan requerir la supervisión de los padres. Por ejemplo, podrías agregar una función que recomiende que los padres participen en la lectura de un libro en particular con los niños para que puedan conversar sobre las problemáticas que aborda.

Caso práctico: distribución de una encuesta

Supongamos que buscas distribuir una encuesta y deseas crear un modelo para elegir a los participantes con mayor posibilidad de responder. No puedes considerar los ingresos como un factor que determine la elección de los participantes, pero tus datos tienen una columna llamada “Ingresos”. En AutoML Tables, quitas la columna “Ingresos” para el entrenamiento. Pero cuando divides los datos por ingreso para verificar que no afectó a los resultados, descubres que tu modelo no eligió de manera uniforme entre los segmentos de ingresos. ¿Cómo ocurrió esto?

Variables del proxy: aunque no se consideró la columna “Ingresos”, tus datos aún pueden incluir muchas otras variables que proporcionan pistas sobre los ingresos de los individuos en tu conjunto de datos. ¿Tienes su código postal, nivel de educación o incluso su edad? Cualquiera de estas variables puede relacionarse con los ingresos. Cuando quieras asegurarte de que tu modelo elija una muestra que corte de manera uniforme a través de todos los segmentos demográficos, observa con detenimiento la pestaña “Análisis” de AutoML Tables en busca de correlaciones. Y asegúrate de evaluar tu modelo con cuidado para encontrar sesgos antes de usarlo en producción.

Predicción: pruebas de humo en tu modelo

Una vez que evaluaste el rendimiento de equidad de tu modelo con métricas de aprendizaje automático en AutoML, puedes probar el modelo personalizado con contenido nuevo en la pestaña Predicción. Cuando lo hagas, ten en cuenta las siguientes recomendaciones sobre la equidad:

Piensa detenidamente en el dominio del problema y en la posibilidad de que exista desigualdad y sesgo. Eres quien mejor conoce tu área. ¿Es probable que tu clasificador de videos o imágenes se vea afectado por la raza o el género de las personas en el contenido? ¿Es probable que tu clasificador de texto sea sensible a términos que hacen referencia a grupos demográficos? ¿El par de idiomas para el que estás desarrollando un traductor tiene diferencias culturales que puedan aparecer o un conjunto de pronombres desigual que podría exponer un sesgo social subyacente? Piensa en casos que tendrían un efecto adverso en tus usuarios si se encontraran en la versión de producción y pruébalos en la página Predicción o en tus propias pruebas de unidades.

Recuerda que tus usuarios podrían verse afectados no solo por predicciones ofensivas o injustas, sino también por la ausencia de una predicción clara (falsos negativos). Si descubres que los resultados no se corresponden con la experiencia que quieres crear para todos tus usuarios finales, puedes reducir aún más el sesgo de tu conjunto de datos si agregas más datos a las clases relevantes o si usas tu modelo de una manera que corrija los problemas que encontraste.

Usa tu modelo en producción

Implementa correcciones simples: si tu modelo no es perfecto, volver a entrenarlo con datos nuevos no es el único recurso. Algunas veces, un paso simple de procesamiento previo o posterior en el que se quiten determinadas palabras o tipos de imágenes puede ser una solución eficaz.

Ajusta los umbrales de puntuación de tu modelo para encontrar un equilibrio “equitativo” aceptable entre la precisión y la recuperación, según tu conocimiento de cómo los diferentes tipos de errores afectan a los usuarios.

Una vez que se haya creado el modelo y realice predicciones, la distribución de tus datos puede cambiar sutilmente con el tiempo y tu modelo puede dejar de reflejar los contextos relevantes de tu aplicación. Supervisa el rendimiento del modelo con el tiempo para asegurarte de que funcione como quieres y recopila los comentarios de tus usuarios a fin de identificar posibles problemas que puedan requerir que se agreguen datos nuevos y se vuelva a realizar el entrenamiento.

A veces pueden surgir algunos casos excepcionales en los que no habías pensado. Elabora un plan de respuesta ante incidentes si te preocupa que tu modelo tenga un comportamiento incorrecto que afecte de forma adversa a tus usuarios o a tu empresa.

Comentarios

Este documento es dinámico y aprendemos a medida que progresamos. Nos encantaría contar con tus comentarios sobre los lineamientos que te brindamos aquí. Envía un correo electrónico a inclusive-ml-feedback@google.com para contarnos sobre tu experiencia en la creación de modelos personalizados, qué funcionó y qué no. Esperamos recibir tus comentarios.