4 maneras de abordar el sesgo de género en la IA

Resumen.

Cualquier examen del sesgo en la IA debe reconocer el hecho de que estos sesgos provienen principalmente de sesgos inherentes a los seres humanos. Los modelos y sistemas que creamos y entrenamos son un reflejo de nosotros mismos. Por lo tanto, no es sorprendente descubrir que la IA está aprendiendo sesgos de género por parte de los humanos. Por ejemplo, el procesamiento del lenguaje natural (PNL), un ingrediente crítico de los sistemas de IA comunes como Alexa de Amazon y Siri de Apple, entre otros, ha demostrado sesgos de género, y esto no es un incidente independiente. Ha habido varios casos destacados de sesgos de género, incluidos sistemas de visión por computadora para el reconocimiento de género que reportaron tasas de error más elevadas en el reconocimiento de las mujeres, específicamente aquellas con tonos de piel más oscuros. Para producir una tecnología más justa, debe haber un esfuerzo concertado de investigadores y equipos de aprendizaje automático de toda la industria para corregir este desequilibrio. Tenemos la obligación de crear una tecnología eficaz y justa para todos.


Cualquier examen del sesgo en la IA debe reconocer el hecho de que estos sesgos provienen principalmente de sesgos inherentes a los seres humanos. Los modelos y sistemas que creamos y entrenamos son un reflejo de nosotros mismos.

Por lo tanto, no es sorprendente descubrir que la IA está aprendiendo sesgos de género por parte de los humanos. Por ejemplo, el procesamiento del lenguaje natural (PNL), un ingrediente crítico de los sistemas de IA comunes como Alexa de Amazon y Siri de Apple, entre otros, ha sido encontrado para mostrar sesgos de género — y esto no es un incidente independiente. Ha habido varios casos destacados de prejuicios de género, incluidos sistemas de visión por computadora para el reconocimiento de género que tasas de error más altas para reconocer a las mujeres, específicamente aquellas con tonos de piel más oscuros. Para producir una tecnología más justa, debe haber un esfuerzo concertado de investigadores y equipos de aprendizaje automático de toda la industria para corregir este desequilibrio. Afortunadamente, estamos empezando a ver un nuevo trabajo que mira exactamente cómo se puede lograr eso.

Cabe destacar la investigación sesgada que se está llevando a cabo con respecto a las incrustaciones de palabras, que es cuando las palabras se convierten en representaciones numéricas, que luego se utilizan como insumos en modelos de procesamiento de lenguaje natural. Las incrustaciones de palabras representan las palabras como una secuencia, o un vector de números. Si dos palabras tienen significados similares, sus incrustaciones asociadas estarán cerca una de la otra — en un sentido matemático. Las incrustaciones codifican esta información evaluando el contexto en el que ocurre una palabra. Por ejemplo, AI tiene la capacidad de rellenar objetivamente la palabra «reina» en la frase «El hombre es para el rey, como la mujer es a X.» El problema subyacente surge en los casos en que la IA llena de frases como «Padre es médico como madre es enfermera». El sesgo inherente de género en la observación refleja una percepción obsoleta de la mujer en nuestra sociedad que no se basa en los hechos ni en la igualdad.

Pocos estudios han evaluado los efectos del sesgo de género en el habla con respecto a la emoción, y la IA emoción está empezando a desempeñar un papel más prominente en el futuro del trabajo, el marketing y casi todas las industrias que se te ocurra. En los seres humanos, el sesgo ocurre cuando una persona interpreta mal las emociones de una categoría demográfica con más frecuencia que otra — por ejemplo, pensando erróneamente que una categoría de género está enojada más a menudo que otra. Este mismo sesgo se está observando ahora en las máquinas y cómo clasifican erróneamente la información relacionada con las emociones. Para entender por qué es esto y cómo podemos solucionarlo, es importante examinar primero las causas del sesgo de IA.

¿Qué causa el sesgo de IA?

En el contexto del aprendizaje automático, el sesgo puede significar que hay un mayor nivel de error para ciertas categorías demográficas. Debido a que no hay una sola causa raíz de este tipo de sesgo, existen numerosas variables que los investigadores deben tener en cuenta al desarrollar y entrenar modelos de aprendizaje automático, con factores que incluyen:

  • Un conjunto de datos de entrenamiento incompleto o sesgado: Esto ocurre cuando faltan categorías demográficas en los datos de capacitación. Los modelos desarrollados con estos datos pueden no escalar correctamente cuando se aplican a los nuevos datos que contienen las categorías que faltan. Por ejemplo, si las hablantes femeninas representan solo el 10% de sus datos de entrenamiento, entonces cuando aplica un modelo de aprendizaje automático entrenado a las mujeres, es probable que produzca un mayor grado de errores.
  • Etiquetas utilizadas para la formación: La gran mayoría de los sistemas comerciales de IA utilizan aprendizaje automático supervisado, lo que significa que los datos de capacitación están etiquetados para enseñar al modelo cómo comportarse. La mayoría de las veces, los seres humanos vienen con estas etiquetas, y dado que las personas con frecuencia exhiben sesgos (tanto conscientes como inconscientes), pueden ser codificados involuntariamente en los modelos resultantes de aprendizaje automático. Dado que los modelos de aprendizaje automático están capacitados para estimar estas etiquetas, esta clasificación errónea y la injusticia hacia la categoría de género en particular se codificarán en el modelo, lo que dará lugar a sesgos.
  • Características y técnicas de modelado: Las mediciones utilizadas como entradas para modelos de aprendizaje automático, o la formación del modelo real en sí, también pueden introducir sesgos. Por ejemplo, durante muchas décadas, la síntesis del habla en campo —es decir, la tecnología de texto a voz (por ejemplo, la voz de Stephen Hawking) y el reconocimiento automático de voz — tecnología de voz a texto (por ejemplo, subtítulos opcionales) — mal realizado para las mujeres hablantes en comparación con los hombres. Esto se atribuye al hecho de que la forma en que se analizó y modeló el discurso era más precisa para altavoces más altos con cuerdas vocales más largas y voces de tono más bajo. Como resultado, la tecnología de voz fue más precisa para los altavoces con estas características —que son típicamente masculinos— y mucho menos precisa para aquellos con voces más agudas, que son típicamente femeninas.

Cuatro prácticas recomendadas para los equipos de aprendizaje automático para evitar los sesgos de género

Como muchas cosas en la vida, las causas y soluciones del sesgo de IA no son en blanco y negro. Incluso la «justicia» en sí debe ser cuantificada para ayudar a mitigar los efectos del sesgo no deseado. Para los ejecutivos que estén interesados en aprovechar el poder de la IA, pero que estén preocupados por el sesgo, es importante asegurarse de que los equipos de aprendizaje automático sucedan lo siguiente:

  • Asegurar la diversidad en las muestras de entrenamiento (por ejemplo, utilice aproximadamente tantas muestras de audio femeninas como machos en sus datos de entrenamiento).
  • Asegúrese de que los humanos que etiquetan las muestras de audio provienen de diversos orígenes.
  • Alentar a los equipos de aprendizaje automático a medir los niveles de precisión por separado para las diferentes categorías demográficas e identificar cuándo una categoría está siendo tratada de manera desfavorable.
  • Resuelve las injusticias recopilando más datos de entrenamiento asociados con grupos sensibles. A partir de ahí, aplique técnicas modernas de eliminación de sesgos de aprendizaje automático que ofrezcan formas de penalizar no solo por errores en el reconocimiento de la variable primaria, sino que también tienen penalizaciones adicionales por producir injusticia.

Aunque el examen de estas causas y soluciones es un primer paso importante, todavía quedan muchas preguntas pendientes por responder. Más allá de la capacitación en aprendizaje automático, la industria necesita desarrollar enfoques más holísticos que aborden las tres causas principales de sesgo, como se ha señalado anteriormente. Además, futuras investigaciones deberían considerar datos con una representación más amplia de variantes de género, como transgénero, no binario, etc., para ayudar a expandir nuestra comprensión de cómo manejar la diversidad en expansión.

Tenemos la obligación de crear una tecnología eficaz y justa para todos. Creo que los beneficios de la IA superarán los riesgos si podemos abordarlos colectivamente. Indica a todos los profesionales y líderes en el campo colaborar, investigar y desarrollar soluciones que reduzcan el sesgo en la IA para todos.

Escrito por Josh Feast