Cuatro formas de abordar los prejuicios de género en la IA

Cualquier examen de los sesgos en la IA debe reconocer el hecho de que estos sesgos se deben principalmente a los sesgos inherentes a los humanos. Los modelos y sistemas que creamos y entrenamos son un reflejo de nosotros mismos. Así que no sorprende descubrir que la IA está aprendiendo los prejuicios de género de los humanos. Por ejemplo, se ha descubierto que el procesamiento del lenguaje natural (PNL), un ingrediente fundamental de los sistemas de IA más comunes, como Alexa de Amazon y Siri de Apple, entre otros, muestra sesgos de género, y no se trata de un incidente independiente. Ha habido varios casos destacados de sesgo de género, incluidos los sistemas de visión artificial para el reconocimiento del género, que arrojaron tasas de error más altas al reconocer a las mujeres, específicamente a las que tienen un tono de piel más oscuro. Para producir una tecnología que sea más justa, los investigadores y los equipos de aprendizaje automático de todo el sector deben realizar un esfuerzo concertado para corregir este desequilibrio. Tenemos la obligación de crear una tecnología que sea eficaz y justa para todos.

••• Cualquier examen de los sesgos en la IA debe reconocer el hecho de que estos sesgos se deben principalmente a los sesgos inherentes a los humanos. Los modelos y sistemas que creamos y entrenamos son un reflejo de nosotros mismos. Así que no sorprende descubrir que la IA está aprendiendo los prejuicios de género de los humanos. Por ejemplo, el procesamiento del lenguaje natural (PNL), un ingrediente fundamental de los sistemas de IA más comunes, como Alexa de Amazon y Siri de Apple, entre otros,[se ha descubierto que muestra sesgos de género](https://papers.nips.cc/paper/6228-man-is-to-computer-programmer-as-woman-is-to-homemaker-debiasing-word-embeddings.pdf) — y no se trata de un incidente independiente. Ha habido varios casos destacados de sesgo de género, incluidos los sistemas de visión artificial para el reconocimiento del género que [informó de tasas de error más altas](http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf) para reconocer a las mujeres, específicamente a las que tienen un tono de piel más oscuro. Para producir una tecnología que sea más justa, los investigadores y los equipos de aprendizaje automático de todo el sector deben realizar un esfuerzo concertado para corregir este desequilibrio. Afortunadamente, estamos empezando a ver nuevos trabajos que analizan exactamente cómo se puede lograr eso. Cabe destacar la investigación sobre los sesgos que se está llevando a cabo con respecto a la incrustación de palabras, que consiste en convertir las palabras en representaciones numéricas, que luego se utilizan como entradas en los modelos de procesamiento del lenguaje natural. Las incrustaciones de palabras representan las palabras como una secuencia o un vector de números. Si dos palabras tienen significados similares, las incrustaciones asociadas estarán cerca una de la otra, en un sentido matemático. Las incrustaciones codifican esta información evaluando el contexto en el que aparece una palabra. Por ejemplo, la IA tiene la capacidad de rellenar objetivamente la palabra «reina» en la frase «El hombre es para el rey, como la mujer es para la X.» El problema de fondo surge en los casos en que la IA rellena frases como «El padre es para el médico como la madre para amamantar». El sesgo de género inherente a la observación refleja una percepción anticuada de las mujeres en nuestra sociedad que no se basa en los hechos ni en la igualdad. Pocos estudios han evaluado los efectos del sesgo de género en el habla con respecto a las emociones, y la IA emocional está empezando a desempeñar un papel más destacado en el futuro del trabajo, el marketing y casi todos los sectores que se le ocurran. En los seres humanos, el sesgo se produce cuando una persona malinterpreta las emociones de una categoría demográfica con más frecuencia que de otra, por ejemplo, al pensar erróneamente que una categoría de género se enfada más a menudo que otra. Este mismo sesgo se observa ahora en las máquinas y la forma en que clasifican erróneamente la información relacionada con las emociones. Para entender por qué es así y cómo podemos solucionarlo, es importante analizar primero las causas del sesgo de la IA. **¿Qué causa el sesgo de la IA?** En el contexto del aprendizaje automático, el sesgo puede significar que hay un mayor nivel de error en determinadas categorías demográficas. Como no existe una causa fundamental de este tipo de sesgo, existen numerosas variables que los investigadores deben tener en cuenta a la hora de desarrollar y entrenar modelos de aprendizaje automático, entre las que se incluyen los siguientes factores: - _Un conjunto de datos de entrenamiento incompleto o sesgado:_ Esto ocurre cuando las categorías demográficas no aparecen en los datos de entrenamiento. Los modelos desarrollados con estos datos pueden no escalarse correctamente cuando se aplican a nuevos datos que contienen las categorías que faltan. Por ejemplo, si las mujeres que hablan representan solo el 10% de sus datos de entrenamiento, cuando aplique un modelo de aprendizaje automático entrenado a las mujeres, es probable que se produzca un mayor grado de errores. - _Etiquetas utilizadas para el entrenamiento:_ La gran mayoría de los sistemas de IA comerciales utilizan el aprendizaje automático supervisado, lo que significa que los datos de entrenamiento se etiquetan para enseñar al modelo cómo comportarse. La mayoría de las veces, a los humanos se les ocurren estas etiquetas y, dado que las personas con frecuencia muestran sesgos (tanto conscientes como inconscientes), pueden codificarse involuntariamente en los modelos de aprendizaje automático resultantes. Dado que los modelos de aprendizaje automático están entrenados para estimar estas etiquetas, esta clasificación errónea y esta injusticia hacia una categoría de género en particular se codificarán en el modelo, lo que generará sesgos. - _Características y técnicas de modelado:_ Las medidas utilizadas como entradas para los modelos de aprendizaje automático, o el entrenamiento real del modelo en sí, también pueden introducir sesgos. Por ejemplo, durante muchas décadas, la síntesis de voz de campo, es decir, la tecnología de conversión de texto a voz (por ejemplo, la voz de Stephen Hawking) y el reconocimiento automático de voz, la tecnología de conversión de voz a texto (por ejemplo, subtítulos opcionales) —[tuvo un mal desempeño entre las mujeres que hablan en comparación con los hombres](https://www.jstor.org/stable/44526232?seq=1#page_scan_tab_contents). Esto se atribuye al hecho de que la forma en que se analizaba y modelaba el habla era más precisa para los altavoces más altos con cuerdas vocales más largas y voces de tono más bajo. Como resultado, la tecnología de voz era más precisa para los altavoces con estas características (que suelen ser hombres) y mucho menos precisa para los que tienen voces más agudas, que suelen ser mujeres. **Cuatro mejores prácticas para que los equipos de aprendizaje automático eviten el sesgo de género** Como muchas cosas en la vida, las causas y las soluciones del sesgo de la IA no son en blanco o negro.[Incluso la «imparcialidad» en sí misma debe cuantificarse](/2019/11/how-machine-learning-pushes-us-to-define-fairness) para ayudar a mitigar los efectos de un sesgo no deseado. Para los ejecutivos que estén interesados en aprovechar el poder de la IA, pero les preocupan los prejuicios, es importante que se aseguren de que en sus equipos de aprendizaje automático ocurre lo siguiente: - Garantice la diversidad en las muestras de entrenamiento (por ejemplo, utilice aproximadamente tantas muestras de audio femeninas como de hombres en sus datos de entrenamiento). - Asegúrese de que las personas que etiqueten las muestras de audio procedan de diversos orígenes. - Anime a los equipos de aprendizaje automático a medir los niveles de precisión por separado para las diferentes categorías demográficas e identificar cuándo una categoría recibe un trato desfavorable. - Resuelva las injusticias recopilando más datos de entrenamiento asociados a los grupos sensibles. A partir de ahí, aplique técnicas modernas de eliminación de sesgos por aprendizaje automático que ofrezcan formas de penalizar no solo los errores al reconocer la variable principal, sino que también incluyan sanciones adicionales por producir injusticia. Aunque examinar estas causas y soluciones es un primer paso importante, aún quedan muchas preguntas por responder. Más allá de la formación en aprendizaje automático, el sector necesita desarrollar enfoques más holísticos que aborden las tres causas principales de los sesgos, como se ha descrito anteriormente. Además, las investigaciones futuras deberían tener en cuenta los datos con una representación más amplia de las variantes de género, como las transgénero, las no binarias, etc., para ayudar a ampliar nuestra comprensión de cómo gestionar la creciente diversidad. Tenemos la obligación de crear una tecnología que sea eficaz y justa para todos. Creo que los beneficios de la IA superarán los riesgos si podemos abordarlos de forma colectiva. Todos los profesionales y líderes del campo deben colaborar, investigar y desarrollar soluciones que reduzcan los sesgos de la IA para todos.