Una manera de reducir el sesgo de género en las revisiones de rendimiento

Personal de HBR /Imagenes de las personas/Getty Images

Amad o odiarlos, las evaluaciones de rendimiento son elementos básicos del lugar de trabajo moderno. Las calificaciones cuantitativas tienen sido promocionado por mucho tiempo como instrumentos imparciales para medir la calidad de los trabajadores y garantizar la equidad en las decisiones de promoción e indemnización.

Sin embargo, investigaciones más recientes muestran que las calificaciones cuantitativas de desempeño están lejos de ser objetivas; aunque pueden facilitar la tarea de comparar a los trabajadores para los directivos, están plagados de prejuicios de género. Las investigaciones muestran consistentemente que las personas dan a los hombres calificaciones de desempeño más altas que las mujeres, incluso cuando sus calificaciones y comportamientos son idéntico. Incluso algoritmos de inteligencia artificial prefieren a los hombres.

Con el tiempo, esos sesgos perjudican las perspectivas de carrera de las mujeres y contribuyen a las brechas de género en ganancias y la insuficiente representación de la mujer en posiciones de nivel superior.

Si bien sigue aumentando la evidencia de desigualdades entre los géneros en las evaluaciones de la actuación profesional, se sabe mucho menos acerca de los remedios. En un nuevo estudio en la Revista Sociológica Americana, identificamos una manera potencial de reducir las brechas de género en las evaluaciones cuantitativas de desempeño que sea temporal y rentable: cambiar la escala de calificación.

Estudiamos una escuela de una gran universidad norteamericana que, por razones no relacionadas con el género, cambió su sistema de evaluación docente de la facultad de una escala 1-10 a una escala 1-6. En total, se analizaron 105.034 calificaciones estudiantiles de 369 instructores en 235 cursos. Un aspecto único de nuestros datos fue que pudimos comparar el funcionamiento exacto de los mismos instructores que enseñaban exactamente los mismos cursos bajo los diferentes sistemas de calificación.

Como era de esperar, con arreglo al sistema de 10 puntos, los hombres recibieron calificaciones significativamente más altas que las mujeres en las esferas más dominadas por los hombres. Pero lo que encontramos a continuación fue sorprendente: cambiar a una escala de 6 puntos eliminó completamente esta brecha de género.

Para averiguar por qué, llevamos a cabo un experimento en el que dimos a 400 estudiantes transcripciones idénticas de una conferencia, que se les dijo que fue dada por un instructor masculino o femenino — el profesor John Anderson o la profesora Julie Anderson. A continuación, asignamos aleatoriamente si calificarían al instructor en una escala de 10 o 6 puntos. También pedimos a los estudiantes que escriban las palabras que se les ocurrió cuando pensaron en el rendimiento docente del instructor.

Al igual que en nuestro estudio de campo, encontramos una gran brecha de género en las calificaciones bajo el sistema de 10 puntos, que nuevamente desapareció bajo el de 6 puntos. Pero esta vez obtuvimos alguna idea de por qué las escalas importaban. Al usar la escala de 10 puntos, los estudiantes asignaron 10 a John Anderson, pero se mostraron reacios a hacerlo por Julie Anderson, en lugar de darle 8 y 9.

Al analizar las palabras que los estudiantes usaron para describir el rendimiento del instructor, encontramos que la puntuación máxima en la escala de 10 puntos evocaba imágenes de rendimiento brillante y extraordinario. También encontramos que los evaluadores tendían a asociar ese tipo de rendimiento con John en lugar de Julie. Este resultado es consistente con el asociación cultural de larga data del número 10 con la perfección, así como investigaciones anteriores que muestran que los evaluadores examinar más intensamente el rendimiento de las mujeres en busca de errores y etiquetas de reserva como «estrella», «superestrella» y «genio» para los hombres. Dado el estereotipo de brillo masculino, la perfección que un 10/10 connota es una barra de rendimiento esquiva para las mujeres.

La puntuación más alta en la escala de 6 puntos, por el contrario, no vino con expectativas de rendimiento tan fuertes. Para recibir un 6/6, era suficiente que los instructores fueran percibidos como muy buenos; no necesitaban ser vistos como brillantes o extraordinarios. Como resultado, aunque los estudiantes que usan la escala de 6 puntos eran aún más propensos a usar superlativos para describir el rendimiento de la enseñanza de John, estaban tan dispuestos a asignar 6/6 notas a Julie como a John. El estereotipo subyacente de la brillantez masculina todavía estaba presente, pero una calificación de 6/6 no produjo imágenes culturales tan fuertes de perfección y brillantez como un 10/10, por lo que la escala de 6 puntos limitó la expresión del sesgo, y la brecha de género desapareció.

Los escépticos podrían cuestionar el papel del sesgo en estos resultados. Podrían argumentar, por ejemplo, que profesores extraordinarios son más propensos a ser hombres, y que la escala de 6 puntos simplemente lleva a los evaluadores a unir un rendimiento realmente brillante con lo que es, objetivamente, simplemente bueno. En este punto de vista, la escala de 6 puntos no limita la expresión del sesgo de género; es simplemente un instrumento contundente que, a diferencia de la escala de 10 puntos, no distingue entre grandes maestros masculinos y meramente buenos maestros femeninos. Sin embargo, nuestro experimento aborda esta preocupación. Lo único que variaba entre los instructores era si los estudiantes creyó que fueran hombres o mujeres; sus transcripciones de conferencias eran idénticas.

Estos resultados tienen implicaciones mucho más allá del ámbito universitario. Las clasificaciones numéricas de rendimiento están en todas partes, y en una era obsesionado con los datos y las métricas, a menudo actuamos como si nuestras herramientas de medición y evaluación fueran instrumentos neutrales. No lo son. Incluso factores tan aparentemente pequeños como el número de categorías en una escala de calificación pueden tener un efecto significativo en la desigualdad.

Lo positivo es que no somos impotentes cuando se trata de la desigualdad de género. Es difícil superar nuestros sesgos individuales, pero una vez que reconocemos que los sesgos también son integrado en nuestros sistemas de evaluación, podemos cambiar esos sistemas. Al igual que la universidad que estudiamos, organizaciones de todo tipo pueden experimentar con sus métricas y herramientas de evaluación y descubrir nuevas formas de mover la aguja. Podemos avanzar hacia la igualdad un experimento a la vez. Esto no quiere decir que tales intervenciones eliminen los estereotipos de género, que las investigaciones demuestran que son profundamente arraigados y muy resistentes al cambio. Más bien, puede, en las palabras del sociólogo Joan William, interrumpir su efecto en las calificaciones y comenzar a colmar las diferencias de género en las carreras.

Lauren Rivera András Tilcsik Via HBR.org