Una guía para resolver problemas sociales con el aprendizaje automático
por Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan
Es domingo por la noche. Es el vicealcalde de una gran ciudad. Se sienta a ver una película y pide ayuda a Netflix. («¿Me gustará Birdemic? ¿Ishtar? ¿Zoolander 2?») El algoritmo de recomendación de Netflix predice la película que le gustaría al extraer datos de millones de espectadores anteriores mediante sofisticadas herramientas de aprendizaje automático. Y al día siguiente, vaya a trabajar y cada una de sus agencias tomará decisiones de contratación sin tener ni idea de qué candidatos serían buenos trabajadores; los estudiantes de colegios comunitarios tendrán que decidir qué cursos son demasiado difíciles o fáciles para ellos; y su sistema de servicios sociales implementará un enfoque reactivo más que preventivo para las personas sin hogar, porque no creen que sea posible pronosticar qué familias acabarán en la calle.
Le encantaría trasladar el uso del análisis predictivo en su ciudad a los 21 st siglo, o al menos hasta los 20 la siglo. Pero, ¿cómo? Acaba de contratar a un par de programadores informáticos de 24 años para dirigir su equipo de ciencia de datos. Son muy buenos con los datos. Pero, ¿deberían ser ellos quienes decidan qué problemas son susceptibles a estas herramientas? ¿O para decidir qué es el éxito? Tampoco le tranquilizan los vendedores con los que interactúa la ciudad. Siempre están intentando venderle más la última herramienta predictiva. Las decisiones sobre el uso de estas herramientas parecen demasiado importantes para que las subcontrate, pero plantean una serie de cuestiones nuevas que son difíciles de entender.
Centro de información
La próxima era de la analítica
Patrocinado por SAS
Aprovechar el poder del aprendizaje automático y otras tecnologías.
Esta mezcla de entusiasmo e inquietud por el posible impacto social del aprendizaje automático no es exclusiva del gobierno local ni siquiera del gobierno: las organizaciones sin fines de lucro y los emprendedores sociales también la comparten. El entusiasmo está bien posicionado. Para el tipo correcto de problema, se pueden lograr enormes beneficios con el uso de estas herramientas. Pero también lo es la inquietud: como ocurre con todos los «productos» nuevos, existe la posibilidad de que se haga un uso indebido. ¿Cómo podemos maximizar los beneficios y minimizar los daños?
Al aplicar estas herramientas en los últimos años, nos hemos centrado exactamente en esta cuestión. Hemos aprendido que algunos de los desafíos más importantes están dentro de las grietas entre la disciplina que crea algoritmos (la informática) y las disciplinas que normalmente trabajan en la resolución de problemas políticos (como la economía y la estadística). Como resultado, pocos de estos desafíos clave están siquiera en la pantalla de radar de alguien. La buena noticia es que muchos de estos desafíos, una vez reconocidos, son bastante sencillos de resolver.
Hemos resumido lo que hemos aprendido en una «guía del comprador». Está dirigido a cualquier persona que quiera utilizar la ciencia de datos para crear un bien social, pero no esté seguro de cómo proceder.
Cómo el aprendizaje automático puede mejorar las políticas públicas
Lo primero es lo primero: siempre hay un nuevo «algo nuevo». Especialmente en el sector social. ¿Realmente vale la pena prestar atención a estas herramientas de aprendizaje automático?
Sí. Eso es lo que hemos concluido de nuestro propio proyecto de prueba de concepto, que aplicó el aprendizaje automático a un conjunto de datos de más de un millón de casos judiciales de fianzas (en colaboración con Himabindu Lakkaraju y Jure Leskovec de la Universidad de Stanford). Poco después de la detención, el juez tiene que decidir: ¿esperará el acusado su suerte legal en su país? ¿O deben esperar en la cárcel? No es una pregunta fácil. Una estancia típica en la cárcel es de entre dos y tres meses. Al tomar esta decisión que le cambia la vida, por ley, el juez tiene que hacer una predicción: si es puesto en libertad, ¿volverá el acusado para comparecer ante el tribunal o se saltará el tribunal? ¿Y podrían cometer más delitos?
Nos parece que hay un margen considerable para mejorar las predicciones de los jueces. Nuestras estimaciones muestran que si tomáramos decisiones sobre la libertad previa al juicio utilizando las predicciones del riesgo de nuestro algoritmo en lugar de basarnos en la intuición del juez, podríamos reducir los delitos cometidos por los acusados puestos en libertad hasta un 25% sin tener que encarcelar a más personas. O, sin aumentar en absoluto la tasa de criminalidad, podríamos encarcelar hasta un 42% menos de personas. Con 12 millones de personas arrestadas cada año en los Estados Unidos, este tipo de herramienta podría permitirnos reducir la población carcelaria en varios cientos de miles de personas. Y este tipo de intervención es relativamente barata. En comparación con invertir millones (o miles de millones) de dólares en más programas sociales o en la policía, el coste de analizar estadísticamente los conjuntos de datos administrativos que ya existen es casi nulo. Además, a diferencia de muchas otras propuestas para mejorar la sociedad, las herramientas de aprendizaje automático se escalan fácilmente.
A estas alturas, los responsables políticos están acostumbrados a escuchar afirmaciones como esta en los argumentos de venta, y deberían generar cierto escepticismo como es debido. Una de las razones por las que cuesta comprar bien soluciones de aprendizaje automático es porque hay muchas afirmaciones exageradas. No es que la gente esté malinterpretando intencionalmente los resultados de sus algoritmos. De hecho, aplicar un algoritmo de aprendizaje automático conocido a un conjunto de datos suele ser la parte más sencilla de estos proyectos. La parte que es mucho más difícil, y la razón por la que hemos tenido problemas con nuestro propio proyecto de fianzas durante varios años, es evaluar con precisión el posible impacto de cualquier nuevo algoritmo en los resultados de la política. Esperamos que el resto de este artículo, que se basa en nuestra propia experiencia en la aplicación del aprendizaje automático a los problemas políticos, le ayude a evaluar mejor estos argumentos de venta y a convertirlo también en un comprador fundamental.
Busque problemas políticos que dependan de la predicción
Nuestra experiencia con la libertad bajo fianza sugiere que la aplicación cuidadosa del aprendizaje automático a la política puede generar ganancias muy grandes. Pero a veces estas herramientas se venden como aceite de serpiente, como si pudieran resolver cada problema.
El aprendizaje automático es excelente a la hora de predecir cosas. Puede informar las decisiones que dependen de una predicción y en las que lo que se va a predecir sea claro y mensurable.
Para Netflix, la decisión es qué película ver. Netflix extrae datos de un gran número de usuarios para tratar de averiguar qué personas tienen un historial de visualización anterior similar al suyo y, a continuación, le recomienda películas que les han gustado a esas personas. Para nuestra aplicación a las decisiones sobre libertad bajo fianza previas al juicio, el algoritmo trata de encontrar a los acusados anteriores que son como los que están actualmente en el tribunal y, a continuación, utiliza las tasas de criminalidad de estos acusados similares como base para su predicción.
Si se está tomando una decisión eso ya depende de una predicción, por qué no ¿ayudar a fundamentar esta decisión con predicciones más precisas? La ley ya exige que los jueces del tribunal de fianzas tomen decisiones sobre la libertad previa al juicio basándose en sus predicciones del riesgo del acusado. Décadas de economía del comportamiento y psicología social nos enseñan que las personas tendrán problemas para hacer predicciones precisas sobre este riesgo, porque requiere cosas que no siempre se nos dan bien, como pensar probabilísticamente, hacer atribuciones y sacar conclusiones. El algoritmo hace las mismas predicciones que los jueces ya hacen, pero mejores.
Pero muchas decisiones del sector social no dependen de una predicción. A veces nos preguntamos si alguna política o programa nuevo funciona, es decir, preguntas que dependen de entender el efecto causal de algo en el mundo. La manera de responder a esas preguntas no es mediante métodos de predicción por aprendizaje automático. En cambio, necesitamos herramientas de causalidad, como experimentos aleatorios. Además, el hecho de que algo sea predecible no significa que nos sintamos cómodos con que nuestra decisión dependa de esa predicción. Por ejemplo, podemos sentirnos razonablemente incómodos al negarle la asistencia social a una persona que reunía los requisitos en el momento en que la solicitó solo porque predecimos que tiene una alta probabilidad de no cumplir con los requisitos de búsqueda de empleo del programa o de no pasar una prueba de drogas en el futuro.
Asegúrese de que se siente cómodo con el resultado que prevé
Los algoritmos son muy útiles cuando se aplican a problemas en los que no solo hay un gran historial de casos pasados de los que aprender, sino también un resultado claro que se puede medir, ya que medir el resultado de forma concreta es un requisito previo necesario para predecir. Pero un algoritmo de predicción, por sí solo, se centrará sin descanso en predecir el resultado que usted proporcione con la mayor precisión posible a expensas de todo lo demás. Esto crea un peligro: si le importa otro los resultados también, se ignorarán. Así que, aunque el algoritmo funcione bien en el resultado en el que le dijo que se centrara, puede que le vaya peor en los demás resultados que le importan, pero no le dijo que predijera.
Esta preocupación surgió repetidamente en nuestro propio trabajo sobre las decisiones sobre la libertad bajo fianza. Hemos entrenado nuestros algoritmos para predecir la tasa general de criminalidad de los acusados que podían solicitar la libertad bajo fianza. Un algoritmo así trata todos los delitos por igual. Pero, ¿y si los jueces (no sin razón) dan una importancia desproporcionada a si un acusado comete un delito violento muy grave, como el asesinato, la violación o el robo? Podría mire como si las predicciones del algoritmo llevaran a «mejores resultados» si analizamos las tasas generales de delincuencia. Pero la regla de publicación del algoritmo podría estar funcionando peor que la de los jueces con respecto a los delitos violentos graves específicamente. La posibilidad de que esto suceda no significa que los algoritmos no puedan seguir siendo útiles. En libertad bajo fianza, resulta que las diferentes formas de delito están lo suficientemente correlacionadas como para que un algoritmo centrado en un solo tipo de delito acabe superando a los jueces en casi todas las medidas delictivas que podemos elaborar, incluidos los delitos violentos. El punto es que el resultado que seleccione para su algoritmo lo definirá. Así que tiene que pensar detenidamente cuál es ese resultado y qué más podría estar omitiendo.
Comprobar si hay sesgo
Otro ejemplo serio de este principio es el papel de la raza en los algoritmos. Existe la posibilidad de que cualquier sistema nuevo de predicción y decisión exacerbe las disparidades raciales, especialmente en ámbitos políticos como la justicia penal. Se merece cautela: los datos subyacentes utilizados para entrenar un algoritmo pueden estar sesgados y reflejar un historial de discriminación. Y los científicos de datos a veces denuncian sin darse cuenta medidas de rendimiento engañosas para sus algoritmos. Deberíamos tomarnos en serio la preocupación de si los algoritmos pueden perpetuar la desventaja, sin importar los demás beneficios.
Sin embargo, en última instancia, se trata de una cuestión empírica. En nuestro proyecto de fianza, descubrimos que el algoritmo realmente puede reducir disparidades raciales en la población carcelaria. En otras palabras, podemos reducir la delincuencia, la población carcelaria y prejuicios raciales, todo al mismo tiempo, con la ayuda de algoritmos.
No es una casualidad afortunada. Un primer punto de referencia adecuado para evaluar el efecto del uso de algoritmos es el sistema existente: las predicciones y las decisiones ya las toman los humanos. En el caso de la libertad bajo fianza, sabemos por décadas de investigación que esas predicciones humanas pueden estar sesgadas. Los algoritmos tienen una forma de neutralidad que la mente humana se esfuerza por obtener, al menos dentro de su estrecha área de enfoque. Es totalmente posible —como hemos visto— que los algoritmos sirvan de fuerza para la equidad. Debemos combinar nuestra cautela con la esperanza.
La lección es que si el resultado final que le importa es difícil de medir o implica una combinación de resultados difícil de definir, es probable que el problema no sea adecuado para el aprendizaje automático. Considere un problema que se ve tipo fianza: sentencia. Al igual que la libertad bajo fianza, la sentencia de las personas declaradas culpables depende en parte del riesgo de reincidencia. Pero la sentencia también depende de cosas como el sentido de retribución, piedad y redención de la sociedad, que no se puede medir directamente. Centramos nuestro trabajo intencionadamente en la libertad bajo fianza más que en la sentencia, porque representa un punto en el sistema de justicia penal en el que la ley pide explícitamente una predicción por un estrecho margen. Incluso si hay un resultado único medible, querrá pensar en los demás factores importantes que no están incluidos en ese resultado —como hicimos con la raza en el caso de la libertad bajo fianza— y trabajar con sus científicos de datos para crear un plan que ponga a prueba su algoritmo para detectar posibles sesgos en esas dimensiones.
Compruebe su algoritmo en un experimento con datos que no ha visto
Una vez que hayamos seleccionado el resultado correcto, un último escollo potencial proviene de la forma en que medimos el éxito. Para que el aprendizaje automático sea útil para la política, debe predecir con precisión «fuera de la muestra». Eso significa que debe entrenarse con un conjunto de datos y, luego, probarse con un conjunto de datos que no haya visto antes. Así que cuando dé datos a un proveedor para que cree una herramienta, oculte un subconjunto de los mismos. Luego, cuando el proveedor regrese con un algoritmo acabado, podrá realizar una prueba independiente con su muestra de «espera».
Un problema aún más fundamental es que los enfoques actuales sobre el terreno suelen centrarse en medidas de rendimiento que, para muchas aplicaciones, son intrínsecamente defectuosas. La práctica actual es informar qué tan bien el algoritmo predice solo en los casos en los que podemos observar el resultado. En la solicitud de libertad bajo fianza, esto significa que nuestro algoritmo solo puede utilizar los datos de los acusados que fueron puestos en libertad por los jueces, porque solo tenemos un etiqueta dar la respuesta correcta a si el acusado comete un delito o no para los acusados que los jueces decidieron poner en libertad. ¿Qué hay de los acusados que los jueces decidieron no poner en libertad? Los datos disponibles no pueden decirnos si habrían reincidido o no.
Esto dificulta evaluar si alguna nueva herramienta de aprendizaje automático puede mejorar realmente los resultados en relación con el sistema de toma de decisiones existente, en este caso, los jueces. Si alguna nueva regla de publicación basada en el aprendizaje automático quiere liberar a alguien que los jueces encarcelaron, no podemos observar su «etiqueta», entonces, ¿cómo sabemos lo que pasaría si realmente lo publicáramos?
No se trata simplemente de un problema de interés académico. Imagínese que los jueces tienen acceso a información sobre los acusados que el algoritmo no tiene, por ejemplo, si los miembros de la familia se presentan al tribunal para apoyarlos. Para poner un ejemplo simplificado y extremo, supongamos que el juez es particularmente preciso al utilizar esta información adicional y puede aplicarla para predecir perfectamente si los jóvenes acusados reinciden o no. Por lo tanto, los jueces ponen en libertad solo a los jóvenes que no corren ningún riesgo de reincidir. El algoritmo solo ve los datos de los jóvenes que han sido liberados, los que nunca vuelven a delinquir. Un algoritmo así concluiría básicamente que el juez comete un grave error al encarcelar a tantos jóvenes acusados (ya que ninguno de los de su conjunto de datos comete delitos). El algoritmo recomendaría que pusiéramos en libertad a muchos más acusados jóvenes. El algoritmo estaría mal. Como resultado, podría empeorar la situación del mundo sin darse cuenta.
En resumen, el hecho de que un algoritmo prediga bien por parte de los datos de prueba donde podemos observar las etiquetas no necesariamente significa que hará buenas predicciones en el mundo real. La mejor manera de resolver este problema es hacer un ensayo controlado aleatorio del tipo que es común en la medicina. Entonces podríamos comparar directamente si las decisiones de libertad bajo fianza tomadas mediante el aprendizaje automático conducen a mejores resultados que las que se toman en casos comparables utilizando el sistema actual de toma de decisiones judiciales. Pero incluso antes de llegar a esa fase, tenemos que asegurarnos de que la herramienta es lo suficientemente prometedora como para justificar éticamente su prueba sobre el terreno. En nuestro caso de libertad bajo fianza, gran parte del esfuerzo se destinó a encontrar un «experimento natural» para evaluar la herramienta.
Nuestro experimento natural se basó en dos ideas. En primer lugar, dentro de los límites jurisdiccionales, es esencialmente aleatorio qué jueces conocen qué casos. En segundo lugar, los jueces son muy diferentes en cuanto a su indulgencia. Esto nos permite medir qué tan buenos son los jueces a la hora de seleccionar a más acusados para encarcelarlos. ¿Cuánta reducción de delitos produce un juez con una tasa de liberación del 70% en comparación con un juez con una tasa de liberación del 80%? También podemos utilizar estos datos para preguntarnos qué tan bueno sería un algoritmo para seleccionar a más acusados para la cárcel. Si cogiéramos el número de casos de un juez con una tasa de puesta en libertad del 80% y utilizáramos nuestro algoritmo para enviar a la cárcel a un 10% más de los acusados, ¿seríamos capaces de lograr una tasa de criminalidad inferior a la que obtiene el juez con una tasa de liberación del 70%? Esa comparación entre «humano y máquina» no se equivoca con la falta de etiquetas para los acusados que los jueces encarcelaron, sino que el algoritmo quiere dar a conocer, porque solo pedimos al algoritmo que recomiende detenciones adicionales (no liberaciones). Es una comparación que se basa únicamente en las etiquetas que ya tenemos en los datos y confirma que las predicciones del algoritmo conducen a mejores resultados que las de los jueces.
Puede resultar un error y, a veces, totalmente perjudicial adoptar y ampliar nuevas herramientas de predicción cuando solo se han evaluado en casos a partir de datos históricos con etiquetas, en lugar de evaluarse en función de su efecto en la decisión política clave de interés. Los usuarios inteligentes podrían llegar a negarse a utilizar cualquier herramienta de predicción que no se tome más en serio este desafío de evaluación.
Recuerde que aún hay muchas cosas que no sabemos
Si bien el aprendizaje automático se utiliza ahora ampliamente en aplicaciones comerciales, el uso de estas herramientas para resolver problemas políticos es relativamente nuevo. Todavía hay muchas cosas que aún no sabemos, pero tendremos que averiguar en el futuro.
Quizás el ejemplo más importante de esto sea cómo combinar el juicio humano y el juicio algorítmico para tomar las mejores decisiones políticas posibles. En el ámbito de la política, es difícil imaginarse pasar a un mundo en el que los algoritmos realmente hacer las decisiones; esperamos que, en cambio, se utilicen como ayudas para la toma de decisiones.
Para que los algoritmos añadan valor, necesitamos que la gente los utilice realmente, es decir, que les preste atención al menos en algunos casos. A menudo se afirma que para que las personas estén dispuestas a utilizar un algoritmo, tienen que ser capaces de entender realmente cómo funciona. Tal vez. Pero, ¿cuántos de nosotros sabemos cómo funcionan nuestros coches, nuestros iPhones o marcapasos? ¿Cuántos de nosotros cambiaríamos el rendimiento por la comprensibilidad en nuestras propias vidas si, por ejemplo, dejáramos nuestro automóvil actual con su desconcertante motor de combustión interna por el coche de Fred Picapiedra?
La otra cara es que los responsables políticos tienen que saber cuándo deben anular el algoritmo. Para que la gente sepa cuándo anular, tiene que entender su ventaja comparativa con respecto al algoritmo y viceversa. El algoritmo puede analizar millones de casos del pasado y decirnos qué pasa, de media. Pero a menudo solo el humano puede ver la circunstancia atenuante en un caso determinado, ya que puede basarse en factores que no figuran en los datos en los que se entrenó el algoritmo. Como con cualquier tarea nueva, la gente será mala en esto al principio. Si bien deberían mejorar con el tiempo, tendría un gran valor social entender más sobre cómo acelerar esta curva de aprendizaje.
Combine la cautela con la esperanza
Un viajero en el tiempo que se remonta a los albores de los 20 la El siglo llegaría con terribles advertencias. Un invento estaba a punto de causar mucho daño. Se convertiría en una de las principales causas de muerte y, para algunos grupos de edad, en la principal causa de muerte. Exacerbaría las desigualdades, porque quienes pudieran permitírselo podrían acceder a más empleos y vivir más cómodamente. Cambiaría la faz del planeta en el que vivimos, afectaría al paisaje físico, contaminaría el medio ambiente y contribuiría al cambio climático.
El viajero en el tiempo no quiere que estas advertencias generen un pánico apresurado que impida por completo el desarrollo del transporte en automóvil. En cambio, quiere que estas advertencias ayuden a las personas a saltarse unos pasos y seguir un camino más seguro: centrarse en los inventos que hacen que los coches sean menos peligrosos, construir ciudades que permitan un transporte público fácil y centrarse en los vehículos de bajas emisiones.
Un viajero en el tiempo del futuro que hable con nosotros hoy puede llegar con advertencias similares sobre el aprendizaje automático y fomentar un enfoque similar. Podría fomentar la difusión del aprendizaje automático para ayudar a resolver los problemas sociales más difíciles y mejorar la vida de muchas personas. También nos recordaba que debemos ser conscientes y ponernos el cinturón de seguridad.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.