Guía para resolver problemas sociales con el aprendizaje automático
Es domingo por la noche. Eres el vicealcalde de una gran ciudad. Siéntate a ver una película y pide ayuda a Netflix. («¿Me gustará Birdemic? ¿Ishtar? Zoolander 2?») El algoritmo de recomendación de Netflix predice qué película te gustaría minando datos de millones de observadores de películas anteriores usando sofisticadas herramientas de aprendizaje automático. Y luego al día siguiente vas a trabajar y cada una de tus agencias tomará decisiones de contratación con poca idea de qué candidatos serían buenos trabajadores; los estudiantes universitarios comunitarios se quedarán en gran medida a sus propios dispositivos para decidir qué cursos son demasiado difíciles o demasiado fáciles para ellos; y tu sistema de servicio social implementará un enfoque reactivo en lugar de preventivo ante la falta de vivienda porque no creen que sea posible predecir qué familias terminarán en las calles.
Te encantaría trasladar el uso de análisis predictivo de tu ciudad al 21 st siglo, o al menos en el 20 th siglo. Pero, ¿cómo? Acabas de contratar a un par de programadores informáticos de 24 años para dirigir tu equipo de ciencia de datos. Son geniales con los datos. Pero, ¿deben ser ellos los que decidan qué problemas son susceptibles de estas herramientas? ¿O para decidir cómo se ve el éxito? Tampoco te tranquilizan los vendedores con los que interactúa la ciudad. Siempre están tratando de venderte la última herramienta predictiva. Las decisiones sobre cómo se utilizan estas herramientas parecen demasiado importantes para que usted pueda externalizar, pero plantean una serie de nuevos problemas que son difíciles de entender.
Esta mezcla de entusiasmo y temor por el impacto social potencial del aprendizaje automático no es exclusiva del gobierno local o incluso del gobierno: las organizaciones sin fines de lucro y los empresarios sociales también lo comparten. El entusiasmo está bien situado. Para el tipo correcto de problema, hay enormes ganancias que se pueden obtener con el uso de estas herramientas. Pero también lo es la inquieción: al igual que con todos los nuevos «productos», existe la posibilidad de un mal uso. ¿Cómo podemos maximizar los beneficios mientras minimizamos el daño?
Al aplicar estas herramientas en los últimos años, nos hemos centrado exactamente en esta cuestión. Hemos aprendido que algunos de los desafíos más importantes se encuentran dentro de las grietas entre la disciplina que construye algoritmos (ciencias de la computación) y las disciplinas que normalmente trabajan en la solución de problemas de política (como la economía y la estadística). Como resultado, pocos de estos desafíos clave están incluso en la pantalla de radar de cualquiera. La buena noticia es que muchos de estos desafíos, una vez reconocidos, son bastante fáciles de resolver.
Hemos destilado lo que hemos aprendido en una «guía del comprador». Está dirigido a cualquier persona que quiera usar la ciencia de datos para crear bien social, pero no está seguro de cómo proceder.
Cómo el aprendizaje automático puede mejorar las políticas públicas
Lo primero es lo primero: Siempre hay un nuevo «cosa nueva.» Especialmente en el sector social. ¿Son realmente dignas de prestar atención a estas herramientas de aprendizaje automático?
Sí. Eso es lo que hemos llegado a la conclusión de nuestro propio proyecto de prueba de concepto, aplicando el aprendizaje automático a un conjunto de datos de más de un millón de casos judiciales de bonos (en colaboración con Himabindu Lakkaraju y Jure Leskovec de la Universidad de Stanford). Poco después de la detención, el juez tiene que decidir: ¿esperará el acusado su suerte legal en su domicilio? ¿O deben esperar en la cárcel? Esta no es una pregunta pequeña. Una típica estancia en la cárcel es entre dos y tres meses. Al tomar esta decisión que cambia la vida, por ley, el juez tiene que hacer una predicción: si es liberado, ¿regresará el acusado para su comparecencia ante la corte, o saltará a la corte? ¿Y potencialmente cometerán más crímenes?
Consideramos que hay mucho margen para mejorar las predicciones de los jueces. Nuestras estimaciones muestran que si tomamos decisiones de liberación previa al juicio usando las predicciones de riesgo de nuestro algoritmo en lugar de depender de la intuición del juez, podríamos reducir los crímenes cometidos por acusados liberados hasta en un 25% sin tener que encarcelar a ninguna persona adicional. O, sin aumentar la tasa de criminalidad, podríamos encarcelar hasta un 42% menos de personas. Con 12 millones de personas arrestadas cada año en Estados Unidos, este tipo de herramienta podría permitirnos reducir la población carcelaria en hasta varios cientos de miles de personas. Y este tipo de intervención es relativamente barata. Comparado con invertir millones (o miles de millones) de dólares en más programas sociales o policías, el costo de analizar estadísticamente los conjuntos de datos administrativos que ya existen es casi nada. Además, a diferencia de muchas otras propuestas para mejorar la sociedad, las herramientas de aprendizaje automático se escalan fácilmente.
A estas alturas, los responsables políticos están acostumbrados a escuchar afirmaciones como esta en los lanzamientos de ventas, y deberían plantear apropiadamente cierto escepticismo. Una razón por la que es difícil ser un buen comprador de soluciones de aprendizaje automático es que hay tantas afirmaciones exageradas. No es que la gente esté inexponiendo intencionalmente los resultados de sus algoritmos. De hecho, la aplicación de un algoritmo de aprendizaje automático conocido a un conjunto de datos suele ser la parte más sencilla de estos proyectos. La parte que es mucho más difícil, y la razón por la que luchamos con nuestro propio proyecto de fianza durante varios años, es evaluar con precisión el impacto potencial de cualquier nuevo algoritmo en los resultados de las políticas. Esperamos que el resto de este artículo, que se basa en nuestra propia experiencia en la aplicación de aprendizaje automático a problemas de políticas, le ayude a evaluar mejor estos planteamientos de ventas y que también le convierta en un comprador crítico.
Busque problemas de política que dependan de la predicción
Nuestra experiencia en la fianza sugiere que la aplicación reflexiva del aprendizaje automático a la política lata crear ganancias muy grandes. Pero a veces estas herramientas se venden como aceite de serpiente, como si pudiesen resolver cada problema.
El aprendizaje automático sobresale en la predicción de cosas. Puede informar decisiones que dependen de una predicción, y donde lo que se predice es claro y medible.
Para Netflix, la decisión es qué película ver. Netflix extrae datos de un gran número de usuarios para intentar averiguar qué personas tienen historiales de visualización anteriores similares a los tuyos, y luego te recomienda películas que a estas personas les hayan gustado. Para nuestra aplicación a decisiones de fianza previas al juicio, el algoritmo trata de encontrar a acusados pasados que son como los que están actualmente en la corte, y luego usa las tasas de criminalidad de estos acusados similares como la base para su predicción.
Si se está tomando una decisión que ya depende de una predicción, ¿por qué no ayudar a informar esta decisión con predicciones más precisas? La ley ya exige que los jueces de los tribunales de fianza adopten decisiones sobre la puesta en libertad previa al juicio sobre la base de sus predicciones sobre el riesgo del acusado. Décadas de economía del comportamiento y psicología social nos enseñan que la gente tendrá problemas para hacer predicciones precisas sobre este riesgo, porque requiere cosas en las que no siempre somos buenos, como pensar probabilísticamente, hacer atribuciones y dibujar inferencias. El algoritmo hace las mismas predicciones que los jueces ya están haciendo, pero mejor.
Pero muchas decisiones del sector social no dependen de una predicción. A veces nos preguntamos si alguna nueva política o programa funciona, es decir, preguntas que dependen de entender el efecto causal de algo en el mundo. La forma de responder a esas preguntas no es a través de métodos de predicción de aprendizaje automático. En cambio, necesitamos herramientas para la causalidad, como experimentos aleatorizados. Además, sólo porque algo sea predecible, eso no significa que estemos cómodos teniendo nuestra decisión dependa de esa predicción. Por ejemplo, podríamos ser razonablemente incómodos negando el bienestar a alguien que era elegible en el momento en que solicitaron la solicitud sólo porque predecimos que tienen una alta probabilidad de no cumplir con los requisitos de búsqueda de empleo del programa o fallar una prueba de drogas en el futuro.
Asegúrese de que se sienta cómodo con el resultado que está prediciendo
Los algoritmos son más útiles cuando se aplican a problemas en los que no sólo hay una gran historia de casos pasados de los que aprender, sino también un resultado claro que se puede medir, ya que medir el resultado concretamente es un requisito previo necesario para predecir. Pero un algoritmo de predicción, por sí solo, se centrará implacablemente en predecir el resultado que proporcione con la mayor precisión posible a expensas de todo lo demás. Esto crea un peligro: si te importa otro resultados también, serán ignorados. Así que incluso si el algoritmo funciona bien en el resultado en el que le dijo que se centrara, puede hacer peor en los otros resultados que le importan, pero no le dijo que predijera.
Esta preocupación surgió repetidamente en nuestra propia labor sobre las decisiones sobre la libertad bajo fianza. Entrenamos a nuestros algoritmos para predecir la tasa general de criminalidad de los acusados elegibles para la fianza. Tal algoritmo trata todos los crímenes como iguales. Pero, ¿y si los jueces (no injustificadamente) dan un peso desproporcionado a si un acusado participa en un delito violento muy grave como asesinato, violación o robo? Podría mirar como las predicciones del algoritmo conduce a «mejores resultados» cuando observamos las tasas generales de delincuencia. Pero la regla de liberación del algoritmo podría realmente estar haciendo peor que los jueces con respecto a crímenes violentos graves específicamente. La posibilidad de que esto suceda no significa que los algoritmos todavía no puedan ser útiles. En la libertad bajo fianza, resulta que las diferentes formas de delincuencia están suficientemente correlacionadas para que un algoritmo entrenado en un solo tipo de crimen termine por encima de los jueces sobre casi todas las medidas de criminalidad que podríamos construir, incluyendo el crimen violento. El punto es que el resultado que seleccione para su algoritmo lo definirá. Por lo tanto, debe pensar cuidadosamente sobre cuál es ese resultado y qué más podría estar dejando fuera.
Compruebe si hay sesgo
Otro ejemplo serio de este principio es el papel de la raza en los algoritmos. Existe la posibilidad de que cualquier nuevo sistema de predicciones y decisiones pueda exacerbar las disparidades raciales, especialmente en ámbitos políticos como la justicia penal. Se merece la precaución: los datos subyacentes utilizados para entrenar un algoritmo pueden ser sesgados, lo que refleja un historial de discriminación. Y los científicos de datos a veces pueden reportar inadvertidamente medidas de rendimiento engañosas para sus algoritmos. Debemos tomar en serio la preocupación sobre si los algoritmos pueden perpetuar la desventaja, sin importar cuáles sean los otros beneficios.
En última instancia, sin embargo, esta es una pregunta empírica. En nuestro proyecto de fianza, encontramos que el algoritmo puede reducir disparidades raciales en la población carcelaria. En otras palabras, podemos reducir la delincuencia, las poblaciones carcelarias y prejuicios raciales, todos al mismo tiempo, con la ayuda de algoritmos.
Esto no es una casualidad afortunada. Un primer punto de referencia apropiado para evaluar el efecto del uso de algoritmos es el sistema existente: las predicciones y decisiones que ya están tomando los seres humanos. En el caso de la fianza, sabemos por décadas de investigación que esas predicciones humanas pueden ser sesgadas. Los algoritmos tienen una forma de neutralidad que la mente humana lucha por obtener, al menos dentro de su estrecha área de enfoque. Es totalmente posible, como vimos, que los algoritmos sirvan como fuerza para la equidad. Deberíamos emparejar nuestra precaución con esperanza.
La lección aquí es que si el resultado final que le importa es difícil de medir, o implica una combinación difícil de definir de resultados, entonces el problema probablemente no sea un buen ajuste para el aprendizaje automático. Considere un problema que se ve como la fianza: Sentencia. Al igual que la libertad bajo fianza, la condena de personas que han sido declaradas culpables depende en parte del riesgo de reincidencia. Pero la sentencia también depende de cosas como el sentido de retribución, misericordia y redención de la sociedad, que no se pueden medir directamente. Centramos intencionalmente nuestro trabajo en la libertad bajo fianza en lugar de en la sentencia porque representa un punto en el sistema de justicia penal en el que la ley pide explícitamente una predicción estricta. Incluso si hay un resultado único mensurable, querrá pensar en otros factores importantes que no están encapsulados en ese resultado, como hicimos con la raza en el caso de la fianza, y trabajar con sus científicos de datos para crear un plan para probar su algoritmo para detectar posibles sesgos a lo largo de esas dimensiones.
Verifique su algoritmo en un experimento con datos que no haya visto
Una vez que hayamos seleccionado el resultado correcto, una trampa potencial final deriva de la forma en que medimos el éxito. Para que el aprendizaje automático sea útil para las políticas, debe predecir con precisión «fuera de muestra». Eso significa que debe entrenarse en un conjunto de datos y luego probarse en un conjunto de datos que no haya visto antes. Por lo tanto, cuando proporcione datos a un proveedor para que cree una herramienta, retenga un subconjunto de la misma. Luego, cuando el proveedor regrese con un algoritmo terminado, puede realizar una prueba independiente usando su muestra «hold out».
Un problema aún más fundamental es que los enfoques actuales sobre el terreno suelen centrarse en medidas de la ejecución que, para muchas aplicaciones, son inherentemente defectuosas. La práctica actual es reportar lo bien que el algoritmo de uno predice sólo entre aquellos casos en los que podemos observar el resultado. En la solicitud de fianza esto significa que nuestro algoritmo solo puede usar datos sobre los acusados que fueron puestos en libertad por los jueces, porque solo tenemos un etiqueta proporcionando la respuesta correcta a si el acusado comete un delito o no para los acusados que los jueces decidieron poner en libertad. ¿Qué hay de los acusados que los jueces decidieron no liberar? Los datos disponibles no pueden decirnos si se habrían reofendido o no.
Esto hace que sea difícil evaluar si alguna nueva herramienta de aprendizaje automático puede realmente mejorar los resultados en relación con el sistema de toma de decisiones existente, en este caso, los jueces. Si alguna nueva regla de liberación basada en aprendizaje automático quiere liberar a alguien a los jueces encarcelados, no podemos observar su «etiqueta», entonces, ¿cómo sabemos lo que pasaría si realmente los liberamos?
No se trata simplemente de un problema de interés académico. Imagínese que los jueces tienen acceso a información sobre los acusados que el algoritmo no tiene, como si los miembros de la familia aparecen en el tribunal para apoyarlos. Para tomar un ejemplo simplificado y extremo, supongamos que el juez es particularmente preciso en el uso de esta información adicional y puede aplicarla para predecir perfectamente si los acusados jóvenes reofenden o no. Por lo tanto, los jueces liberan sólo a aquellos jóvenes que corren un riesgo cero de reincidencia. El algoritmo sólo puede ver los datos de aquellos jóvenes que fueron liberados, los que nunca vuelven a ofender. Tal algoritmo concluiría esencialmente que el juez está cometiendo un grave error al encarcelar a tantos acusados jóvenes (ya que ninguno de los que están en su conjunto de datos comete crímenes). El algoritmo recomendaría liberar a acusados mucho más jóvenes. El algoritmo sería incorrecto. Como resultado, podría empeorar el mundo sin darse cuenta.
En resumen, el hecho de que un algoritmo predice bien en la parte de los datos de prueba donde podemos observar etiquetas no necesariamente significa que hará buenas predicciones en el mundo real. La mejor manera de resolver este problema es hacer un ensayo controlado aleatorizado del tipo que es común en medicina. Entonces podríamos comparar directamente si las decisiones de libertad bajo fianza tomadas utilizando el aprendizaje automático conducen a mejores resultados que las tomadas en casos comparables utilizando el sistema actual de toma de decisiones judiciales. Pero incluso antes de llegar a esa etapa, tenemos que asegurarnos de que la herramienta sea lo suficientemente prometedora como para justificar éticamente su prueba sobre el terreno. En nuestro caso de fianza, gran parte del esfuerzo se destinó a encontrar un «experimento natural» para evaluar la herramienta.
Nuestro experimento natural se basa en dos perspectivas. Primero, dentro de los límites jurisdiccionales, es esencialmente aleatorio qué jueces conocen qué casos. En segundo lugar, los jueces son muy diferentes en lo indulgente que son. Esto nos permite medir cuán buenos son los jueces en la selección de acusados adicionales para la cárcel. ¿Cuánta reducción de delitos produce un juez con una tasa de liberación del 70% en comparación con un juez con una tasa de liberación del 80%? También podemos usar estos datos para preguntar qué tan bueno sería un algoritmo en la selección de acusados adicionales para la cárcel. Si tomáramos el número de casos de un juez de tasa de liberación del 80% y usamos nuestro algoritmo para elegir a un 10% adicional de los acusados a la cárcel, ¿seríamos capaces de lograr una tasa de criminalidad más baja que la que obtiene el juez de la tasa de liberación del 70%? Esa comparación «humano contra máquina» no se tropeza con etiquetas faltantes para los acusados que los jueces encarcelados, pero el algoritmo quiere liberar, porque solo estamos pidiendo al algoritmo que recomiende detenciones adicionales (no liberaciones). Es una comparación que se basa únicamente en etiquetas que ya tenemos en los datos, y confirma que las predicciones del algoritmo realmente conducen a mejores resultados que los de los jueces.
Puede ser erróneo, y a veces totalmente dañino, adoptar y ampliar nuevas herramientas predictivas cuando solo se han evaluado en casos de datos históricos con etiquetas, en lugar de evaluarse en función de su efecto en la decisión política clave de interés. Los usuarios inteligentes pueden llegar tan lejos como para negarse a usar cualquier herramienta de predicción que no tome este desafío de evaluación más en serio.
Recuerda que todavía hay muchas cosas que no sabemos
Si bien el aprendizaje automático se utiliza ahora ampliamente en aplicaciones comerciales, el uso de estas herramientas para resolver problemas de política es relativamente nuevo. Todavía hay una gran cantidad que aún no sabemos, pero que necesitaremos averiguar seguir adelante.
Tal vez el ejemplo más importante de esto es cómo combinar el juicio humano y el juicio algorítmico para tomar las mejores decisiones políticas posibles. En el dominio de la política, es difícil imaginar pasar a un mundo en el que los algoritmos en realidad hacer las decisiones; esperamos que en su lugar se utilicen como ayuda para la adopción de decisiones.
Para que los algoritmos añadan valor, necesitamos que la gente los utilice realmente; es decir, prestar atención a ellos en al menos algunos casos. A menudo se afirma que para que las personas estén dispuestas a usar un algoritmo, necesitan ser capaces de entender realmente cómo funciona. Tal vez. Pero, ¿cuántos de nosotros sabemos cómo funcionan nuestros coches, o nuestros iPhones, o marqueros? ¿Cuántos de nosotros cambiaríamos rendimiento por comprensión en nuestras propias vidas, por ejemplo, renunciando a nuestro actual automóvil con su desconcertante motor de combustión interna para el coche de Fred Picapiedra?
El otro lado es que los responsables políticos necesitan saber cuándo deben anular el algoritmo. Para que las personas sepan cuándo anular, necesitan comprender su ventaja comparativa sobre el algoritmo, y viceversa. El algoritmo puede mirar millones de casos del pasado y decirnos lo que sucede, en promedio. Pero a menudo es solo el humano quien puede ver la circunstancia atenuante en un caso dado, ya que puede estar basado en factores no capturados en los datos sobre los que se entrenó el algoritmo. Al igual que con cualquier tarea nueva, la gente será mala en esto al principio. Si bien deberían mejorar con el tiempo, habría un gran valor social en entender más acerca de cómo acelerar esta curva de aprendizaje.
Precaución con esperanza
Un viajero en el tiempo que se remonta a los albores de los 20 th siglo llegaría con advertencias terribles. Un invento estaba a punto de causar un gran daño. Se convertiría en una de las mayores causas de muerte, y para algunos grupos de edad la mayor causa de muerte. Exacentaría las desigualdades, ya que quienes podrían permitirla podrán acceder a más puestos de trabajo y vivir más cómodamente. Cambiaría la faz del planeta en el que vivimos, afectando el paisaje físico, contaminando el medio ambiente y contribuyendo al cambio climático.
El viajero en el tiempo no quiere que estas advertencias para crear un pánico apresurado que impide por completo el desarrollo del transporte automovilístico. En cambio, quiere que estas advertencias ayuden a la gente a saltarse algunos pasos y seguir un camino más seguro: centrarse en inventos que hacen que los coches sean menos peligrosos, construir ciudades que permitan un transporte público fácil y centrarse en vehículos de baja emisión.
Un viajero en el tiempo del futuro que nos habla hoy puede llegar con advertencias similares sobre el aprendizaje automático y fomentar un enfoque similar. Ella podría alentar la difusión del aprendizaje automático para ayudar a resolver los problemas sociales más difíciles con el fin de mejorar la vida de muchos. También nos recordaría que debemos tener en cuenta, y usar nuestros cinturones de seguridad.
— Escrito por Jon Kleinberg, Sendhil Mullainathan Jon Kleinberg,