Por qué la IA no estuvo a la altura de su potencial durante la pandemia
La pandemia podría haber sido el momento en que la IA aprovechó su potencial prometedor. Hubo una convergencia sin precedentes de la necesidad de decisiones rápidas y basadas en evidencia y de resolución de problemas a gran escala con conjuntos de datos que se derramaron de todos los países del mundo. En cambio, la IA fracasó en innumerables formas específicas que subrayan dónde esta tecnología aún es débil: conjuntos de datos incorrectos, sesgos y discriminación incrustados, susceptibilidad al error humano y un contexto global complejo y desigual causaron fallas críticas. Sin embargo, estos fracasos también ofrecen lecciones sobre cómo podemos mejorar la IA: 1) necesitamos encontrar nuevas formas de reunir conjuntos de datos completos y fusionar datos de múltiples fuentes, 2) debe haber más diversidad en las fuentes de datos, 3) los incentivos deben alinearse para garantizar una mayor cooperación entre equipos y sistemas, y 4 ) necesitamos reglas internacionales para compartir datos.
La pandemia de Covid-19 fue el momento perfecto para que la IA, literalmente, salvara el mundo. Hubo una convergencia sin precedentes de la necesidad de decisiones rápidas, basadas en evidencia y resolución de problemas a gran escala con conjuntos de datos que se derramaron de todos los países del mundo. Para los sistemas de atención médica que enfrentan una enfermedad completamente nueva y de rápida propagación, la IA era, en teoría, la herramienta ideal. La IA podría implementarse para hacer predicciones, mejorar la eficiencia y liberar al personal mediante la automatización; podría ayudar a procesar rápidamente grandes cantidades de información y tomar decisiones que salvan vidas.
O, al menos, esa era la idea. Pero lo que realmente sucedió es que la IA falló en su mayoría.
Sin duda, hubo éxitos dispersos. La adopción de la automatización se aceleró en almacenes minoristas y aeropuertos; los chatbots se hicieron cargo del servicio al cliente cuando los trabajadores estaban confinados; las decisiones asistidas por IA ayudaron a reducir las selecciones de sitios para ensayos de vacunas o ayudó a acelerar los cruces fronterizos en Grecia.
Sin embargo, en general, al diagnosticar Covid, predecir su curso a través de una población y gestionar la atención de las personas con síntomas, las herramientas de decisión basadas en la IA no cumplieron. Ahora que se ha calmado parte de la confusión de los primeros días de la pandemia, es hora de reflexionar sobre el rendimiento de la IA en su propia «prueba de Covid». Si bien esta fue una oportunidad perdida, la experiencia proporciona pistas sobre cómo deben evolucionar los sistemas de IA para alcanzar las elevadas expectativas de lo que fue más comentados tecnología del año pasado.
Dónde falló la IA
Al principio, las cosas parecían prometedoras. Las máquinas golpean a los humanos al elevar la alerta temprana sobre un misterioso virus nuevo en Wuhan, China. Hospital Infantil de Boston Sistema HealthMap, que rastrea las noticias en línea y las redes sociales en busca de señales tempranas de enfermedades, junto con un raspador de noticias de salud canadiense, Punto azul, captó señales de advertencia. El algoritmo de BlueDot incluso predijo que las ciudades correrían mayor riesgo si las personas infectadas viajaban, todos los días antes de que la OMS y semanas antes de que el resto del mundo se pusiera al día.
Cuando el mundo entró oficialmente en confinamiento en 2020, estaba claro que la contribución revolucionaria de la IA sería la predicción rápida: diagnóstico, pronóstico y previsión de la propagación de una enfermedad emergente desconocida, con no hay una manera fácil de probar para ello de manera oportuna.
Numerosos equipos habilitados para IA se movilizaron para aprovechar la oportunidad. En el hospital Mount Sinai de Nueva York, por ejemplo, un equipo diseñó un sistema de IA para diagnosticar rápidamente el Covid-19 utilizando algoritmos entrenados en datos de tomografías computarizadas pulmonares Otro grupo en el MIT creó un diagnóstico utilizando algoritmos entrenados en los sonidos de la tos. Un tercer equipo, un NYU y chino , utilizó herramientas de IA para predecir qué pacientes de Covid-19 desarrollarían una enfermedad respiratoria grave. Habíamos oído hablar durante años del potencial transformador de la IA y, de repente, tuvimos la oportunidad de verlo en acción.
Entonces, ¿cómo funcionaron estos predictores de Covid impulsados por IA? Dicho sin rodeos, aterrizaron con un ruido sordo. A revisión sistemática en El BMJ de herramientas para el diagnóstico y el pronóstico de Covid-19 encontraron que el rendimiento predictivo era débil en entornos clínicos del mundo real. Otro estudio en la Universidad de Cambridge de más de 400 herramientas que utilizan modelos de aprendizaje profundo para diagnosticar Covid-19 aplicados a las radiografías de tórax y los datos de las tomografías computarizadas los encontraron totalmente A tercer estudio reportado en la revista, Naturaleza , consideró una amplia gama de aplicaciones, incluidas las predicciones, la detección de brotes, el monitoreo en tiempo real del cumplimiento de las recomendaciones de salud pública y la respuesta a los tratamientos, y descubrió que eran de poca utilidad práctica.
Sin embargo, podemos aprender de estas decepciones a medida que nos preparamos para reconstruir una IA mejor. Hay cuatro lugares donde aparecieron las líneas de falla: conjuntos de datos incorrectos, discriminación automatizada, fallas humanas y un contexto global complejo. Si bien se relacionan con las decisiones de Covid-19, las lecciones son ampliamente aplicables.
El peligro de conjuntos de datos incorrectos
Las herramientas de toma de decisiones de IA solo son tan buenas como los datos utilizados para entrenar los algoritmos subyacentes. Si los conjuntos de datos son malos, los algoritmos toman malas decisiones. En el contexto de Covid, existen muchas barreras para ensamblar conjuntos de datos «buenos».
Primero, la amplitud de los síntomas de Covid subrayó el desafío de ensamblar conjuntos de datos completos. Los datos tuvieron que extraerse de varios registros médicos electrónicos dispares, que por lo general estaban encerrados dentro de diferentes sistemas institucionales y sus correspondientes silos. No solo cada sistema estaba separado, sino que también tenían diferentes estándares de gobernanza de datos con políticas de consentimiento y confidencialidad incompatibles. Estos problemas se amplificaron gracias a los sistemas de atención médica en diferentes países, con reglas incompatibles de privacidad de los pacientes, gobernanza de datos y localización que limitaron la combinación general de dichos conjuntos de datos.
El impacto final de estos datos incompletos y de mala calidad fue que dieron lugar a malas predicciones, lo que hizo que las herramientas de decisión de IA no fueran confiables y poco confiables.
Un segundo problema surgió de la forma en que se recopilaron y almacenaron los datos en entornos clínicos. Los recuentos de casos agregados son más fáciles de reunir, pero pueden omitir detalles clave sobre el historial del paciente y otros atributos demográficos, personales y sociales. Los detalles aún más precisos sobre cuándo el paciente estuvo expuesto, mostró síntomas y se hizo la prueba y la naturaleza de los síntomas, con qué variante se infectó, las intervenciones médicas y sus resultados, etc., son importantes para predecir cómo se propagará el virus. Para agravar los problemas, algunos conjuntos de datos se unieron a partir de múltiples fuentes, lo que introdujo inconsistencias y redundancias.
En tercer lugar, un conjunto de datos exhaustivo con pistas sobre los síntomas de Covid, cómo podría propagarse la enfermedad, quién es más o menos susceptible y cómo manejar la enfermedad debería basarse en múltiples fuentes, dada su novedad. Además de los datos de los entornos formales de atención médica, hay otras fuentes de información crítica, conjuntos de datos y análisis relevantes para predecir las vías de una enfermedad nueva y emergente. Estos datos adicionales pueden extraerse de múltiples repositorios, aprovechando de manera efectiva las experiencias de las personas que luchan contra la enfermedad. Dichos repositorios podrían incluir Twitter, foros de mensajes profesionales, análisis realizados por profesionales y aficionados en plataformas de «código abierto», revistas médicas, blogs y medios de comunicación. Por supuesto, una vez que se tienen en cuenta tantas fuentes dispares de datos relevantes, el proceso de integración, la corrección de información incorrecta o errónea, la corrección de inconsistencias y los algoritmos de entrenamiento aumentaron la complejidad de crear un conjunto de datos completo.
Discriminación automatizada
Incluso cuando había datos disponibles, las predicciones y decisiones recomendadas por los algoritmos de gestión de la atención médica llevaron a decisiones potencialmente altamente discriminatorias, y preocupaciones de que algunos pacientes recibieron una atención peor. Esto se debe a que los conjuntos de datos utilizados para entrenar los algoritmos reflejaron un registro de anomalías e inequidades históricas: niveles más bajos de acceso a atención médica de calidad; registros incorrectos e incompletos; y una desconfianza profundamente arraigada en el sistema de atención médica que llevó a algunos grupos a evitarlo.
Existe una gran preocupación por los impactos negativos del sesgo de la IA, pero durante la pandemia, las consecuencias de dicho sesgo fueron graves. Por ejemplo, considere un estudio previo a COVID en Ciencia que encontró que a los pacientes negros se les asignó el mismo nivel de riesgo mediante un algoritmo que a los pacientes blancos, a pesar de que estos últimos no estaban tan enfermos, lo que llevó a una atención médica inadecuada para los pacientes negros. De cara al futuro, dado que los pacientes negros e hispanos con Covid-19 sufrieron tasas de mortalidad más altas que los pacientes blancos, los algoritmos se podría recomendar que los hospitales redirigen sus escasos recursos lejos de los pacientes negros e hispanos.
El impacto final de tal discriminación automatizada es aún más distorsionador si consideramos que estos grupos desfavorecidos también se han visto afectados de manera desproporcionada por los casos más graves de Covid-19: en los EE. UU., el doble de probabilidades morir a causa de la enfermedad como pacientes blancos.
Errores humanos
La calidad de cualquier sistema de IA no se puede desvincular de las personas y las organizaciones. Los comportamientos, desde la elección de las aplicaciones y los conjuntos de datos que se utilizan hasta la interpretación de las decisiones, están determinados por los incentivos y los contextos organizacionales.
Los incentivos incorrectos pueden ser un gran problema. Los gerentes que supervisan los sistemas de atención médica a menudo tenían pocos incentivos para compartir datos sobre los pacientes; los datos pueden haber estado vinculados a los ingresos, o compartirlos puede generar preocupaciones sobre la confidencialidad de los pacientes. Para los investigadores, las recompensas a menudo se alineaban con el intercambio de datos con algunas partes seleccionadas, pero no con todos. Además, había pocos incentivos profesionales para validar los resultados existentes, ya que hay más gloria en producir nuevos hallazgos en lugar de replicar o validar otros estudios. Esto significa que es posible que los resultados del estudio no se hayan aplicado en una variedad lo suficientemente amplia de entornos, lo que los hace poco confiables o inutilizables y hace que los cuidadores duden en usar herramientas que no se habían probado en varios entornos. Es particularmente arriesgado experimentar con la salud humana.
Luego, está el problema de los errores de entrada de datos. Muchos de los datos acumulados sobre el Covid-19 se referían a entornos en los que los trabajadores de la salud operaban bajo presión y un volumen de casos extraordinariamente elevado. Esto puede haber contribuido a que los conjuntos de datos estén mal etiquetados e incompletos, con errores que aparecen incluso en certificados de defunción. En muchos países, los sistemas de atención de salud subregistro Casos de covid-19, ya sea porque las autoridades los alentaron a hacerlo, debido a pautas poco claras, o simplemente porque el personal estaba abrumado.
Incluso con herramientas de IA disponibles, los humanos responsables de tomar decisiones a menudo carecían de capacidades interpretativas críticas, desde el lenguaje hasta la conciencia del contexto o la capacidad de detectar sesgos y errores. Hasta el momento, no existe un código de ética aceptado de manera uniforme, ni una lista de verificación, que dé a los cuidadores una idea de cuándo aplicar las herramientas de IA en lugar de mitigar los daños mediante el uso del juicio. Esto podría provocar un uso incoherente o incorrecto de las herramientas de IA y, finalmente, socavar la confianza en ellas.
Contexto global complejo y desigual
Una pandemia, por definición, afecta a diferentes sistemas políticos, económicos y socioculturales. Esto complica el proceso de ensamblaje de un conjunto de datos exhaustivo que se agrega en diferentes países con lecciones ampliamente aplicables. La pandemia subrayó el desafío de derivar herramientas de decisión universalmente aplicables para gestionar la salud humana en todos los entornos de atención médica, independientemente de la ubicación geográfica. Las intervenciones médicas apropiadas dependen de muchos factores, desde la biología hasta las fuerzas institucionales, sociopolíticas y culturales y el entorno local. Incluso si muchas facetas de la biología humana son comunes en todo el mundo, los demás factores varían ampliamente.
Por un lado, existen diferencias entre los países en términos de sus políticas con respecto a gobernanza de datos. Muchos países tienen leyes de localización de datos que evitan que los datos se transporten a través de las fronteras. No existe un consenso internacional sobre cómo se deben compartir los datos de atención médica. Si bien la red internacional preexistente para el intercambio de datos de secuencias del genoma de la influenza se extendió al intercambio de secuencias para Covid-19, una colaboración más profunda en el intercambio de datos entre los países podría haber ayudado a la gestión continua de la enfermedad. La ausencia de acuerdos de intercambio y gobernanza más amplios constituía un obstáculo fundamental.
En segundo lugar, había diferencias entre los países desarrollados y los países en desarrollo en relación con el intercambio de datos sobre la atención Algunos investigadores argumentan que las secuencias genómicas deben compartirse en bases de datos abiertas para permitir análisis a gran escala. Otros se preocupan sobre la explotación; les preocupa que los investigadores y las instituciones de los países más pobres no hayan recibido el crédito adecuado y que los beneficios del intercambio de datos se limiten a los países ricos.
En tercer lugar, la historia y los contextos sociopolíticos de los países y sus marcos éticos para el intercambio de datos, incluso dentro de su propia ciudadanía, son diferentes, lo que da lugar a diferencias en la voluntad de que los datos personales se recopilen, analicen y compartan para uso público. Considere las variadas experiencias con las aplicaciones de identificación de exposición y rastreo de contactos con ayuda de IA.
Corea del Sur presentó un ejemplo extremo de recopilación de datos intrusiva. El país tecnología de rastreo de contactos implementada junto con pruebas generalizadas. Su aplicaciones de seguimiento se combinaron con imágenes de CCTV, registros médicos y de viajes e información sobre transacciones con tarjeta de crédito. La voluntad de los coreanos de tolerar este nivel de intrusión se remonta a la historia del país. La administración anterior había arruinó su respuesta al brote de MERS de 2015, cuando no compartió información sobre los hospitales visitados por ciudadanos infectados. Esto llevó al apoyo público a la legislación que otorga a las autoridades sanitarias acceso a los datos sobre los ciudadanos infectados y el derecho a emitir alertas. Por el contrario, la aplicación de rastreo de contactos del gobierno alemán fue rechazada por el público una vez carta abierta muy crítica de los expertos aumentaron los temores de la vigilancia estatal. Como resultado, Alemania abandonaron el modelo centralizado para un alternativa descentralizada. De nuevo, la historia proporciona una explicación. Los alemanes han vivido dos regímenes de vigilancia notorios: el Gestapo durante la era nazi y el Stasi durante la Guerra Fría. La recopilación de datos estatales controlada centralmente no estaba destinada a ser popular.
Por último, los datos sobre pacientes de un país pueden no ser buenos predictores en otros países. Una variedad de otros factores de raza, demografía, circunstancias socioeconómicas, calidad de la atención médica, niveles de inmunidad, comorbilidades, etc., marcan la diferencia.
Qué hacer ahora
Se pueden extraer varias lecciones que pueden ayudar a mejorar los sistemas de IA futuros que deben estar preparados para la próxima pandemia.
1) Encuentre mejores formas de ensamblar conjuntos de datos completos y fusionar datos de múltiples fuentes.
Ayudaría tener conjuntos de datos de atención médica en formatos estandarizados junto con mecanismos para crear repositorios centralizados de datos. También se deben considerar nuevas técnicas de procesamiento de datos. Los ejemplos incluyen la asignación para privacidad diferencial o usar datos sintéticos en lugar de datos reales a medida que mejoran las tecnologías para facilitar dichas innovaciones. Además, el problema no es solo de datos fragmentados o incompletos, sino también de demasiados datos. La transmisibilidad del virus, el hecho de que muta constantemente, el movimiento de personas a través de las fronteras y el uso generalizado de la secuenciación genómica significa que los sistemas de IA deben lidiar con una avalancha de datos. Debe haber sistemas que puedan manejar conjuntos de datos tan grandes y etiquetarlos y organizarlos adecuadamente.
2) Debe haber una diversidad de fuentes de datos.
Se pueden aprender algunas lecciones del ejemplo de Ciencia abierta de Nightingale, que ha acumulado 40 terabytes de imágenes médicas en una amplia gama de afecciones y tratamientos, junto con una diversidad de datos y resultados de los pacientes. Estos se utilizarán para entrenar algoritmos para predecir afecciones médicas antes, llevar a cabo la clasificación y salvar vidas de manera imparcial. Intentan trabajar con los sistemas de salud de todo el mundo, específicamente los que no cuentan con recursos suficientes, para mitigar las posibilidades de representación insuficiente y evitar la discriminación automatizada.
3) Los incentivos deben alinearse para garantizar una mayor cooperación entre equipos y sistemas.
A los equipos de IA también se les deben proporcionar oportunidades e incentivos para colaborar con los médicos y otras personas que conocen los problemas prácticos. También es esencial planificar una diversidad de grupos de stakeholder involucrados en el establecimiento de marcos éticos y listas de verificación para los profesionales que utilizan la IA en entornos de misión crítica, junto con procesos claros para la gobernanza y la rendición de cuentas. Dichos grupos deben incluir ingenieros y tecnólogos, expertos en áreas funcionales clave, así como especialistas en ética que puedan guiar el uso de los sistemas de IA y su alineación con los juicios de valor.
Apelar a las comunidades de código abierto es otra forma de recopilar datos de múltiples fuentes de manera cooperativa. La Grupo de trabajo de datos abiertos sobre COVID-19, el Red MIDAS y otros esfuerzos colaborativos locales proporcionar modelos que otros puedan replicar. Permitir formas de colaboraciones interdisciplinarias puede ser clave para los avances. Por ejemplo, BioNTech, la empresa biotecnológica alemana pionera en la tecnología de ARN mensajero detrás del Vacuna contra el Covid-19, se ha asociado con la empresa de inteligencia artificial con sede en Londres En Deep crear un «sistema de alerta temprana» para detectar nuevas variantes del coronavirus.
4) Redactar reglas internacionales para el intercambio de datos.
Para que los datos de salud se compartan entre países, necesitamos convenciones internacionales que faciliten la puesta en común de información crítica y acuerdos sobre el intercambio de datos, al tiempo que preservan la privacidad y la confidencialidad. Los equipos de IA deben estar capacitados para reconocer las diferencias en los entornos globales de atención médica, de modo que puedan colocar los datos de diferentes partes del mundo en el contexto apropiado.
A medida que esta pandemia se vuelve endémica y nos preparamos para la próxima, hay muchas oportunidades para que la IA deje su huella. Después de las tendencias de gripe tan promocionadas por Google perdido la magnitud de la temporada de influenza 2013, Covid ofreció una oportunidad dramática de redención para la IA como herramienta predictiva. Pero dentro de los fracasos actuales se encuentran las semillas de los sistemas de IA que pueden florecer en el futuro.
Bhaskar Chakravorti