Los pequeños datos pueden desempeñar un papel importante en la IA
Por cada conjunto de macrodatos (con mil millones de columnas y filas) que impulsa una iniciativa de IA o análisis avanzado, una organización grande típica puede tener mil conjuntos de datos pequeños que no se utilizan. Abundan los ejemplos: encuestas de marketing sobre nuevos segmentos de clientes, actas de reuniones, hojas de cálculo con menos de 1000 columnas y filas. A medida que avancen las técnicas de datos pequeños, su mayor eficiencia, precisión y transparencia se utilizará cada vez más en todos los sectores y funciones empresariales. Piense en el descubrimiento de fármacos, la recuperación de imágenes industriales, el diseño de nuevos productos de consumo y la detección de piezas defectuosas de las máquinas de fábrica y mucho más. Pero la ventaja competitiva no vendrá de la automatización, sino del factor humano. Por ejemplo, a medida que la IA desempeña un papel cada vez más importante en la formación de las habilidades de los empleados, su capacidad de aprender de conjuntos de datos más pequeños permitirá a los empleados expertos integrar sus conocimientos en los sistemas de formación, mejorarlos continuamente y transferir sus habilidades de manera eficiente a otros trabajadores. Las personas que no son científicos de datos podrían transformarse en formadores de IA, lo que permitiría a las empresas aplicar y ampliar las enormes reservas de experiencia sin explotar exclusivas de sus organizaciones.
••• Más de[tres cuartas partes de las grandes empresas actuales](https://www.accenture.com/us-en/insights/future-systems/future-ready-enterprise-systems) tienen en marcha una iniciativa de IA «ávida de datos»: proyectos que incluyen redes neuronales o sistemas de aprendizaje profundo entrenados en enormes repositorios de datos. Sin embargo, muchos de los conjuntos de datos más valiosos de las organizaciones son bastante pequeños: piense en kilobytes o megabytes en lugar de exabytes. Como estos datos carecen del volumen y la velocidad de los macrodatos, a menudo se pasan por alto, ya que languidecen en los PC y las bases de datos funcionales y no están relacionados con las iniciativas de innovación de TI de toda la empresa. Pero como demuestra un experimento reciente que realizamos con programadores médicos, las herramientas y técnicas emergentes de la IA, junto con una atención cuidadosa a los factores humanos, están abriendo nuevas posibilidades para entrenar la IA con pequeños datos y transformar los procesos. Por cada conjunto de macrodatos (con mil millones de columnas y filas) que impulsa una iniciativa de IA o análisis avanzado, una organización grande típica puede tener mil conjuntos de datos pequeños[que no se utilizan](https://towardsdatascience.com/why-small-data-is-the-future-of-ai-cb7d705b7f0a). Abundan los ejemplos: encuestas de marketing sobre nuevos segmentos de clientes, actas de reuniones, hojas de cálculo con menos de 1000 columnas y filas. En nuestro experimento, un equipo de codificadores médicos añadió anotaciones a las historias clínicas, solo decenas de anotaciones en cada uno de los miles de gráficos. Los codificadores médicos analizan las historias clínicas de los pacientes individuales y traducen información compleja sobre diagnósticos, tratamientos, medicamentos y más en códigos alfanuméricos. Estos códigos se envían a los sistemas de facturación y a las aseguradoras de salud para su pago y reembolso, y desempeñan un papel fundamental en la atención de los pacientes. Los programadores de nuestro experimento, todos ellos enfermeros titulados, ya estaban acostumbrados a recurrir a un sistema de IA como ayuda. La IA escaneó gráficos e identificó los vínculos entre las afecciones médicas y los tratamientos y sugirió el código adecuado para un gráfico determinado. Queríamos ver si era posible transformar a los programadores, responsables de la evaluación precisa y individual de los gráficos, en entrenadores de IA capaces de enriquecer la IA con conocimientos médicos que mejorarían el rendimiento del sistema a la hora de identificar los enlaces. Lo que aprendimos a lo largo del experimento de 12 semanas es que crear y transformar los procesos de trabajo mediante una combinación de pequeños datos e IA requiere prestar mucha atención a los factores humanos. Creemos que tres principios centrados en las personas que surgieron del experimento pueden ayudar a las organizaciones a iniciar sus propias iniciativas de pequeños datos: **_Equilibre el aprendizaje automático con la experiencia en el dominio humano._** Varios[Herramientas de IA](https://arxiv.org/pdf/1904.05046.pdf) se han desarrollado para entrenar la IA con pequeños datos. Por ejemplo, el aprendizaje con pocos planos enseña a la IA a identificar categorías de objetos (rostros, gatos, motocicletas) basándose solo en uno o unos pocos ejemplos en lugar de en cientos de miles de imágenes. En el aprendizaje sin tiros, la IA es capaz de predecir con precisión la etiqueta de una imagen u objeto que no estaba presente en los datos de entrenamiento de la máquina. En otras palabras, puede identificar correctamente cosas que nunca había visto antes. El aprendizaje por transferencia implica transferir los conocimientos adquiridos con una tarea al aprendizaje de nuevas tareas (por ejemplo, identificar los subtipos de cáncer basándose en el conocimiento de otro tipo), lo que elimina la necesidad de la máquina de disponer de un enorme conjunto de datos nuevos para realizar la nueva tarea. En nuestro experimento, utilizamos una herramienta llamada gráfico de conocimiento, que representa de forma explícita las distintas relaciones entre los diferentes tipos de entidades: «Fármaco A _golosinas_ afección B», «Tratamiento X _alivia_ síntoma Y», «Síntoma Y _está asociado con_ afección B», etc. Captura de manera sucinta los conocimientos de los expertos y hace que esos conocimientos se adapten al razonamiento automático, por ejemplo, sobre la probabilidad de que se presente una afección específica con los medicamentos y tratamientos recetados. Para que los programadores pudieran transmitir sus conocimientos a la IA, desarrollamos una interfaz fácil de usar que les permitía revisar los enlaces impugnados de la base de datos del gráfico. Eran enlaces en los que sus colegas, al revisar los gráficos individuales, no estaban de acuerdo con la IA, ya fuera añadiendo enlaces desconocidos para el sistema o eliminando los enlaces que había añadido. Según su experiencia, los programadores podrían validar, eliminar o añadir enlaces directamente y fundamentar sus decisiones, que luego podrían ver sus colegas de programación. Además, se les animó a seguir su inclinación por utilizar Google (a menudo con WebMD) para investigar los enlaces entre fármacos y enfermedades, yendo más allá de lo que consideraban la lenta herramienta de búsqueda existente de la IA. Esta combinación de aprendizaje automático y experiencia humana tiene un efecto multiplicador significativo. En lugar de limitarse a evaluar gráficos individuales, los programadores agregaron conocimientos médicos que afectan a todos los gráficos futuros. Además, dado que la IA asume la mayor parte del trabajo rutinario, se reduce considerablemente la necesidad de revisar historias clínicas completas, lo que permite a los programadores centrarse en casos particularmente problemáticos. Mientras tanto, los científicos de datos se liberan de la tediosa y poco valiosa tarea de limpiar, normalizar y ordenar los datos. **_Céntrese en la calidad de la intervención humana, no en la cantidad de la producción de la máquina._** En el sistema actual, los programadores se centraban en la evaluación de gráficos individuales en grandes cantidades. Con el tiempo, la IA aprendió de la acumulación de enlaces añadidos o rechazados por una multitud de programadores: una vez que los programadores propusieron un número significativo de veces un vínculo entre fármacos y enfermedades con el que la IA no estaba familiarizada, un científico de datos lo añadió a la base de datos de gráficos. Este proceso manual solo se realizaba de vez en cuando, en parte debido al desfase en la acumulación de propuestas de enlaces, y se basaba en el apoyo cuantitativo para el enlace, más que en la experiencia médica. En el nuevo sistema, se alentó a los programadores a centrarse menos en el volumen de los enlaces individuales y más en dar instrucciones a la IA sobre cómo gestionar una determinada relación entre fármacos y enfermedades en general, proporcionando investigaciones cuando era necesario. Ahora se podría considerar la posibilidad de añadir enlaces a la IA de gráficos de conocimiento con una menor carga de pruebas cuantitativas. La IA aprendería de forma más regular y dinámica, especialmente sobre los vínculos entre fármacos y enfermedades raras, controvertidas o nuevas. **_Reconozca la dinámica social en juego en los equipos que trabajan con pequeños datos._** En sus nuevas funciones, los programadores rápidamente se vieron a sí mismos no solo como profesores de la IA, sino también como profesores de sus compañeros de programación. Lo más importante es que se dieron cuenta de que su reputación con los demás miembros del equipo se basaba en su capacidad de dar motivos sólidos para sus decisiones. Hablaban a menudo de la importancia de esas razones para la confianza de que un programador posterior se encontrara con un enlace desconocido. Después de solo unas cuantas sesiones experimentales, varios de los participantes pidieron que se aumentara el número de caracteres del cuadro de texto de la herramienta. Más tarde, pidieron que se modificara la caja de investigación para incluir más de una referencia. Cabe destacar que no solo empezaron a dedicar más tiempo a cada caso que con el sistema actual, sino que también a dar motivos aún más completos para sus decisiones a medida que se desarrollaba el experimento. Además, los programadores indicaron que se sentían más satisfechos y productivos a la hora de ejecutar las nuevas tareas, ya que utilizaban más sus conocimientos y adquirían nuevas habilidades que les ayudaban a desarrollar su experiencia. También se mostraron más positivos a la hora de trabajar con la IA a diario. A medida que avancen las técnicas de datos pequeños, su mayor eficiencia, precisión y transparencia se utilizará cada vez más en todos los sectores y funciones empresariales. Piensa[descubrimiento de fármacos](https://www.fiercebiotech.com/biotech/unlocking-small-data-next-frontier-drug-discovery), [recuperación de imágenes industriales](https://towardsdatascience.com/deep-learning-for-image-classification-with-less-data-90e5df0a7b8e), el diseño de nuevos productos de consumo y la detección de [piezas de máquinas de fábrica defectuosas](https://www.axios.com/narrow-ai-small-data-145b688f-489c-4c9c-bc29-837143d1f3c2.html) y mucho más. Pero la ventaja competitiva no vendrá de la automatización, sino del factor humano. Por ejemplo, a medida que la IA desempeña un papel cada vez más importante en la formación de las habilidades de los empleados, su capacidad de aprender de conjuntos de datos más pequeños permitirá a los empleados expertos integrar sus conocimientos en los sistemas de formación, mejorarlos continuamente y transferir sus habilidades de manera eficiente a otros trabajadores. Las personas que no son científicos de datos podrían transformarse en formadores de IA, como nuestros programadores, lo que permitiría a las empresas aplicar y ampliar las enormes reservas de experiencia sin explotar exclusivas de sus organizaciones. Además, los resultados que se obtengan de las aplicaciones de datos pequeños no provendrán de una caja negra, como ocurre en las aplicaciones que consumen muchos datos, sino de la colaboración entre personas y máquinas, que hace que esos resultados sean explicables y, por lo tanto, más confiables tanto dentro como fuera de la organización. Dominar las dimensiones humanas de unir los pequeños datos y la IA podría ayudar a marcar la diferencia competitiva para muchas organizaciones, especialmente para las que se encuentran en una carrera armamentista de macrodatos que es poco probable que ganen. _*Reconocimiento: Los autores quieren dar las gracias a nuestro equipo de investigación con sede en The Dock, el centro de innovación de Accenture en Dublín, en los laboratorios de Accenture de Dublín y en San Francisco. Nuestro equipo principal incluía a Diarmuid Cahalane, Medb Corcoran, Andrew Dalton, James Priestas, Patrick Connolly y David Lavieri._