Si sus datos son malos, sus herramientas de aprendizaje automático son inútiles

Si sus datos son malos, sus herramientas de aprendizaje automático son inútiles

Resumen.

La mala calidad de los datos es el principal enemigo del uso generalizado y rentable del aprendizaje automático. Las exigencias de calidad del aprendizaje automático son muy pronunciadas, y los datos defectuosos pueden traspasar dos veces su desagradable cabeza tanto en los datos históricos utilizados para entrenar el modelo predictivo como en los nuevos datos utilizados por ese modelo para tomar decisiones futuras. Para garantizar que dispone de los datos adecuados para el aprendizaje automático, debe contar con un programa de calidad agresivo y bien ejecutado. Requiere que los líderes del esfuerzo general den los cinco pasos siguientes: En primer lugar, aclarar sus objetivos y evaluar si dispone de los datos adecuados para respaldar estos objetivos. En segundo lugar, cree tiempo suficiente para ejecutar los fundamentos de la calidad de los datos en el plan general del proyecto. En tercer lugar, mantenga un registro de auditoría mientras prepara los datos de formación. En cuarto lugar, cobrar a un individuo o equipo específico la responsabilidad de la calidad de los datos a medida que sueltas tu modelo. Por último, obtenga una garantía de calidad independiente y rigurosa.


La mala calidad de los datos es el principal enemigo del uso generalizado y rentable del aprendizaje automático. Si bien la observación cáustica, «basura, basura» ha plagado el análisis y la toma de decisiones durante generaciones, conlleva una advertencia especial para el aprendizaje automático. Las exigencias de calidad del aprendizaje automático son elevadas y los datos defectuosos pueden volver a su desagradable cabeza dos veces: primero en los datos históricos utilizados para entrenar el modelo predictivo y el segundo en los nuevos datos utilizados por ese modelo para tomar decisiones futuras.

Para entrenar correctamente un modelo predictivo, los datos históricos deben cumplir unos estándares de calidad excepcionalmente amplios y elevados. En primer lugar, los datos deben ser correctos: deben estar correctos, etiquetados correctamente, desduplicados,. Pero también debes tener el derecha datos: muchos datos imparciales, en toda la gama de insumos para los que uno tiene como objetivo desarrollar el modelo predictivo. La mayoría del trabajo de calidad de los datos se centra en un criterio u otro, pero para el aprendizaje automático, debe trabajar en ambos simultáneamente.

Sin embargo, hoy, la mayoría de los datos no cumplen las normas básicas de «los datos son correctos». Las razones van desde los creadores de datos que no entienden lo que se espera, hasta equipos de medición mal calibrados, procesos excesivamente complejos y errores humanos. Para compensar, los científicos de datos limpian los datos antes de entrenar el modelo predictivo. Es un trabajo tedioso y laborioso (tomar hasta el 80% del tiempo de los científicos de datos), y es el los científicos de datos problemáticos se quejan de la mayoría. Incluso con estos esfuerzos, la limpieza no detecta ni corrige todos los errores y, por el momento, no hay forma de entender el impacto en el modelo predictivo. Además, los datos no siempre cumplen los estándares de «los datos correctos», como informes de sesgo en el reconocimiento facial y justicia penal atestique.

Los problemas cada vez más complejos exigen no solo más datos, sino datos más diversos e integrales. Y esto viene acompañado de más problemas de calidad. Por ejemplo, las notas manuscritas y las siglas locales han complicado los esfuerzos de IBM para aplicar el aprendizaje automático (por ejemplo, Watson) al tratamiento del cáncer.

La calidad de los datos no es menos problemática en la implementación. Considere la posibilidad de una organización que busca ganancias de productividad con su programa de aprendizaje automático. Si bien el equipo de ciencia de datos que desarrolló el modelo predictivo puede haber realizado un trabajo sólido limpiando los datos de formación, aún puede verse comprometido por datos defectuosos en el futuro. Una vez más, se necesita gente, muchas de ellas, para encontrar y corregir los errores. Esto, a su vez, subvierte los aumentos de productividad esperados. Además, a medida que las tecnologías de aprendizaje automático penetran en las organizaciones, la producción de un modelo predictivo alimentará al siguiente y el siguiente, etc., incluso cruzará los límites de la empresa. El riesgo es que un error menor en un solo paso se produzca en cascada, que provoque más errores y aumente cada vez más a lo largo de todo un proceso.

Estas inquietudes deben satisfacerse con un programa de calidad agresivo y bien ejecutado, mucho más involucrado de lo necesario para los negocios cotidianos. Exige que los líderes del esfuerzo general den los cinco pasos siguientes.

En primer lugar, aclare sus objetivos y evalúe si dispone de los datos adecuados para respaldar estos objetivos. Considere una empresa de origen hipotecario que desee aplicar el aprendizaje automático a su proceso de préstamo. ¿Debería conceder el préstamo y, en caso afirmativo, en qué condiciones? Los posibles objetivos para utilizar el aprendizaje automático incluyen:

  • Reducción del coste del proceso de decisión existente. Dado que tomar mejores decisiones no es un objetivo, los datos existentes pueden ser adecuados.
  • Eliminación del sesgo del proceso de decisión existente. Este sesgo se refleja casi con toda seguridad en sus datos existentes. Proceda con precaución.
  • Mejorar el proceso de toma de decisiones: conceder menos préstamos que impago y aprobación de los préstamos previamente rechazados que se ejecutarán. Tenga en cuenta que, si bien la compañía tiene muchos datos sobre hipotecas rechazadas anteriormente, no sabe si estas hipotecas se habrían cumplido. Proceda con extrema precaución.

Cuando los datos no cumplen los objetivos, el mejor recurso es encontrar nuevos datos, reducir los objetivos o ambos.

En segundo lugar, cree tiempo suficiente para ejecutar los fundamentos de la calidad de los datos en el plan general del proyecto. Para la formación, esto significa cuatro meses-persona de limpieza por cada mes persona que construye el modelo, ya que debe medir los niveles de calidad, evaluar las fuentes, deduplicar y limpiar los datos de formación, tanto como lo harías para cualquier análisis importante. Para las implementaciones, lo mejor es eliminar las causas fundamentales del error y así minimizar la limpieza continua. Hacerlo tendrá el efecto saludable de eliminar las fábricas de datos ocultos, ahorrándole tiempo y dinero en las operaciones también. Comience este trabajo lo antes posible y al menos seis meses antes de que desee soltar su modelo predictivo.

En tercer lugar, mantenga un registro de auditoría mientras prepara los datos de formación. Mantenga una copia de los datos de formación originales, los datos que utilizó en la formación y los pasos utilizados para pasar del primero al segundo. Hacerlo es simplemente una buena práctica (aunque muchos lo omiten insabiamente) y puede ayudarle a mejorar el proceso que necesitará para utilizar su modelo predictivo en futuras decisiones. Además, es importante comprender los sesgos y limitaciones de su modelo y la pista de auditoría puede ayudarle a solucionarlo.

En cuarto lugar, cobra a un individuo (o equipo) específico la responsabilidad de la calidad de los datos a medida que suelta su modelo. Esta persona debe poseer un conocimiento íntimo de los datos, incluidas sus fortalezas y debilidades, y tener dos focos. En primer lugar, día después y día fuera, establecen y aplican estándares para la calidad de los datos entrantes. Si los datos no son lo suficientemente buenos, los humanos deben asumir el control. En segundo lugar, lideran los esfuerzos continuos para encontrar y eliminar las causas fundamentales del error. Este trabajo ya debería haber comenzado y debe continuar.

Por último, obtenga una garantía de calidad independiente y rigurosa. Como se utiliza aquí, la garantía de calidad es el proceso de garantizar que el programa de calidad proporcione los resultados deseados. El lema aquí es independiente, por lo tanto, este trabajo debe ser realizado por otros: un departamento interno de control de calidad, un equipo de fuera del departamento o un tercero calificado.

Incluso después de seguir estos cinco pasos, sin duda descubrirá que sus datos no son perfectos. Es posible que pueda acomodar algunos problemas menores de calidad de los datos en el modelo predictivo, como un único valor que falta entre las quince variables más importantes. Para explorar esta área, empareja a los científicos de datos y los empresarios con más experiencia al preparar los datos y entrenar el modelo. Laura Kornhauser, de Stratyfy, Inc., una start-up centrada en aportar transparencia y responsabilidad a la inteligencia artificial, lo expresó así: «Reúna a sus empresarios y a sus científicos de datos lo antes posible. Los empresarios, en particular, han tratado con datos defectuosos para siempre y es necesario incorporar su experiencia en su modelo predictivo».

¿Parece mucho? Lo es. Pero el aprendizaje automático tiene un poder increíble y necesitas aprender a aprovechar esa potencia. La mala calidad de los datos puede hacer que ese poder se demore, se niegue o se haga mal uso, lo que justifica plenamente cada onza del esfuerzo.

Escrito por Thomas C. Redman