Lo que todo directivo debe saber sobre el aprendizaje automático

por Mike Yeomans

JUL15_07_machine_learning_b

Quizás se ha enterado hace poco de un nuevo algoritmo que puede conducir un coche? ¿O inventar una receta? ¿O escanear una imagen y encontrar su rostro entre la multitud? Parece que cada semana las empresas encuentran nuevos usos para los algoritmos que se adaptan a medida que encuentran nuevos datos. El año pasado Cotizado por Wired un exempleado de Google dijo que «todo en la empresa se basa realmente en el aprendizaje automático».

El aprendizaje automático tiene un enorme potencial para transformar las empresas, pero en la práctica es en su mayoría mucho más mundano que los conductores de robots y los chefs. Piense en ello simplemente como una rama de la estadística, diseñada para un mundo de macrodatos. Los ejecutivos que quieran aprovechar al máximo los datos de sus empresas deben entender qué son, qué pueden hacer y qué deben tener en cuenta cuando los utilizan.

No solo macrodatos, sino datos extensos

La enorme escala de datos disponibles para las empresas puede plantear varios desafíos. Por supuesto, los macrodatos pueden requerir software y hardware avanzados para gestionarlos y almacenarlos. Pero el aprendizaje automático consiste en la forma en que el análisis de los datos también tiene que adaptarse al tamaño del conjunto de datos. Esto se debe a que el big data no es solo largo, pero ancho también. Por ejemplo, considere la base de datos de clientes de una tienda online en una hoja de cálculo. Cada cliente recibe una fila y, si hay muchos clientes, el conjunto de datos será largo. Sin embargo, cada variable de los datos también tiene su propia columna y ahora podemos recopilar tantos datos de cada cliente (historial de compras, historial de navegación, clics del ratón, texto de reseñas) que los datos suelen ser ancho también, hasta el punto de que hay incluso más columnas que filas. La mayoría de las herramientas del aprendizaje automático están diseñadas para hacer un mejor uso de los datos extensos.

Predicciones, no causalidad

La aplicación más común de las herramientas de aprendizaje automático es hacer predicciones_._ Estos son algunos ejemplos de problemas de predicción en una empresa:

Hacer recomendaciones personalizadas a los clientes
Previsión de la fidelización de los clientes a largo plazo
Anticipar el desempeño futuro de los empleados
Calificación del riesgo crediticio de los solicitantes de préstamos

Estos ajustes comparten algunas funciones comunes. Por un lado, todos son entornos complejos, en los que la decisión correcta puede depender de muchas variables (lo que significa que requieren datos «amplios»). También tienen algunos resultados para validar los resultados de una predicción, como si alguien hace clic en un artículo recomendado o si un cliente vuelve a comprar. Por último, hay que tomar una importante decisión empresarial que requiere una predicción precisa.

Una diferencia importante con las estadísticas tradicionales es que no se centra en causalidad en aprendizaje automático. Es decir, puede que no necesite saber qué pasa cuando cambia el entorno. En vez de eso, se centra en predicción, lo que significa que puede que solo necesite un modelo del entorno para tomar la decisión correcta. Es como decidir si salir de casa con una sombrilla: tenemos que predecir el tiempo antes de decidir si nos llevamos una. La previsión meteorológica es muy útil, pero es limitada; puede que la previsión no le diga cómo funcionan las nubes o cómo funciona el paraguas y no le diga cómo cambiar el tiempo. Lo mismo ocurre con el aprendizaje automático: las recomendaciones personalizadas son previsiones de las preferencias de las personas y son útiles, aunque no le digan por qué a las personas les gustan las cosas que hacen ni cómo cambiar lo que les gusta. Si tiene en cuenta estas limitaciones, el valor del aprendizaje automático será mucho más evidente.

Separar la señal del ruido

Hasta ahora hemos hablado de cuando el aprendizaje automático puede ser útil. Pero, ¿cómo se usa en la práctica? Sería imposible abarcarlo todo en un artículo, pero a grandes rasgos hay tres conceptos generales que capturan la mayor parte de lo que ocurre bajo el capó de un algoritmo de aprendizaje automático: extracción de funciones, que determina qué datos utilizar en el modelo; regularización, que determina cómo se ponderan los datos en el modelo; y validación cruzada , que pone a prueba la precisión del modelo. Cada uno de estos factores nos ayuda a identificar y separar la «señal» (relaciones valiosas y coherentes que queremos aprender) del «ruido» (correlaciones aleatorias que no se volverán a producir en el futuro y que queremos evitar). Cada conjunto de datos tiene una mezcla de señal y ruido, y estos conceptos le ayudarán a clasificar esa combinación para hacer mejores predicciones.

Extracción de funciones

Piense en la «extracción de características» como el proceso de determinar qué variables utilizará el modelo. A veces esto simplemente significa volcar todos los datos sin procesar directamente, pero muchas técnicas de aprendizaje automático pueden crear nuevas variables, llamadas «características», que pueden agregar señales importantes que se distribuyen entre muchas variables de los datos sin procesar. En este caso, la señal estaría demasiado diluida para tener efecto sin la extracción de características. Un ejemplo de extracción de rasgos es el reconocimiento facial, donde los «rasgos» son rasgos faciales reales (longitud de la nariz, color de ojos, tono de piel, etc.) que se calculan con información de muchos píxeles diferentes de una imagen. En una tienda de música, puede tener artículos para diferentes géneros. Por ejemplo, podría combinar todas las rebajas de rock en un solo largometraje, todas las ventas de clásicos en otro largometraje, etc.

Hay muchas formas diferentes de extraer funciones y las más útiles suelen ser las automatizadas. Eso significa que, en lugar de elegir cuidadosamente el género para cada álbum, puede encontrar «grupos» de álbumes que suelen ser comprados por las mismas personas y aprender los «géneros» a partir de los datos (e incluso puede que descubra nuevos géneros que no sabía que existían). Esto también es muy común con los datos de texto, en los que puede extraer los «temas» de debate subyacentes en función de las palabras y frases que suelen aparecer juntas en los mismos documentos. Sin embargo, los expertos en el dominio pueden seguir siendo útiles para sugerir funciones y dar sentido a los clústeres que encuentra la máquina.

(La agrupación en clústeres es un problema complejo y, a veces, estas herramientas se utilizan solo para organizar los datos, en lugar de hacer una predicción. Este tipo de aprendizaje automático se denomina «aprendizaje sin supervisión» porque no hay ningún resultado medido que se utilice como objetivo de predicción.)

Regularización

¿Cómo sabe si las funciones que ha extraído reflejan realmente la señal más que el ruido? Intuitivamente, querrá decirle a su modelo que vaya a lo seguro, no que saque conclusiones precipitadas. Esta idea se llama «regularización». (La misma idea se refleja en términos como «poda», «contracción» o «selección de variables»). Para ilustrarlo, imagine el modelo más conservador posible: haría la misma predicción para todos. En una tienda de música, por ejemplo, esto significa recomendar el álbum más popular a todos, sin importar qué más les guste. Este enfoque ignora deliberadamente tanto la señal como el ruido. En el otro extremo del espectro, podríamos crear un modelo complejo y flexible que tratara de adaptarse a cada pequeña peculiaridad de los datos de un cliente. Este modelo aprendería tanto de la señal como del ruido. El problema es que si hay demasiado ruido en sus datos, el modelo flexible podría ser incluso peor que la línea base conservadora. Esto se denomina «sobreajuste»: el modelo consiste en aprender patrones que no se mantendrán en casos futuros.

La regularización es una forma de dividir la diferencia entre un modelo flexible y un modelo conservador, y normalmente se calcula añadiendo una «penalización por complejidad», lo que obliga al modelo a seguir siendo simple. Hay dos tipos de efectos que esta penalización puede tener en una modelo. Un efecto, la «selección», se produce cuando el algoritmo se centra solo en unas pocas funciones que contienen la mejor señal y descarta las demás. Otro efecto, la «contracción», se produce cuando el algoritmo reduce la influencia de cada función, de modo que las predicciones no dependen demasiado de ninguna característica en caso de que resulte ruidosa. Hay muchos tipos de regularización, pero el más popular, llamado «LASSO», es una forma sencilla de combinar la selección y la reducción, y probablemente sea un buen valor predeterminado para la mayoría de las aplicaciones.

Validación cruzada

Una vez que haya creado un modelo, ¿cómo puede estar seguro de que está haciendo buenas predicciones? La prueba más importante es si el modelo es preciso «fuera de muestra», que es cuando el modelo hace predicciones para datos que nunca había visto antes. Esto es importante porque eventualmente querrá utilizar el modelo para tomar nuevas decisiones y tendrá que saber que puede hacerlo de forma fiable. Sin embargo, realizar pruebas sobre el terreno puede resultar caro y puede ser mucho más eficiente si utiliza los datos que ya tiene para simular una prueba de precisión de predicción «fuera de muestra». Esto se hace más comúnmente en el aprendizaje automático con un proceso llamado «validación cruzada».

Imagine que estamos creando un modelo de predicción con datos de 10 000 clientes anteriores y queremos saber qué tan precisas serán las predicciones para los clientes futuros. Una forma sencilla de estimar esa precisión consiste en dividir aleatoriamente la muestra en dos partes: un «conjunto de entrenamiento» de 9 000 para construir el modelo y un «conjunto de pruebas» de 1000, que inicialmente se deja de lado. Cuando terminemos de crear un modelo con el conjunto de entrenamiento, podremos ver qué tan bien el modelo predice los resultados del conjunto de pruebas, en simulacro. Lo más importante es que el modelo nunca ve los resultados del conjunto de pruebas hasta que se haya creado el modelo. Esto garantiza que el conjunto de pruebas sea realmente datos «retenidos». Si no mantiene una división clara entre estas dos, sobreestimará lo bueno que es realmente su modelo, y puede resultar un error muy caro de cometer.

Errores que se deben evitar al utilizar el aprendizaje automático

Una de las trampas más fáciles del aprendizaje automático es confundir un modelo de predicción con un modelo causal. Los humanos están programados para pensar en cómo cambiar el entorno para provocar un efecto. Sin embargo, en los problemas de predicción, la causalidad no es una prioridad, sino que estamos intentando optimizar una decisión que depende de un entorno estable. De hecho, cuanto más estable sea un entorno, más útil será el modelo de predicción.

Es importante hacer una distinción entre «fuera de la muestra» y «fuera de contexto». Medir la precisión fuera de la muestra significa que, si recopilamos nuevos datos del mismo entorno exacto, el modelo podrá predecir bien los resultados. Sin embargo, no hay garantía de que el modelo sea igual de útil si nos mudamos a un nuevo entorno. Por ejemplo, una tienda en línea podría utilizar una base de datos de compras en línea para crear un modelo útil para los nuevos clientes. Sin embargo, el mismo modelo exacto puede no ser útil para los clientes de una tienda física, incluso si la línea de productos es idéntica.

Es tentador pensar que el enorme tamaño de los datos disponibles puede evitar el tema. Ese no es el caso. Recuerde que estos algoritmos obtienen su poder de comparar casos nuevos con una gran base de datos de casos similares del pasado. Cuando intenta aplicar un modelo en un contexto diferente, puede que los casos de la base de datos ya no se parezcan tanto y lo que era un punto fuerte en el contexto original ahora es una responsabilidad. No hay una respuesta fácil a este problema. Un modelo fuera de contexto puede seguir suponiendo una mejora con respecto a ningún modelo, siempre y cuando se tengan en cuenta sus limitaciones.

A pesar de que algunas partes de la construcción de modelos pueden parecer automáticas, se necesita una buena dosis de juicio humano para determinar en qué casos será útil un modelo. Además, se necesita mucha reflexión crítica para garantizar que las salvaguardias integradas de la regularización y la validación cruzada se utilizan de la manera correcta.

Pero también es bueno tener en cuenta que la alternativa —el juicio puramente humano— viene con su propia serie de sesgos y errores. Con la combinación adecuada de habilidades técnicas y juicio humano, el aprendizaje automático puede ser una nueva y útil herramienta para los responsables de la toma de decisiones que intentan dar sentido a los problemas inherentes a los datos extensos. Espero que sin crear nuevos problemas en el camino.

Anterior Siguiente

PathMBA Vault

Lo que todo directivo debe saber sobre el aprendizaje automático

Artículos Relacionados

Investigación: La IA generativa hace que la gente sea más productiva y esté menos motivada

Arreglar los chatbots requiere psicología, no tecnología

Investigación: ¿Está penalizando a sus mejores empleados por desconectar?