Administración

Por qué la IA que se enseña a alcanzar un objetivo es la siguiente gran cosa

Astraed

20 may. 2021 — 8 min read

Lee Sedol, un campeón Go de clase mundial, fue deslumbrado por los 37^th movimiento AlpHago de Deepmind hizo en el segundo partido de la famosa serie 2016. Tan flummoxed que le tomó casi 15 minutos formular una respuesta. El movimiento fue extraño para otros jugadores experimentados de Go también, con un comentarista sugiriendo que fue un error. De hecho, fue un ejemplo canónico de un algoritmo de inteligencia artificial aprendiendo algo que parecía ir más allá del reconocimiento de patrones en los datos, aprendiendo algo estratégico e incluso creativo. De hecho, más allá de alimentar el algoritmo ejemplos pasados de campeones Go jugando juegos, los desarrolladores de Deepmind entrenaron a AlpHago haciéndolo jugar muchos millones de partidos contra sí mismo. Durante estos partidos, el sistema tuvo la oportunidad de explorar nuevos movimientos y estrategias, y luego evaluar si mejoraron el rendimiento. A través de toda esta prueba y error, descubrió una forma de jugar el juego que sorprendió incluso a los mejores jugadores del mundo.

Si este tipo de IA con capacidades creativas parece diferente a los chatbots y modelos predictivos con los que la mayoría de las empresas terminan cuando aplican aprendizaje automático, eso es porque es así. En lugar de aprendizaje automático que utiliza datos históricos para generar predicciones, los sistemas de juego como AlpHago utilizan aprendizaje de refuerzo, una tecnología madura de aprendizaje automático que es buena para optimizar las tareas. Para ello, un agente toma una serie de acciones a lo largo del tiempo, y cada acción está informada por el resultado de las anteriores. En pocas palabras, funciona probando diferentes enfoques y aferrándose — reforzando — los que parecen funcionar mejor que los otros. Con suficientes pruebas, puede reforzar su manera de vencer a su mejor enfoque actual y descubrir una nueva mejor manera de cumplir su tarea.

Sin embargo, a pesar de su utilidad demostrada, el aprendizaje de refuerzo se utiliza principalmente en la academia y áreas de nicho como videojuegos y robótica. Empresas como Netflix, Spotify y Google han empezado a usarlo, pero la mayoría de las empresas se quedan atrás. Sin embargo, hay oportunidades en todas partes. De hecho, cada vez que tenga que tomar decisiones en secuencia, lo que los profesionales de IA llaman tareas de decisión secuencial, existe la posibilidad de implementar aprendizaje de refuerzo.

Considere los muchos problemas del mundo real que requieren decidir cómo actuar con el tiempo, dónde hay algo que maximizar (o minimizar) y donde nunca se le da explícitamente la solución correcta. Por ejemplo:

¿Cómo debe enrutar el tráfico de datos a diferentes servidores o decidir qué servidores apagar en un centro de datos?
Al construir una molécula en simulación para desarrollar un medicamento innovador, ¿cómo se determina qué reactivo agregar a continuación?
Si desea vender una gran cantidad de acciones, ¿cómo vende cuidadosamente pedidos pequeños durante un día para minimizar la cantidad que cae el precio de las acciones?

Si usted es líder de la empresa, es probable que haya muchos procesos que le gustaría automatizar u optimizar, pero que son demasiado dinámicos o tienen demasiadas excepciones y casos perimetrales para programarlos en software. A través de pruebas y errores, los algoritmos de aprendizaje de refuerzo pueden aprender a resolver incluso los problemas de optimización más dinámicos, abriendo nuevas vías para la automatización y la personalización en entornos que cambian rápidamente.

Qué puede hacer el aprendizaje de refuerzo

Muchas empresas consideran que los sistemas de aprendizaje automático son «máquinas de predicción» y aplican algoritmos para pronosticar cosas como el flujo de efectivo o la eliminación de clientes basados en datos como patrones de transacción o comportamiento analítico de sitios web. Estos sistemas tienden a usar lo que se llama aprendizaje automático supervisado. Con el aprendizaje supervisado, normalmente se crea un predicción: las acciones probablemente subirán cuatro puntos en las próximas seis horas. Luego, después de hacer esa predicción, se le da la respuesta real: las acciones en realidad subieron tres puntos. El sistema aprende actualizando su mapeo entre los datos de entrada — como los precios pasados de la misma acción y quizás de otras acciones e indicadores — y la predicción de salida para que coincida mejor con la respuesta real, que se denomina la verdad del terreno.

Sin embargo, con el aprendizaje de refuerzo, no hay una respuesta correcta de la que aprender. Los sistemas de aprendizaje de refuerzo producen acciones, no predicciones: sugieren la acción más probable para maximizar (o minimizar) una métrica. Solo puede observar qué tan bien lo hizo en una tarea en particular y si se hizo más rápido o más eficiente que antes. Debido a que estos sistemas aprenden a través de pruebas y errores, funcionan mejor cuando pueden probar rápidamente una acción (o secuencia de acciones) y obtener retroalimentación: un algoritmo bursátil que toma cientos de acciones al día es un buen caso de uso; optimizar el valor de vida del cliente en el transcurso de cinco años, con solo puntos de interacción irregulares, no lo es. Significativamente, debido a cómo aprenden, no necesitan montañas de datos históricos: experimentarán y crearán sus propios datos a lo largo del camino.

Por lo tanto, se pueden utilizar para automatizar un proceso, como colocar artículos en un contenedor de transporte con un brazo robótico; o optimizar un proceso, como decidir cuándo y a través de qué canal ponerse en contacto con un cliente que perdió un pago, con los ingresos recuperados más altos y el menor esfuerzo gastado. En cualquier caso, diseñar las entradas, acciones y recompensas que utiliza el sistema es la clave: optimizará exactamente lo que se codifica para optimizar y no funciona bien con ninguna ambigüedad.

El uso por parte de Google del aprendizaje de refuerzo para ayudar a enfriar sus centros de datos es un buen ejemplo de cómo se puede aplicar esta tecnología. Los servidores de los centros de datos generan mucho calor, especialmente cuando están muy cerca unos de otros, y el sobrecalentamiento puede provocar problemas de rendimiento de IT o daños en los equipos. En este caso de uso, los datos de entrada son varias mediciones sobre el medio ambiente, como la presión del aire y la temperatura. Las acciones son la velocidad del ventilador (que controla el flujo de aire) y la apertura de la válvula (la cantidad de agua utilizada) en las unidades de tratamiento de aire. El sistema incluye algunas reglas para seguir las pautas de operación seguras, y secuencian cómo fluye el aire a través del centro para mantener la temperatura en un nivel especificado mientras minimiza el uso de energía. La dinámica física de un entorno de centro de datos es compleja y cambia constantemente; un cambio en el clima afecta a la temperatura y la humedad, y cada ubicación física a menudo tiene una arquitectura y configuración únicas. Los algoritmos de aprendizaje de refuerzo son capaces de captar matices que serían demasiado difíciles de describir con fórmulas y reglas.

Reforzar el aprendizaje en el trabajo

Cómo las principales empresas están usando esta raza de IA para resolver problemas difíciles.

Aquí en Borealis AI, nos asociamos con el negocio de Mercados de Capital de Royal Bank of Canada para desarrollar un sistema de ejecución comercial basado en el aprendizaje reforzado llamado Aiden. El objetivo de Aiden es ejecutar una orden de acciones de un cliente (para comprar o vender un cierto número de acciones) dentro de un intervalo de tiempo especificado, buscando precios que minimicen las pérdidas en relación con un punto de referencia especificado. Esto se convierte en una tarea de decisión secuencial debido al impacto perjudicial en el mercado de comprar o vender demasiadas acciones a la vez: la tarea consiste en secuenciar acciones a lo largo del día para minimizar el impacto en los precios.

El mercado de valores es dinámico y los algoritmos tradicionales de rendimiento (los algoritmos basados en reglas que los traders han utilizado durante años) pueden variar cuando las condiciones del mercado de hoy difieren de las de ayer. Sentimos que se trataba de una buena oportunidad de aprendizaje de refuerzo: tenía el equilibrio adecuado entre claridad y dinámica complejidad. Podríamos enumerar claramente las diferentes acciones que Aiden podría tomar, y la recompensa que queríamos optimizar (minimizar la diferencia entre los precios alcanzados por Aiden y el precio promedio ponderado por volumen de mercado). El mercado de valores se mueve rápido y genera una gran cantidad de datos, dando al algoritmo iteraciones rápidas para aprender.

Dejamos que el algoritmo haga precisamente eso a través de innumerables simulaciones antes de lanzar el sistema en directo al mercado. En última instancia, Aiden demostró tener buenos resultados durante algunos de los períodos de mercado más volátiles durante el comienzo de la pandemia de Covid-19, condiciones particularmente difíciles para las IA predictivas. Fue capaz de adaptarse al entorno cambiante, al tiempo que siguió estando cerca de su objetivo de referencia.

Cómo detectar una oportunidad para el aprendizaje de refuerzo

¿Cómo puedes saber si estás pasando por alto un problema que el aprendizaje de refuerzo podría solucionar? Aquí está por dónde empezar:

Haz una lista.

Cree un inventario de procesos de negocio que involucren una secuencia de pasos y indique claramente lo que desea maximizar o minimizar. Concéntrese en procesos con acciones densas y frecuentes y oportunidades de retroalimentación y evite los procesos con acciones poco frecuentes y donde es difícil observar cuál funcionó mejor para recopilar retroalimentación. Obtener el objetivo correcto probablemente requerirá iteración.

Considere otras opciones.

No empiece con el aprendizaje de refuerzo si puede abordar un problema con otras técnicas de aprendizaje automático u optimización. El aprendizaje de refuerzo es útil cuando usted carece de datos históricos suficientes para entrenar un algoritmo. Necesita explorar las opciones (y crear datos en el camino).

Ten cuidado con lo que deseas.

Si desea avanzar, los expertos de dominio deben colaborar estrechamente con los equipos técnicos para ayudar a diseñar las entradas, acciones y recompensas. Para las entradas, busque el conjunto más pequeño de información que pueda usar para tomar una buena decisión. Para las acciones, pregunte cuánta flexibilidad desea dar al sistema; comience de forma simple y más tarde amplíe el rango de acciones. Para obtener recompensas, piense cuidadosamente acerca de los resultados y tenga cuidado de evitar caer en las trampas de considerar una variable aislada o optar por ganancias a corto plazo con dolores a largo plazo.

Pregunte si vale la pena.

¿Las posibles ganancias justificarán los costos para el desarrollo? Muchas empresas necesitan realizar inversiones en transformación digital para tener los sistemas y los procesos empresariales densos que generan datos para hacer realmente útiles los sistemas de aprendizaje de refuerzo. Para responder a si la inversión dará sus frutos, los equipos técnicos deben hacer un balance de los recursos computacionales para asegurarse de que dispone de la potencia informática necesaria para soportar las pruebas y permitir que el sistema explore e identifique la secuencia óptima. (Es posible que deseen crear un entorno de simulación para probar el algoritmo antes de liberarlo en vivo). En el frente del software, si planea utilizar un sistema de aprendizaje para la interacción con el cliente, necesita tener un sistema que admita las pruebas A/B. Esto es fundamental para el proceso de aprendizaje, ya que el algoritmo necesita explorar diferentes opciones antes de que pueda engancharse en cuál funciona mejor. Por último, si su pila de tecnología solo puede lanzar funciones universalmente, es probable que tenga que actualizar antes de comenzar a optimizar.

Prepárate para ser paciente.

Y por último, pero no menos importante, al igual que con muchos algoritmos de aprendizaje, debe estar abierto a errores desde el principio mientras el sistema aprende. No encontrará el camino óptimo desde el primer día, pero llegará allí a tiempo, y potencialmente encontrará soluciones sorprendentes y creativas más allá de la imaginación humana cuando lo haga.

Si bien el aprendizaje de refuerzo es una tecnología madura, solo ahora está empezando a aplicarse en entornos empresariales. La tecnología brilla cuando se utiliza para automatizar u optimizar procesos empresariales que generan datos densos, y donde puede haber cambios imprevistos que no se pueden capturar con fórmulas o reglas. Si puede detectar una oportunidad, y apoyarse en un equipo técnico interno o asociarse con expertos en el espacio, hay una ventana para aplicar esta tecnología para superar a su competencia.