Por qué la IA que se enseña sola a alcanzar un objetivo es la próxima gran novedad

¿Cuál es la diferencia entre el poder creativo de la IA para juegos y la IA predictiva que la mayoría de las empresas parecen utilizar? Cómo aprenden. Las IA que prosperan en juegos como Go, que crean estrategias nunca antes vistas, utilizan un enfoque llamado aprendizaje por refuerzo, una tecnología de aprendizaje automático madura que es buena para optimizar las tareas en las que un agente realiza una serie de acciones a lo largo del tiempo, en el que cada acción se basa en el resultado de las anteriores y en la que no puede encontrar la respuesta «correcta» como puede hacerlo con una predicción. Es una tecnología poderosa, pero la mayoría de las empresas no saben cómo ni cuándo aplicarla. Los autores sostienen que los algoritmos de aprendizaje por refuerzo son buenos para automatizar y optimizar situaciones dinámicas con matices que serían muy difíciles de describir con fórmulas y reglas.

••• Lee Sedol, un campeón de Go de talla mundial, quedó perplejo por los 37 th mueve el AlphaGo de Deepmind creado en la segunda partida de la famosa serie de 2016. Tan desconcertado que tardó casi 15 minutos en formular una respuesta. La jugada también fue extraña para otros jugadores de Go con experiencia, y un comentarista sugirió que fue un error. De hecho, era un ejemplo canónico de un algoritmo de inteligencia artificial que aprendía algo que parecía ir más allá del simple reconocimiento de patrones en los datos, sino que aprendía algo estratégico e incluso creativo. De hecho, más allá de alimentar el algoritmo con ejemplos anteriores de campeones de Go jugando, los desarrolladores de Deepmind entrenaron a AlphaGo haciendo que jugara muchos millones de partidas contra sí mismo. Durante estas partidas, el sistema tuvo la oportunidad de explorar nuevos movimientos y estrategias y, a continuación, evaluar si mejoraban el rendimiento. A través de todo este ensayo y error, descubrió una forma de jugar que sorprendió incluso a los mejores jugadores del mundo. Si este tipo de IA con capacidades creativas parece diferente a los chatbots y los modelos predictivos con los que acaban la mayoría de las empresas cuando aplican el aprendizaje automático, es porque lo es. En lugar del aprendizaje automático que utiliza datos históricos para generar predicciones, los sistemas de juego como AlphaGo utilizan el aprendizaje por refuerzo, una tecnología de aprendizaje automático avanzada que es buena para optimizar las tareas. Para ello, el agente lleva a cabo una serie de acciones a lo largo del tiempo y cada acción se basa en el resultado de las anteriores. En pocas palabras, funciona probando diferentes enfoques y aferrándose (reforzando) los que parecen funcionar mejor que los demás. Con suficientes pruebas, puede reforzar su manera de superar su mejor enfoque actual y descubrir una nueva y mejor manera de llevar a cabo su tarea. Sin embargo, a pesar de su utilidad demostrada, el aprendizaje por refuerzo se utiliza sobre todo en el mundo académico y en áreas específicas, como los videojuegos y la robótica. Empresas como Netflix, Spotify y Google han empezado a usarlo, pero la mayoría de las empresas van a la zaga. Sin embargo, las oportunidades están en todas partes. De hecho, cada vez que tiene que tomar decisiones en secuencia (lo que los profesionales de la IA denominan tareas de decisión secuenciales), existe la posibilidad de utilizar el aprendizaje por refuerzo. Tenga en cuenta los numerosos problemas del mundo real que requieren decidir cómo actuar con el tiempo, en los que hay algo que maximizar (o minimizar) y en los que nunca se le da explícitamente la solución correcta. Por ejemplo: - ¿Cómo debe dirigir el tráfico de datos a los diferentes servidores o decidir qué servidores apagar en un centro de datos? - Al construir una molécula en simulación para desarrollar un fármaco innovador, ¿cómo se determina qué reactivo añadir a continuación? - Si quiere vender una gran cantidad de acciones, ¿con qué cuidado vende pequeños pedidos a lo largo del día para minimizar la cantidad de caída del precio de las acciones? Si es líder de una empresa, es probable que haya muchos procesos que le gustaría automatizar u optimizar, pero que son demasiado dinámicos o tienen demasiadas excepciones y casos extremos como para programarlos en software. Mediante prueba y error, los algoritmos de aprendizaje por refuerzo pueden aprender a resolver incluso los problemas de optimización más dinámicos, lo que abre nuevas vías de automatización y personalización en entornos que cambian rápidamente. ## Qué puede hacer el aprendizaje por refuerzo Muchas empresas piensan en los sistemas de aprendizaje automático como «máquinas de predicción» y aplican algoritmos para pronosticar cosas como el flujo de caja o la deserción de clientes en función de datos como los patrones de transacciones o el comportamiento de los análisis de los sitios web. Estos sistemas suelen utilizar lo que se denomina aprendizaje automático supervisado. Con el aprendizaje supervisado, normalmente hace un _predicción_: Es probable que las acciones suban cuatro puntos en las próximas seis horas. Luego, después de hacer esa predicción, se le da la respuesta real: de hecho, la acción subió tres puntos. El sistema aprende actualizando su mapeo entre los datos de entrada (como los precios anteriores de la misma acción y quizás de otras acciones e indicadores) y la predicción de salida para que se ajuste mejor a la respuesta real, que se denomina verdad fundamental. Sin embargo, con el aprendizaje por refuerzo, no hay una respuesta correcta de la que aprender. Los sistemas de aprendizaje por refuerzo producen acciones, no predicciones: sugerirán la acción con más probabilidades de maximizar (o minimizar) una métrica. Solo puede observar qué tan bien lo hizo en una tarea en particular y si la hizo más rápido o de manera más eficiente que antes. Como estos sistemas aprenden mediante prueba y error, funcionan mejor cuando pueden probar rápidamente una acción (o secuencia de acciones) y obtener comentarios. Un algoritmo bursátil que realice cientos de acciones al día es un buen caso de uso; optimizar el valor de vida del cliente a lo largo de cinco años, con solo puntos de interacción irregulares, no lo es. Es importante destacar que, por la forma en que aprenden, no necesitan montañas de datos históricos, sino que experimentarán y crearán sus propios datos a lo largo del camino. Por lo tanto, se pueden utilizar para _automatizar_ un proceso, como colocar los artículos en un contenedor de transporte con un brazo robótico; o _optimizar_ un proceso, como decidir cuándo y a través de qué canal contactar con un cliente que no ha realizado un pago, con el mayor ingreso recuperado y el menor esfuerzo realizado. En cualquier caso, diseñar las entradas, las acciones y las recompensas que utiliza el sistema es la clave: optimizará exactamente lo que usted codifique para optimizar y no le va bien con ninguna ambigüedad. El uso del aprendizaje por refuerzo por parte de Google para ayudar a enfriar sus centros de datos es un buen ejemplo de cómo se puede aplicar esta tecnología. Los servidores de los centros de datos generan mucho calor, especialmente cuando están muy cerca unos de otros, y el sobrecalentamiento puede provocar problemas de rendimiento de la TI o daños en el equipo. En este caso de uso, los datos de entrada son varias medidas del entorno, como la presión y la temperatura del aire. Las acciones son la velocidad del ventilador (que controla el flujo de aire) y la apertura de las válvulas (la cantidad de agua utilizada) en las unidades de tratamiento de aire. El sistema incluye algunas reglas para seguir las pautas de funcionamiento seguro y secuencia el flujo del aire por el centro para mantener la temperatura a un nivel específico y, al mismo tiempo, minimizar el consumo de energía. La dinámica física del entorno de un centro de datos es compleja y cambia constantemente; un cambio en el clima afecta a la temperatura y la humedad, y cada ubicación física suele tener una arquitectura y una configuración únicas. Los algoritmos de aprendizaje por refuerzo son capaces de captar matices que serían muy difíciles de describir con fórmulas y reglas. En Borealis AI, nos asociamos con la empresa de mercados de capitales del Royal Bank of Canada para desarrollar un sistema de ejecución de operaciones basado en el aprendizaje reforzado llamado[Aiden](https://www.borealisai.com/en/applying-ai/aiden/). El objetivo de Aiden es ejecutar la orden de acciones de un cliente (para comprar o vender un número determinado de acciones) dentro de un período de tiempo específico, buscando precios que minimicen las pérdidas en relación con un índice de referencia específico. Se convierte en una tarea de decisión secuencial debido al impacto perjudicial en el mercado que supone comprar o vender demasiadas acciones a la vez: la tarea consiste en secuenciar las acciones a lo largo del día para minimizar el impacto en los precios. El mercado de valores es dinámico y el rendimiento de los algoritmos tradicionales (los algoritmos basados en reglas que los operadores han utilizado durante años) puede variar cuando las condiciones del mercado actual difieren de las de ayer. Nos pareció una buena oportunidad de aprendizaje con refuerzo, ya que tenía el equilibrio adecuado entre claridad y complejidad dinámica. Podríamos enumerar claramente las diferentes medidas que Aiden podría tomar y la recompensa que queríamos optimizar (minimizar la diferencia entre los precios que Aiden alcanzó y el precio de referencia medio ponderado por volumen del mercado). El mercado de valores se mueve rápido y genera muchos datos, lo que permite al algoritmo iteraciones rápidas de aprender. Dejamos que el algoritmo hiciera precisamente eso mediante innumerables simulaciones antes de lanzar el sistema en directo al mercado. En última instancia, Aiden demostró ser capaz de tener un buen desempeño durante algunos de los períodos de mercado más volátiles del comienzo de la pandemia de la COVID-19, condiciones que son particularmente difíciles para la IA predictiva. Fue capaz de adaptarse al entorno cambiante y, al mismo tiempo, mantenerse cerca de su objetivo de referencia. ## Cómo detectar una oportunidad de aprendizaje por refuerzo ¿Cómo puede saber si está pasando por alto un problema que el aprendizaje por refuerzo podría solucionar? Aquí es por dónde empezar: ### Haga una lista. Cree un inventario de los procesos empresariales que incluya una secuencia de pasos e indique claramente lo que quiere maximizar o minimizar. Céntrese en los procesos con acciones y oportunidades densas y frecuentes de recibir comentarios y evite los procesos con acciones poco frecuentes y en los que sea difícil observar cuál funcionó mejor para recopilar comentarios. Conseguir el objetivo correcto probablemente requiera iteraciones. ### Considere otras opciones. No empiece con el aprendizaje por refuerzo si puede abordar un problema con otras técnicas de aprendizaje automático u optimización. El aprendizaje por refuerzo es útil cuando no hay datos históricos suficientes para entrenar un algoritmo. Tiene que explorar las opciones (y crear datos a lo largo del camino). ### Tenga cuidado con lo que desea. Si quiere avanzar, los expertos en el campo deberían colaborar estrechamente con los equipos técnicos para ayudar a diseñar las aportaciones, las acciones y las recompensas. Para las entradas, busque el conjunto de información más pequeño que pueda utilizar para tomar una buena decisión. Para las acciones, pregunte cuánta flexibilidad quiere dar al sistema; empiece de forma sencilla y, más adelante, amplíe la gama de acciones. En cuanto a las recompensas, piense detenidamente en los resultados y tenga cuidado de no caer en la trampa de tener en cuenta una variable de forma aislada o de optar por las ganancias a corto plazo con problemas a largo plazo. ### Pregunte si vale la pena. ¿Justificarán las posibles ganancias los costes de desarrollo? Muchas empresas necesitan realizar inversiones en transformación digital para contar con los sistemas y los procesos empresariales densos que generan datos y que realmente sean útiles los sistemas de aprendizaje por refuerzo. Para saber si la inversión dará sus frutos, los equipos técnicos deberían hacer un balance de los recursos computacionales para asegurarse de que tiene la potencia de cálculo necesaria para respaldar las pruebas y permitir que el sistema explore e identifique la secuencia óptima. (Puede que quieran crear un entorno de simulación para probar el algoritmo antes de publicarlo en directo). En cuanto al software, si tiene previsto utilizar un sistema de aprendizaje para captar clientes, necesita un sistema que pueda admitir las pruebas A/B. Esto es fundamental para el proceso de aprendizaje, ya que el algoritmo necesita explorar diferentes opciones antes de poder determinar cuál funciona mejor. Por último, si su pila tecnológica solo puede lanzar funciones de forma universal, probablemente necesite actualizarlas antes de empezar a optimizar. ### Prepárese para ser paciente. Y por último, pero no por ello menos importante, como ocurre con muchos algoritmos de aprendizaje, tiene que estar abierto a los errores desde el principio mientras el sistema aprende. No encontrará el camino óptimo desde el primer día, pero lo logrará con el tiempo y, cuando lo haga, es posible que encuentre soluciones sorprendentes y creativas más allá de la imaginación humana. Si bien el aprendizaje por refuerzo es una tecnología madura, recién ahora se está empezando a aplicar en entornos empresariales. La tecnología brilla cuando se utiliza para automatizar u optimizar los procesos empresariales que generan datos densos y cuando se pueden producir cambios imprevistos que no podría captar con fórmulas o reglas. Si puede encontrar una oportunidad y apoyarse en un equipo técnico interno o asociarse con expertos en el sector, hay una ventana para aplicar esta tecnología y superar a la competencia.