Cómo reflejan los modelos lingüísticos grandes el juicio humano

La inteligencia artificial se basa en la predicción. Pero la toma de decisiones requiere tanto predicción como juicio. Eso deja un papel para los humanos, a la hora de emitir un juicio sobre qué tipos de resultados son mejores y peores. Sin embargo, los modelos lingüísticos grandes representan un avance clave: OpenAI ha encontrado la manera de enseñar a su IA el juicio humano mediante una forma sencilla de comentarios humanos, a través del chat. Eso abre la puerta a una nueva forma para que los humanos trabajen con la IA, básicamente hablando con ellos sobre qué resultados son mejores o peores en un tipo de decisión dado.

••• Las inteligencias artificiales son máquinas de predicción. Le pueden decir la probabilidad de que llueva hoy, pero no pueden decirle si debe llevar o no un paraguas. Esto se debe a que la decisión general requiere algo más que una predicción: si la probabilidad de lluvia es del 10%, algunas personas optarán por llevar un paraguas, pero otras no. ¿Por qué diferentes personas se comportan de manera diferente a pesar de que se enfrentan a la misma información? Porque tienen preferencias diferentes. En este caso, a algunas personas les importa mucho más que a otras mojarse. Solo usted o alguien que lo conozca bien puede juzgar los costes y beneficios de llevar un paraguas. Tomar esa decisión por usted requiere tanto una predicción como un juicio en función de sus preferencias.  Las IA sobresalen en la predicción, pero no poseen juicio. Sin duda, hay muchas decisiones en las que conocemos las recompensas o las podemos calcular fácilmente. Básicamente, sabemos lo que debe hacer un conductor en la mayoría de las situaciones (acelerar, frenar, girar) porque conocemos las consecuencias de no hacer lo correcto. Pero pida a Google que le dé consejos sobre un nuevo lavavajillas y lo mejor que puede hacer es predecir qué páginas tienen probabilidades de ofrecer la información que busca. No se siente lo suficientemente afortunado como para decirle qué hacer. Del mismo modo, aunque le preocupe que su empleador utilice una IA para determinar si lo deben despedir, la máquina no es la responsable final. La IA puede hacer una predicción sobre su desempeño, pero es su empleador el que aplica el juicio y decide a quién despedir.  Fue por esta razón que, en nuestro libro de 2018[_Máquinas de predicción_](https://www.amazon.com/Prediction-Machines-Economics-Artificial-Intelligence/dp/1633695670), vimos un puesto para los ingenieros de funciones de recompensa, cuyo trabajo consistiría en «determinar las recompensas de las diversas acciones, teniendo en cuenta las predicciones que hace la IA». La predicción de la IA podría mejorar tantas decisiones que la función de recompensa a los ingenieros que entendieran esas predicciones y la decisión en juego proporcionarían un complemento hábil a medida que la adopción de la IA continuara a buen ritmo. Pero la innovación en la ingeniería de las funciones de recompensa ha sido lenta. Se ha avanzado poco en el desarrollo de herramientas para codificar el juicio humano adecuado en las máquinas antes de que se desplieguen a gran escala.   Hasta hace poco. Los modelos lingüísticos grandes (LLM) son, a pesar de su aparente inteligencia, siguen siendo solo máquinas de predicción. Pero están transformando la forma en que la IA ayuda a la toma de decisiones porque están cambiando la forma en que los humanos juzgan.  Pida a ChatGPT que reescriba un párrafo con más claridad para un público determinado y no le dará opciones ni una conferencia sobre gramática y retórica. Le da un párrafo. Es impresionante, pero el verdadero milagro es que ChatGPT podría escribir el párrafo _usted quería_. Escribir un párrafo implica un montón de cuestiones de recompensa y riesgo. ¿Será la redacción honesta (coherente con los hechos), inofensiva (sin incluir palabras que puedan ofender) y útil (cumplir el objetivo del párrafo)? Piénselo por último. Estos modelos los entrenan personas en la escritura existente. El párrafo producido se escribe, en esencia, con una especie de «autocompletar» una y otra vez. Cuando nuestros teléfonos se completan automáticamente, hacen un buen trabajo, pero no perfecto. Entonces, ¿cómo es que ChatGPT es capaz de producir resultados escritos que son mucho mejores que los que puede hacer una persona normal? ¿Cómo pudo ChatGPT juzgar la calidad de todo el contenido, bueno y malo, en el que se formó? En términos más generales, ¿por qué no se convirtió en el pozo tóxico que [El chatbot Tay de Microsoft se convirtió después de un día en Twitter](https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist)?  Algunas personas, como[Stephen Wolfram](https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/), creo que los LLM están descubriendo algunas reglas gramaticales fundamentales. Sí, eso puede hacer que la escritura sea legible, pero seguro que no puede hacerla clara ni convincente.  UN[Artículo de 2022 de investigadores de OpenAI](https://arxiv.org/abs/2203.02155) proporciona una pista importante. Ese artículo describe cómo se tomaban los LLM sin procesar y sin modificar y utilizaban para ofrecer productos a personas reales. En su mayor parte, se les pidió a la gente que _utilice su juicio para clasificar varios resultados alternativos_ al mismo prompt. Los criterios de clasificación se especificaron cuidadosamente (es decir, priorizar la amabilidad, la honestidad y la inocuidad). Resulta que con instrucciones claras y un poco de formación de persona a persona, diferentes personas podrían ponerse de acuerdo fácilmente en esas cosas.  Esas clasificaciones se utilizaron entonces para modificar o «ajustar» el algoritmo. El modelo aprendió el juicio humano y se ajustó en función de los refuerzos positivos y negativos. Los escritos que ocuparon un lugar destacado recibieron un aumento positivo. Los que no recibieron un impacto negativo. Curiosamente, incluso para un modelo entrenado en miles de millones de páginas, con solo unos pocos miles de ejemplos de juicio humano en forma de respuestas clasificadas, la IA comenzó a producir resultados para todas las consultas que tenían una clasificación alta. Esto ocurría incluso para las consultas que parecían estar muy lejos de las que habían clasificado los evaluadores. De alguna manera, el juicio humano sobre la calidad de la escritura se extendió bastante por todo el modelo.  Los evaluadores eran, en efecto, ingenieros de funciones de recompensa. Pero a diferencia de un modelo estadístico, cuyo resultado puede resultar desalentador para muchas personas, los LLM interactúan en un lenguaje sencillo; cualquiera puede ayudar a enseñar el juicio modelo. En otras palabras, cualquier persona que sepa hablar o escribir puede ser ingeniero de funciones de recompensa. El sorprendente descubrimiento de ChatGPT fue que, con relativamente poco esfuerzo, los ingenieros de funciones de recompensa podían capacitar a los LLM para que fueran útiles y seguros. Así es como OpenAI pudo lanzar un modelo orientado al consumidor que no adolecía de los defectos de sus predecesores cuando se lanzó al mercado. Este sencillo método de codificar el juicio humano en máquinas impulsó el rendimiento de la IA. La máquina estaba ahora imbuida de la capacidad no solo de predecir las secuencias de palabras probables, sino también de aplicar el juicio de los ingenieros de la función de recompensa a esas secuencias para aumentar su atractivo para los lectores. El descubrimiento de un método sencillo para que las máquinas aplicaran el juicio humano (el complemento de cualquier máquina de predicción de IA para especificar los riesgos y las recompensas en una amplia variedad de circunstancias) marcó la diferencia.  Para tomar muchas decisiones, se necesitarán ingenieros especializados en funciones de recompensa para implementar máquinas de predicción de IA a gran escala. El descubrimiento de este enfoque intuitivo para codificar el juicio humano en una máquina (ajustar con precisión mediante el aprendizaje por refuerzo a partir de la retroalimentación humana) puede desbloquear muchas aplicaciones valiosas de la IA en las que el juicio humano es difícil de codificar de antemano, pero fácil de implementar cuando lo ve.