Modelos de IA, tan buenos o mejores a los humanos para deducir estados mentales
Un nuevo experimento ha demostrado que los grandes modelos de lenguaje podrían ser tan competentes como los humanos, o incluso mejores, en rastrear ciertos estados mentales.
La “teoría de la mente” es una característica distintiva de la inteligencia emocional y social que permite inferir las intenciones de otras personas. Recientemente, un nuevo experimento ha demostrado que los grandes modelos de lenguaje podrían ser tan competentes como los humanos, o incluso mejores, en rastrear ciertos estados mentales.
Sin embargo, los autores de este estudio, publicado en la revista Nature Human Behaviour, advierten que aunque los grandes modelos de lenguaje (LLM) muestren un rendimiento similar al de los humanos en estas tareas, esto no implica que posean capacidades humanas ni que tengan una teoría de la mente.
El estudio, liderado por investigadores del Centro Médico Universitario Hamburgo-Eppendorf en Alemania, utilizó los modelos ChatGPT-3.5 y GPT-4 de OpenAI y Llama 2 de Meta.
La revista resume que “los dos tipos de LLM tienen un rendimiento similar al de los humanos, e incluso superior en algunas situaciones, en tareas que prueban la capacidad de seguir los estados mentales de otros -como sus intenciones-, conocidas como teoría de la mente”.
Esta teoría es esencial para las interacciones sociales humanas y crucial para la comunicación y la empatía. Investigaciones previas habían mostrado que los LLM, un tipo de inteligencia artificial, pueden resolver tareas cognitivas complejas, como la toma de decisiones de elección múltiple.
No obstante, aún no está claro si los grandes modelos de lenguaje pueden alcanzar un rendimiento similar en tareas de teoría de la mente, una capacidad considerada exclusivamente humana.
“En el núcleo de lo que nos define como humanos está el concepto de teoría de la mente: la capacidad de seguir los estados mentales de otros”, escriben los autores en su artículo.
El reciente desarrollo de grandes modelos lingüísticos como ChatGPT ha generado un intenso debate sobre la posibilidad de que estos modelos puedan mostrar un comportamiento indistinguible del humano en tareas de teoría de la mente.
James Strachan y su equipo seleccionaron varias tareas que prueban distintos aspectos de esta teoría y compararon las capacidades de 1.907 humanos con las de las dos populares familias de LLM.
El equipo realizó diversas pruebas, incluyendo la tarea de insinuación, diseñada para medir la capacidad de una persona para deducir las verdaderas intenciones de otra a través de comentarios indirectos, según explica MIT Technology Review en su sitio web.
También se implementaron pruebas para medir la capacidad de reconocer cuando alguien está cometiendo un paso en falso, para comprender la ironía, y el test de falsas creencias.
Los autores descubrieron que los modelos GPT estaban a la par con los humanos, e incluso los superaban, en la identificación de peticiones indirectas, falsas creencias y desorientación, mientras que los modelos Llama 2 se situaban por debajo de los niveles humanos.
En la detección de pasos en falso, Llama 2 superó a los humanos, mientras que GPT tuvo dificultades. Los autores sugieren que el éxito de Llama 2 podría deberse más a un sesgo que a una verdadera sensibilidad a los pasos en falso.
Estos hallazgos, aseguran los científicos, son una base importante para futuras investigaciones que podrían examinar cómo el rendimiento de los LLM en inferencias mentales puede influir en la cognición de los individuos en las interacciones entre humanos y máquinas.
Sigue nuestro canal de WhatsApp
Recibe las noticias más importantes del día. Da click aquí