Antes de utilizarlo en tres pacientes, el neurólogo Alexander Huth se acostó en una máquina de resonancia magnética en el edificio de investigación de neurociencia de la Universidad de Austin, en Texas, donde trabajaba. Se cubrió con una manta para evitar el frío del imán de la máquina y auriculares insonorizados para ahogar su zumbido. Sin embargo, el sonido en los auriculares se escuchaba alto y claro: era un podcast del New York Times y monólogos de un popular programa anglosajón mientras le escaneaban el cerebro.
Utilizando un programa basado en Inteligencia Artificial (IA) y particularmente el programa GPT-1, una computadora logró decodificar y describir la esencia de las historias que escuchó él y los tres participantes iniciales en el experimento de prueba de concepto, simplemente mirando sus resonancias magnéticas funcionales. Según sus resultados, publicados en la revista científica Nature Neuroscience, este descodificador que han llamado “semántico” fue capaz también de verbalizar lo que pensaban y observaban mientras veían cine mudo.
Escuchar esas líneas estimuló la actividad cerebral, las neuronas se dispararon y consumieron el oxígeno en su sangre. A medida que la sangre desoxigenada fluía de regreso a sus pulmones y corazón, el imán captó su señal, decodificando qué partes de su cerebro estaban procesando lo que había escuchado. Los investigadores han desarrollado el primer método no invasivo para determinar la esencia del habla imaginada, presentando una posible salida de comunicación para las personas que no pueden hablar.
Los expertos utilizaron el programa GPT-1. Este modelo de lenguaje, desarrollado por el laboratorio de inteligencia artificial OpenAI, usa aprendizaje profundo para generar texto. En esta investigación, lo entrenaron con las imágenes fMRI del cerebro de tres personas a las que hicieron oír 16 horas de audios de un podcast del New York Times y del programa The Moth Radio Hour, logrando hacer corresponder lo que veían con su representación en la cabeza. La idea es que, cuando volvieran a oír otro texto, el sistema pudiera ir anticipándolo basándose en los patrones de lo ya aprendido.
“Nos sorprendió un poco que funcione tan bien como lo hace. He estado trabajando en esto durante 15 años así que fue impactante y emocionante cuando finalmente funcionó”, explicó Huth, el neurocientífico que dirigió el trabajo en la Universidad de Texas, en Austin. “Se trata del GPT original, no como el nuevo [ChatGPT se apoya en la última versión de GPT, la 4]. Recopilamos una tonelada de datos y luego construimos este modelo, que predice las respuestas cerebrales a las historias”, agregó.
El decodificador podría reconstruir el habla con una precisión asombrosa mientras las personas escuchaban una historia, o incluso imaginaban una en silencio, utilizando solo datos de escaneo fMRI. Los sistemas de decodificación de idiomas anteriores requerían implantes quirúrgicos colocar una serie de electrodos directamente en el cerebro. Pero este último avance plantea la posibilidad de nuevas formas de restaurar el habla en pacientes que luchan por comunicarse debido a un accidente cerebrovascular o una enfermedad de la neurona motora.
Una nueva era
La llegada de grandes modelos de lenguaje, del tipo de IA que sustenta ChatGPT de OpenAI, proporcionó una nueva forma de “hacer hablar a las personas que no pueden hacerlo”. Estos modelos pueden representar, en números, el significado semántico del habla, lo que permite a los científicos observar qué patrones de actividad neuronal correspondía a cadenas de palabras con un significado particular en lugar de intentar leer la actividad palabra por palabra.
Este descodificador recibió el nombre de semántico. Anteriores interfaces registraban la actividad cerebral en las áreas motoras que controlan la base mecánica del habla, es decir, los movimientos de boca, laringe o lengua. “Lo que pueden descodificar es cómo la persona está tratando de mover la boca para decir algo. Nuestro sistema funciona en un nivel muy diferente. En lugar de fijarnos en el ámbito motor de bajo nivel, trabaja en el nivel de las ideas, de la semántica, del significado. Por eso no registra las palabras exactas que alguien escuchó o pronunció, sino su sentido”, explicó Huth. Para esto, aunque las resonancias registraban la actividad de varias zonas cerebrales, se centraron más en las relacionadas con la audición y el lenguaje. La continuación de las pruebas prosiguió en una docena de pacientes, siempre con buenos resultados.
El decodificador que creó Huth nunca pregunta directamente en qué estaba pensando una persona. En su lugar, utiliza un modelo de “codificación” en un bucle para crear el efecto de “descodificación”. Los investigadores utilizaron GPT-1 para generar posibles conjeturas sobre qué frases escuchó la persona. Luego, utilizando el modelo de “reenvío” o “codificación” que predice la actividad cerebral en función de una frase, modelaron la actividad cerebral que esa frase podría evocar. Al comparar el escaneo predicho con el escaneo real, clasificaron las frases adivinadas de mejor a peor, agregando más palabras a la frase.
“Nuestro sistema funciona a nivel de ideas, semántica, significado”, dijo Huth. “Esta es la razón por la que lo que sacamos no son las palabras exactas, es la esencia”. Por ejemplo, cuando a un participante se le reprodujeron las palabras: “‘No sabía si gritar, llorar o salir corriendo. En lugar de eso, dijo: ¡Déjame en paz!’” se decodificaron como “‘Empecé a gritar y llorar, y luego ella (la máquina) simplemente dijo: ‘Te dije que me dejaras en paz’”. También se les pidió a los participantes que miraran cuatro videos cortos y silenciosos mientras estaban en el escáner, y el decodificador pudo usar su actividad cerebral para describir con precisión parte del contenido.
“Para un método no invasivo, este es un verdadero avance en comparación con lo que se ha hecho antes, que generalmente son palabras sueltas o oraciones cortas”, dijo Huth. A veces, el decodificador se equivocaba y tenía problemas con ciertos aspectos del lenguaje, incluidos los pronombres. “No sabe si es en primera o tercera persona, hombre o mujer”, dijo Huth.
El profesor Tim Behrens, un neurocientífico computacional de la Universidad de Oxford que no participó en el trabajo, lo describió como “técnicamente extremadamente impresionante” y dijo que abrió una gran cantidad de posibilidades experimentales, incluida la lectura de pensamientos de alguien que sueña o investiga cómo nuevas ideas. surgen de la actividad cerebral de fondo. “Estos modelos generativos te permiten ver lo que hay en el cerebro a un nuevo nivel. Significa que realmente puedes leer algo profundo de la fMRI”, agregó.
“Esto es realmente genial, ya que las aportaciones de GPT contienen la semántica del habla, no las propiedades articulatorias o acústicas, como se hacía en anteriores programas como ICB. Muestran que el modelo entrenado en lo que se oye puede descodificar la semántica de películas mudas y también del habla imaginada”. Este científico está “absolutamente convencido de que la información semántica se utilizará en las interfaces cerebro máquina para hablar en el futuro”, indicó el neurocientífico Christian Herff lidera la investigación en interfaces cerebro máquina en la Universidad de Maastricht (Países Bajos) que no participó del experimento.
Anticipándose a estos temores, los autores de los experimentos quisieron comprobar si podían usar su sistema para leer la mente de otros sujetos. Por fortuna, comprobaron que el modelo entrenado con una persona no acertaba a descifrar lo que oía o veía otra. Para asegurarse, realizaron una última serie de ensayos. Esta vez pidieron a los participantes que contaran de siete en siete, pensaran y nombraran animales o se inventaran una historia en su cabeza mientras oían los relatos. Aquí, la interfaz apoyada en GPT, con toda la tecnología que lleva una máquina de resonancia magnética y todos los datos manejados por la IA, falló progresivamente.
Hay dos componentes clave que hicieron posible el nuevo decodificador cerebral: el tesoro de datos recopilados sobre unos pocos participantes, en lugar de las pocas horas habituales de datos sobre muchos participantes, y el advenimiento de los modelos de lenguaje.