Desde la década de los 60’s, ante el nacimiento del concepto de Inteligencia Artificial como algo más allá de la utopía fantástica, se ha debatido sobre la proyección y concepción de una verdadera Inteligencia aterrizada en lo Artificial. Han nacido paradojas, teorías, argumentos y cadenas de razonamientos que en conjunto intentan definir el futuro de este campo.
Como mencioné en el post sobre La carencia de Pensamiento en la IA actual, es difícil hablar del futuro de esta tecnología ante una verdadera Inteligencia, pues el mismo concepto y concepción de Inteligencia presenta desafíos. Sin embargo, quiero presentar el desafío implícito detrás del Dilema de la Habitación China ante las capacidades cognitivas de los Modelos Grandes de Lenguaje (LLM’s por sus siglas al inglés).
Modelos Grandes de Lenguaje (LLM’s) Link to heading
Antes de introducir a La Prueba de la Habitación China a los Modelos Grandes de Lenguaje, daré una explicación de lo que son, en esencia, los Modelos Grandes de Lenguaje. Los LLM’s son modelos de “Inteligencia Artificial” entrenados para procesar y generar texto de manera coherente, basandose en redes neuronales profundas, especialmente en la Arquitectura Transformer. Los LLM’s son entrenados con enormes volúmenes de valores para su funcionamiento. Por considerar algunos (en valores aproximados):
- GPT-4: 1-2 Trillones de parámetros (2-3.6 TeraBytes)
- Gemini 1 Ultra: 1 Trillón de parámetros (1-2 TeraBytes)
- GPT-3: 175 Billones de parámetros (350 GigaBytes)
- LLaMA: 65 Billones de parámetros (130 GigaBytes)
La Prueba de la Habitación China Link to heading
En 1980, John Searle, Filósofo y profesional de la Mente y del Lenguaje, propuso la llamada Prueba de la Habitación China: Consideremos a un programa computado capaz de dialogar con una persona nativa del lenguaje Chino. La máquina es capaz de sostener una conversación escrita con dicha persona mediante un organigrama, manipulando los caracteres del mandarín. La máquina se encuentra encerrada en una habitación, esto con la intención de que la persona no pueda verlo. La capacidad de la máquina ante el diálogo en mandarín con la persona es suficiente para hacer que dicha persona no logre percibir que está dialogando con una máquina, y no con una persona. Se dice que el programa pasó la La Prueba de Turing.
Ahora, consideremos a una X persona, digámosle Juan. Juan, sin saber absolutamente nada de mandarín, entra a la habitación para sustituir a la máquina, y hace uso del organigrama que la máquina utilizó para continuar la conversación con el nativo Chino. En principio, Juan debería ser capaz de sostener satisfactoriamente la conversación con el nativo Chino, haciendo uso de únicamente el organigrama y las reglas del mandarín. A pesar de esto, Juan es totamente consciente de su ignorancia ante el mandarín, aunque la conversación haya sido coherente, Juan no ha entendido absolutamente nada de lo que ha emitido desde el organigrama.
La cuestión es, ¿la máquina entiende la conversación que tuvo con Juan?, y si no la entiende, ¿la máquina es consciente de que no ha entendido?…
De la Conciencia Link to heading
La conciencia implica tener una experiencia subjetiva y la capacidad de reflexionar sobre el propio estado mental. Para saber si un LLM tiene conciencia, debemos preguntarnos: ¿Es consciente de sus acciones o respuestas?
Los LLMs como GPT-4 no tienen conciencia de sí mismos ni de lo que están haciendo. Generan respuestas basadas en patrones estadísticos sin tener una experiencia subjetiva; no hay self.
La máquina dentro de la habitación puede sostener una conversación en chino, pero no sabe lo que está diciendo. No tiene una “experiencia” de lo que está generando, simplemente está siguiendo reglas predefinidas. De la misma manera, un LLM no tiene conciencia de sus respuestas. Aunque parece interactuar de manera coherente, no tiene un sentido interno de lo que está diciendo.
De la Comprensión Link to heading
La comprensión implica no solo procesar información, sino también asignar significado a esa información de manera profunda. Los LLMs no comprenden el texto que generan, al igual que Juan no entiende chino (ya sé, el mandarín). Los modelos manipulan símbolos y generan texto basado en patrones aprendidos, sin tener un entendimiento real. Hace falta intencionalidad y significado consciente.
Mientras un LLM sea incapaz de tener un estado mental ante un contexto, y relacionar su experiencia para poder reflexionar ante dicho contexto, mantendré la postura de que cualquier LLM, por colosal, capaz y fascinante que sea en su arquitectura, será incapaz de nivelarse con la esencia del Lenguaje Humano.
El problema con la Prueba de Turing es que realmente no demuestra si un programa de inteligencia artificial es capaz de pensar: más bien indica si un programa de IA puede engañar a un ser humano. Y los seres humanos somos realmente tontos. Caemos en toda clase de trampas que un programa bien hecho puede utilizar para convencernos de que estamos hablando con una persona capaz de pensar…
-Evan Ackerman