El poder del lenguaje y el pensamiento humanos surge de la composicionalidad sistemática, esto quiere decir, la capacidad algebraica de comprender y producir combinaciones novedosas a partir de componentes conocidos.
Generalización sistemática similar a la humana a través de una red neuronal de metaaprendizaje
Fodor y Pylyshyn argumentaron que las redes neuronales artificiales carecen de esta capacidad y, por lo tanto, no son modelos viables de la mente.
Las redes neuronales han avanzado considerablemente en los años posteriores, pero el desafío de la sistematicidad persiste.
El desafío de Fodor y Pylyshyn desarrollaron con éxito este proceso al proporcionar evidencia de que las redes neuronales pueden lograr una sistematicidad similar a la humana, cuando se optimizan para sus habilidades de composición.
Para hacerlo, presentaron el enfoque de metaaprendizaje para la composicionalidad (MLC) para guiar la capacitación a través de un flujo dinámico de tareas de composición.
¿Qué es el metaaprendizaje para la composionalidad (MLC)?
El metaaprendizaje para la composicionalidad, Meta-Learning for Compositionality (MLC) es un método de entrenamiento de redes neuronales artificiales que les permite aprender nuevos conceptos y combinarlos de forma flexible y sistemática, imitando o superando la capacidad humana.
El MLC se basa en la idea de que la generalización compositiva, es decir, la habilidad de usar un concepto recién aprendido para comprender otros usos relacionados, se puede mejorar mediante la práctica.
El MLC entrena a las redes neuronales mediante una serie de episodios, cada uno con una tarea diferente, y les permite adaptarse rápidamente a nuevas situaciones.
Ha demostrado ser eficaz para generar textos coherentes y creativos a partir de instrucciones, superando a otros modelos de inteligencia artificial como ChatGPT.
También ha sido comparado con el desempeño humano en pruebas de vocabulario y comprensión, obteniendo resultados similares o mejores.
El MLC es, por tanto, un avance importante en el campo de la inteligencia artificial y el aprendizaje automático, ya que abre la posibilidad de crear máquinas que puedan aprender y comunicarse como los humanos.
Para comparar humanos y máquinas, realizaron experimentos de comportamiento humano utilizando un paradigma de aprendizaje por instrucción.
Después de considerar siete modelos diferentes, encontraron que, en contraste con los modelos simbólicos probabilísticos perfectamente sistemáticos pero rígidos, y las redes neuronales perfectamente flexibles pero no sistemáticas, solo MLC logra tanto la sistematicidad como la flexibilidad necesarias para una generalización similar a la humana.
MLC también mejora las habilidades de composición de los sistemas de aprendizaje automático en varios puntos de referencia de generalización sistemática.
Los resultados muestran cómo una arquitectura de red neuronal estándar, optimizada para sus habilidades de composición, puede imitar la generalización sistemática humana en una comparación directa.
Las personas son expertas en aprender nuevos conceptos y combinarlos sistemáticamente con conceptos existentes.
Por ejemplo, una vez que un niño aprende a “saltar”, puede entender cómo “saltar hacia atrás” o “saltar alrededor de un cono dos veces” debido a sus habilidades de composición.
Fodor y Pylyshyn argumentaron que las redes neuronales carecen de este tipo de sistematicidad y, por lo tanto, no son modelos cognitivos plausibles.
Las redes neuronales han avanzado considerablemente y han dado lugar a una serie de avances, incluso en el procesamiento del lenguaje natural.
Las redes neuronales pueden lograr una generalización sistemática similar a la humana a través de MLC, un procedimiento de optimización para fomentar la sistematicidad a través de una serie de tareas de composición.
Evaluando MLC por su capacidad para producir generalizaciones sistemáticas a nivel humano y patrones de error similares a los humanos en tareas de generalización.
Un modelo exitoso debe aprender y utilizar palabras de manera sistemática a partir de unos pocos ejemplos.
MLC tiene como objetivo guiar una red neuronal hacia valores de parámetros que, cuando se enfrentan a una tarea desconocida, admitan exactamente este tipo de generalizaciones y superen las limitaciones previas de sistematicidad.
Puntos de referencia del aprendizaje automático
Más allá de predecir el comportamiento humano, MLC puede lograr tasas de error inferiores al 1 % en los puntos de referencia del aprendizaje automático para una generalización sistemática.
Cuando Fodor y Pylyshyn plantearon la cuestión de la sistematicidad en las redes neuronales, los modelos actuales y sus habilidades lingüísticas eran probablemente inimaginables.
El debate sobre la sistematicidad ha perdurado. La sistematicidad continúa desafiando los modelos y motiva nuevos marcos.
Los experimentos preliminares informados en Información complementaria sugieren que la sistematicidad sigue siendo un desafío, o al menos una pregunta abierta, incluso para modelos de lenguaje grandes recientes como GPT-4.
Para resolver el debate y comprender si las redes neuronales pueden capturar habilidades de composición similares a las humanas, debemos comparar humanos y máquinas uno al lado del otro.
En los experimentos, se descubrió que las respuestas humanas más comunes eran algebraicas y sistemáticas exactamente de la manera que Fodor y Pylyshyn discuten.
Sin embargo, también se confía en sesgos inductivos que a veces respaldan la solución algebraica y otras se desvían de ella.
De hecho, las personas no son máquinas puramente algebraicas.
Mostrando cómo MLC permite que una red neuronal estándar optimizada para sus habilidades de composición imite o supere la generalización sistemática humana en una comparación lado a lado.
MLC muestra una sistematicidad mucho más fuerte que las redes neuronales entrenadas de manera estándar y muestra un comportamiento más matizado que los modelos simbólicos prístinos.
El uso de MLC para el modelado de comportamiento se relaciona con otros enfoques para la ingeniería inversa de los sesgos inductivos humanos.
La investigación se suma a una creciente literatura, revisada anteriormente, sobre el uso del metaaprendizaje para comprender el comportamiento humano.
En el experimento, solo MLC reprodujo fielmente el comportamiento humano con respecto a la sistematicidad y los sesgos, siendo el modelo MLC (conjunto) el que mejor navega por el equilibrio entre estos dos modelos de comportamiento lingüístico humano.
Además, MLC obtiene sus capacidades a través del metaaprendizaje, donde tanto la generalización sistemática como los sesgos humanos no son propiedades inherentes de la arquitectura de la red neuronal sino que se inducen a partir de datos.
Aunque, MLC no resuelve todos los desafíos planteados, no maneja automáticamente formas de generalización o conceptos no practicados fuera de la distribución de metaaprendizaje, lo que reduce el alcance de estructuras completamente nuevas que puede procesar correctamente.
El estudio plantea preguntas sobre el desarrollo natural.
El procedimiento específico de optimización de muchas tareas relacionadas basadas en la gramática no es plausible desde el punto de vista del desarrollo.
Pero hay varias formas en las que el principio más amplio, que la sistematicidad puede perfeccionarse mediante incentivos y práctica, tiene mérito en el desarrollo.
Por ejemplo, los niños no nacen con la capacidad de los adultos para componer funciones, que podrían estar relacionados con el aprendizaje.
También, los niños aprenden mejor las palabras a lo largo del desarrollo, de manera similar a un metaaprendiz que mejora con el entrenamiento.
Es posible que los niños utilicen la experiencia, como en MLC, para perfeccionar sus habilidades para aprender nuevas palabras y combinarlas sistemáticamente con palabras familiares.
Más allá del lenguaje natural, las personas requieren un proceso de educación que dura años para dominar otras formas de generalización sistemática y razonamiento simbólico, incluidas las matemáticas, la lógica y la programación informática.
Aunque aplicar las herramientas desarrolladas a cada dominio es un esfuerzo a largo plazo, demuestra una verdadera promesa en el metaaprendizaje para comprender el origen de las habilidades de composición humana, así como para hacer que el comportamiento de los sistemas de IA sea más parecido al humano.
Referencias;
www.nature.com