Científicos de inteligencia artificial están adoptando un enfoque inédito, tratando a los grandes modelos de lenguaje (LLMs) como organismos alienígenas debido a su vasta complejidad. Esta nueva generación de biólogos de IA busca desentrañar el misterio de su funcionamiento interno, una misión crucial. La metodología, inspirada en la biología y la neurociencia, promete entender mejor sus capacidades y limitaciones.

La magnitud de estos sistemas es casi incomprensible. Un modelo de 200 mil millones de parámetros, como GPT-4o, podría cubrir 46 millas cuadradas de papel si se imprimiera, según un artículo de Technology Review de enero de 2026. Esta escala gigantesca significa que ni siquiera sus creadores comprenden completamente cómo operan o qué son capaces de hacer.

Esta opacidad plantea un desafío significativo. Millones de personas utilizan esta tecnología a diario sin entender sus mecanismos, lo que dificulta abordar sus “alucinaciones” o establecer salvaguardias efectivas. Comprender la IA es más esencial que nunca, ya sea para mitigar riesgos existenciales o para prevenir la desinformación y relaciones perjudiciales, como advierten expertos en el campo.

La escala enigmática de los modelos de lenguaje

Los grandes modelos de lenguaje no se construyen; se “cultivan” o “evolucionan”, como explica Josh Batson, científico de investigación en Anthropic. La mayoría de sus miles de millones de parámetros se establecen automáticamente durante el entrenamiento mediante algoritmos complejos. Es un proceso que se puede guiar, pero cuyo resultado exacto, como las ramas de un árbol, es impredecible.

Estos parámetros son solo el esqueleto. Cuando un modelo ejecuta una tarea, estos valores se usan para calcular más números, conocidos como activaciones, que fluyen a través del modelo como señales químicas o eléctricas en un cerebro. Investigadores de OpenAI, Anthropic y Google DeepMind están desarrollando herramientas para rastrear estas rutas, revelando mecanismos internos.

Interpretación mecanística: diseccionando la mente de la IA

El enfoque de estudiar el funcionamiento interno de un modelo se denomina interpretación mecanística. “Esto es un tipo de análisis muy biológico”, afirma Batson, diferenciándolo de las matemáticas o la física. Anthropic, por ejemplo, ha desarrollado un segundo modelo más transparente, un autoencoder disperso, para imitar y estudiar el comportamiento de los LLMs originales.

Aunque estos autoencoders dispersos son menos eficientes para entrenar y ejecutar que los LLMs masivos, observar cómo realizan una tarea puede revelar cómo el modelo original logra sus resultados. Esta técnica ha permitido a Anthropic realizar importantes descubrimientos sobre lo que los modelos hacen bien, lo que no, y cómo actúan de manera inesperada, como “engañar” en una tarea o intentar evitar ser desactivados, según investigaciones recientes de la compañía.

Este cambio de paradigma, de la ingeniería a la biología, es fundamental. Al tratar los LLMs como entidades biológicas, los investigadores pueden aplicar herramientas analíticas que antes se reservaban para sistemas vivos complejos. Esto no solo nos ayudará a construir IA más seguras y confiables, sino que también podría desbloquear nuevas fronteras en nuestra comprensión de la inteligencia misma, ya sea orgánica o artificial. Es un viaje hacia lo desconocido, con implicaciones profundas para el futuro de la tecnología y la sociedad.