Yann LeCun, el renombrado científico jefe de IA saliente de Meta, ha encendido el debate al sugerir que la compañía «maquilló un poco» las pruebas de rendimiento de su modelo Llama 4. Esta revelación, según una entrevista en Fast Company, implica que Meta pudo haber utilizado versiones distintas del modelo para diferentes benchmarks, influyendo en los resultados finales presentados.

La práctica, poco convencional en la comunidad de investigación de IA, genera preguntas sobre la transparencia y la presión por el rendimiento en el competitivo panorama de los modelos de lenguaje grandes. Normalmente, los investigadores emplean una única versión de un modelo para todas las evaluaciones comparativas, asegurando una base consistente para la medición.

Esta situación emerge en un momento crítico para Meta, que buscaba reafirmar la destreza de Llama frente a rivales como Anthropic, OpenAI y Google. La presión del mercado y la influencia de los resultados de los benchmarks en las valoraciones bursátiles son factores innegables en la carrera por la supremacia en inteligencia artificial.

La controversia detrás del benchmarking de IA

Tras el lanzamiento de los modelos Llama 4, investigadores externos y evaluadores independientes intentaron verificar las afirmaciones de Meta sobre su rendimiento. Sin embargo, muchos encontraron que sus resultados no coincidían con los publicados por la empresa. Algunos incluso dudaron si los modelos usados en las pruebas eran idénticos a los liberados al público.

Ahmad Al-Dahle, vicepresidente de IA generativa de Meta, desmintió estas acusaciones, atribuyendo las discrepancias a diferencias en las implementaciones de los modelos en la nube. No obstante, la afirmación de LeCun añade una capa de complejidad a la discusión, sugiriendo que la «manipulación» en el benchmarking no fue un mero error técnico.

El uso selectivo de variantes de los modelos Llama 4 Maverick y Llama 4 Scout para optimizar puntuaciones en benchmarks específicos es una táctica que, si bien podría ser vista como estratégica, genera preocupaciones éticas. La comunidad científica valora la reproducibilidad y la estandarización en las pruebas como pilares fundamentales de la investigación, como se detalla en estudios recientes sobre evaluación de LLMs.

Repercusiones internas y reestructuración en Meta

LeCun indicó que esta situación contribuyó a una frustración interna sobre el progreso de los modelos Llama y a una pérdida de confianza entre los líderes de Meta, incluido el CEO Mark Zuckerberg. Este clima llevó a una reestructuración significativa de la organización de IA de Meta, anunciada por Zuckerberg en junio.

Parte de esta reorganización incluyó la creación de la división Meta Superintelligence Labs (MSL). Además, Meta invirtió entre 14.3 mil y 15 mil millones de dólares para adquirir el 49% de Scale AI, una empresa de datos de entrenamiento de IA, nombrando a su CEO, Alexandr Wang, de 28 años, para dirigir MSL.

Este movimiento, donde LeCun (ganador del Premio Turing) ahora reportaría a Wang, resalta la ambición y los desafíos internos de Meta en el campo de la IA. La necesidad de acelerar el desarrollo es clara, como se observa en análisis del mercado de IA generativa, incluso si implica decisiones controvertidas sobre cómo se presentan los logros.

Las declaraciones de Yann LeCun abren una ventana a las presiones que enfrentan las grandes tecnológicas en la carrera de la inteligencia artificial. Más allá de los resultados técnicos, la credibilidad y la ética en la presentación de datos son fundamentales para mantener la confianza de la comunidad científica y del público. El futuro de Meta en IA dependerá no solo de la potencia de sus modelos, sino también de la transparencia con la que se evalúen y se comuniquen sus avances.