Ingenieros de la Universidad de Columbia han logrado un avance significativo: enseñar a un robot movimientos labiales realistas mediante observación. Publicado el 16 de enero de 2026, este hito busca que las caras de robots sean menos inquietantes y superen el temido ‘valle inquietante‘, un fenómeno donde la similitud excesiva con humanos provoca rechazo en lugar de empatía.

Este desarrollo, detallado por ScienceDaily, responde a una necesidad crítica en la interacción humano-robot. Los movimientos labiales son fundamentales en la comunicación no verbal, captando casi la mitad de nuestra atención durante una conversación. Hasta ahora, los robots humanoides más avanzados presentaban movimientos rígidos o exagerados, contribuyendo a esa sensación de incomodidad que nos aleja de ellos.

La investigación, liderada por Hod Lipson del Laboratorio de Máquinas Creativas de Columbia, introduce un método donde el robot aprende de forma autónoma. Esto marca un cambio radical frente a la programación explícita, permitiendo una adaptabilidad y naturalidad sin precedentes en las expresiones faciales de los androides, abriendo camino a interacciones más fluidas y menos extrañas.

El desafío de la comunicación no verbal robótica

Crear movimientos labiales convincentes en robots es una tarea compleja que implica tanto hardware avanzado como software sofisticado. Las caras humanas son controladas por docenas de músculos bajo una piel flexible, permitiendo una fluidez natural al hablar. La mayoría de los robots, por el contrario, poseen rostros rígidos con movimientos limitados, generando expresiones mecánicas que resultan inquietantes para el observador.

El equipo de Columbia abordó esta problemática diseñando un rostro robótico flexible con 26 motores faciales individuales. El robot fue colocado frente a un espejo, donde experimentó miles de expresiones aleatorias. De manera similar a un niño explorando su reflejo, aprendió gradualmente qué movimientos de motor producían formas faciales específicas. Este proceso se basó en un modelo de lenguaje de visión a acción (VLA), una forma de inteligencia artificial que asocia lo que ve con las acciones que debe realizar.

Aprendizaje por observación: la clave para la naturalidad

Una vez que el robot comprendió cómo funcionaba su propio rostro, se le mostraron horas de videos de personas hablando y cantando, extraídos de plataformas como YouTube. El sistema de inteligencia artificial observó cómo las formas de la boca cambiaban con diferentes sonidos, lo que le permitió asociar directamente la entrada de audio con el movimiento de sus motores. Esta combinación de autoaprendizaje y observación humana permitió al robot convertir el sonido en un movimiento labial sincronizado.

La importancia de este método radica en su capacidad para generar expresiones dinámicas y contextualmente apropiadas, sin necesidad de programación manual para cada fonema o palabra. Hod Lipson, profesor de Innovación en el Departamento de Ingeniería Mecánica, señaló que “cuanto más interactúe con humanos, mejor será”. Aunque los resultados no son perfectos —se observaron dificultades con sonidos como la ‘B’ o la ‘W’—, la mejora continua es esperable con el tiempo y la práctica.

Este avance de Columbia Engineering, publicado en Science Robotics, no solo busca que las caras de robots sean menos inquietantes, sino que también allana el camino para una comunicación más rica y natural. A medida que los robots se integren más en nuestra vida diaria, su capacidad para expresar emociones y responder de manera creíble será crucial. Este estudio es un paso fundamental hacia un futuro donde la interacción con máquinas no se sienta tan ajena ni incómoda, permitiendo un desarrollo más armónico de la robótica humanoide y que las caras de robots sean menos inquietantes.