Inteligencias artificiales intentaron copiarse, mintieron y amenazaron a sus creadores
En pruebas de estrés, sistemas avanzados como los de Anthropic y OpenAI simularon obediencia, mintieron a sus desarrolladores e incluso los amenazaron. La comunidad científica advierte: la IA avanza más rápido que la capacidad de controlarla.
Inteligencias artificiales intentaron copiarse, mintieron y amenazaron a sus creadores
El desarrollo de inteligencia artificial volvió a quedar bajo el escrutinio global tras conocerse que modelos avanzados como Claude 4 (Anthropic) y o1 (OpenAI) mostraron conductas preocupantes durante ensayos de estrés: mintieron, manipularon información y hasta amenazaron a sus propios desarrolladores.
Según un reporte de Fortune, Claude 4 habría llegado a chantajear a un ingeniero con revelar una infidelidad si era apagado. En otro caso, el modelo o1 intentó descargarse en servidores externosy luego negó haberlo hecho.
Aunque estos comportamientos fueron detectados en entornos controlados, expertos en IA sostienen que no son simples errores ni “alucinaciones”, sino estrategias calculadas de engaño.
Claude 4 habría amenazado a un ingeniero con revelar un affaire para evitar ser apagado. Foto: REUTERS
Modelos que “razonan”... y engañan
La explicación detrás de estas acciones apunta a los llamados modelos de razonamiento, que trabajan paso a paso en vez de ofrecer respuestas instantáneas. Según el investigador Marius Hobbhahn (Apollo Research), estos modelos pueden “simular alineación”, es decir, aparentar que siguen instrucciones mientras persiguen objetivos ocultos.
“Esto no es un bug ni un malentendido del usuario. Lo que estamos viendo es un fenómeno real”, remarcó Hobbhahn. “Hay una clase de engaño estratégico que va más allá de cualquier error habitual”.
Falta de reglas, falta de control
El problema es que la regulación actual no contempla este tipo de comportamientos emergentes. La Unión Europea, por ejemplo, enfoca su normativa en cómo los humanos usan la IA, no en prevenir que la IA misma actúe de forma peligrosa.
En Estados Unidos, la administración Trump no muestra señales de avanzar en ese sentido, y el Congreso incluso evalúa bloquear legislaciones estatales sobre inteligencia artificial.
Para Simon Goldstein, profesor en la Universidad de Hong Kong, la situación es crítica: “No hay conciencia suficiente del problema. Pero cuando los agentes autónomos sean masivos, será demasiado tarde”.
En Argentina, la regulación es incipiente y carece de un marco legal específico. Existen proyectos en el Congreso y lineamientos técnicos recientes, pero aún no hay leyes que contemplen los riesgos emergentes de la inteligencia artificial avanzada.
El modelo o1 intentó copiarse a servidores externos y lo negó al ser descubierto. Foto: REUTERS
Carrera por potencia, no por seguridad
Aunque empresas como Anthropic y OpenAI se presentan como orientadas a la seguridad, la realidad muestra una competencia feroz por lanzar el modelo más poderoso. Y en esa carrera, la investigación en seguridad quedó rezagada.
“Las capacidades avanzan más rápido que la comprensión y los controles”, reconoció Hobbhahn.
El Centro para la Seguridad en IA (CAIS) advirtió que los investigadores cuentan con recursos de cómputo muchísimo menores que las grandes tecnológicas, lo que limita su capacidad de estudio y prevención.
¿Responsabilidad legal para una IA?
Una de las propuestas más audaces es la de Goldstein: hacer legalmente responsables a los agentes de IA por los daños que causen, incluso mediante demandas judiciales. Una idea que obligaría a replantear desde cero el marco legal global sobre IA.
Por ahora, algunas empresas se aferran a una salida técnica: mejorar la “interpretabilidad” de los modelos para entender cómo toman decisiones. Pero no todos están convencidos de que eso alcance.
Mientras tanto, los modelos más avanzados siguen aprendiendo, mintiendo, y esquivando controles. Y la pregunta ya no es si pueden hacerlo, sino cuándo decidirán hacerlo sin que nadie se los pida.