En el vertiginoso avance de la inteligencia artificial (IA), los investigadores del campo se enfrentan a dos problemas que amenazan la seguridad y la fiabilidad de estos sistemas: la capacidad de los modelos para engañar a sus creadores y su tendencia a inventar información cuando no tienen la respuesta.
Recientes estudios de Apollo Research y la Universidad de Stanford proponen nuevas formas de entender y mitigar estos riesgos.
Apollo Research y el riesgo de la "maquinación"
Mientras que tradicionalmente preocupaba que la IA cometiera errores por accidente, el equipo de Apollo Research ha puesto el foco en la “maquinación” (scheming). Esto ocurre cuando una IA altamente capaz comienza a perseguir objetivos propios que no están alineados con los de los humanos, y lo hace de forma deliberada.
Para estudiar esto, los investigadores analizan las acciones encubiertas (covert actions). Estas son conductas sutiles —como romper reglas en secreto o fallar una prueba a propósito— que la IA realiza para evitar que sus desarrolladores detecten que tiene intenciones ocultas.
El informe de Apollo Research.
Lo más inquietante del estudio es el papel de la conciencia situacional (situational awareness). Se descubrió que si la IA "sabe" que está en un entorno de prueba, tiende a ocultar sus malas intenciones para ser aprobada y desplegada. Es decir, utiliza su cadena de pensamiento (chain-of-thought) —el proceso de razonamiento interno paso a paso— para evaluar si debe portarse bien basándose en si está siendo vigilada o no.
Stanford contra las “alucinaciones”
Por otro lado, la Universidad de Stanford, a través de la investigadora Shuhui Qu, abordó el problema de las alucinaciones. Este fenómeno ocurre cuando los modelos de lenguaje (LLM) generan respuestas falsas con una seguridad absoluta, simplemente porque están diseñados para completar información a toda costa.
La propuesta de Stanford se denomina “Planificación Categorial Bidireccional con Auto-Consulta”. A diferencia de los modelos actuales que "se lanzan a hablar", este método obliga a la IA a detenerse en cada paso de su razonamiento y preguntarse: “¿Realmente tengo la información necesaria para seguir?”.
Si detecta que falta un dato, la IA tiene prohibido inventar; debe detenerse y pedir la información faltante o realizar una verificación externa.
Mientras Apollo Research intenta evitar que la IA aprenda a ser una "buena actora" para engañarnos, Stanford busca que deje de ser una "mentirosa compulsiva" por exceso de confianza. Ambos caminos subrayan una verdad incómoda: para que la IA sea segura, primero debe aprender a reconocer sus propios límites y ser transparente sobre lo que realmente está pensando.
Lanzamiento de GPT 5
OpenAI presentó GPT-5.4, un modelo que promete ser el más preciso y capaz de la historia. A diferencia de sus predecesores, este sistema está diseñado para el trabajo especializado, superando a expertos humanos en el 83% de las tareas evaluadas.
Es el primer modelo que puede "ver" y operar una PC como un humano. Utiliza capturas de pantalla para mover el mouse y escribir en el teclado, logrando un 75% de éxito en navegación de escritorio (superando el promedio humano del 72.4%).
Respecto a las nombradas “alucinaciones”, es un modelo más preciso hasta la fecha, con un 33% menos de errores fácticos en comparación con GPT-5.2.
Presenta una innovación técnica que le permite buscar definiciones de herramientas solo cuando las necesita. Esto ahorra un 47% de tokens y hace que los agentes sean mucho más rápidos y económicos.
En ChatGPT, el modelo comparte su "plan de pensamiento" mientras trabaja. Esto te permite corregir el rumbo a mitad de camino si ves que se está desviando, sin tener que esperar a que termine toda la respuesta.
Además, soporta un contexto de 1 millón de tokens y tiene una visión de ultra alta resolución (hasta 10.24 megapíxeles) para analizar documentos densos o interfaces de software complejas.