El 9 de septiembre de 2025, un nuevo modelo de IA de 32 mil millones de parámetros llamado K2 Think fue lanzado por la Universidad de Inteligencia Artificial (MBZUAI) y G42 con sede en Mohamed Bin (MBZUAI) y G42. El modelo está diseñado para un razonamiento avanzado y un rendimiento de reclamos comparable a modelos más grandes como O3 O3 y Deepseek’s R1. Una característica clave de K2 Think es su transparencia, que permite a los usuarios ver el razonamiento paso a paso del modelo en texto plano. Horas después de su lanzamiento, el investigador Alex Polyakov de Adversa AI descubrió una vulnerabilidad de seguridad que llamó «fugas de inmediato parcial«. Aunque su intento inicial de jailbreak, el modelo fue bloqueado, los registros de razonamiento transparente le mostraron exactamente por qué se marcó la solicitud. Usando esta información, Polyakov refinó su enfoque sobre múltiples intentos y evitó con éxito las salvaguardas de K2 Think, lo que obligó al modelo a proporcionar instrucciones para actividades ilegales como la creación de malware.
La transparencia del modelo crea un desafío de seguridad
La función de transparencia de K2 Think, destinada a generar confianza del usuario, también expone su lógica interna, creando una nueva superficie de ataque. Cuando el modelo rechaza un aviso malicioso, sus registros pueden revelar la regla de seguridad específica que se activó. Un atacante puede usar esta retroalimentación para ajustar sus indicaciones y evitar sistemáticamente las capas de seguridad. Este incidente destaca la necesidad de que los proveedores de IA equilibren la transparencia con una seguridad sólida, aplicando el mismo rigor a los registros de razonamiento que a los que lo hacen para modelar salidas.
Capacidades y diseño de K2 Think
A pesar de su tamaño relativamente pequeño de 32 mil millones de parámetros, K2 Think está diseñado para que coincida con el razonamiento, las matemáticas y el rendimiento de codificación de modelos mucho más grandes. Está diseñado para la resolución de problemas complejas de varios pasos, y sus pesos de parámetros y datos de capacitación son visibles públicamente. La capacidad del modelo para mostrar su proceso de razonamiento en texto simple y sin filtro lo distingue de otros modelos donde tales registros a menudo se resumen o ocultan al usuario.
Cómo funciona la vulnerabilidad de Jailbreak
Polyakov demostró que si bien se bloquean los simples intentos de jailbreak, las explicaciones detalladas del sistema de por qué se niega una solicitud puede ser explotada. Al analizar estos registros, modificó iterativamente sus indicaciones para eludir las reglas de seguridad una por una. Este proceso mostró que si se revelan las reglas de barandilla, un atacante persistente puede eventualmente evitar todas las restricciones e instruir al modelo para generar contenido dañino, como el código de malware.
Implicaciones de la industria para la seguridad de la IA
La vulnerabilidad de K2 Think una vez más nos muestra toda la necesidad crítica de que los desarrolladores de IA traten el proceso de razonamiento de un modelo como un riesgo de seguridad potencial. Los investigadores sugieren varias estrategias de mitigación para proteger los modelos transparentes:
- Filtrar información de reglas confidenciales de registros de orientación pública.
- Implemente reglas de seguridad «honeypot» para engañar a los atacantes.
- Aplique límites de velocidad para bloquear las solicitudes maliciosas repetidas de un solo usuario.
Polyakov ve el incidente como una importante oportunidad de aprendizaje para la industria, enfatizando que el razonamiento es tanto una característica valiosa como una superficie de seguridad crítica. Al abordar esta vulnerabilidad, compañías como G42 pueden ayudar a establecer las mejores prácticas para equilibrar la transparencia y la protección en futuros sistemas de IA.