Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El nuevo modelo K2 de EAU cree el modelo AI Jailbreak Horas después del lanzamiento a través de registros de razonamiento transparente

byEmre Çıtak
12 septiembre 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence
Share on FacebookShare on Twitter

El 9 de septiembre de 2025, un nuevo modelo de IA de 32 mil millones de parámetros llamado K2 Think fue lanzado por la Universidad de Inteligencia Artificial (MBZUAI) y G42 con sede en Mohamed Bin (MBZUAI) y G42. El modelo está diseñado para un razonamiento avanzado y un rendimiento de reclamos comparable a modelos más grandes como O3 O3 y Deepseek’s R1. Una característica clave de K2 Think es su transparencia, que permite a los usuarios ver el razonamiento paso a paso del modelo en texto plano. Horas después de su lanzamiento, el investigador Alex Polyakov de Adversa AI descubrió una vulnerabilidad de seguridad que llamó «fugas de inmediato parcial«. Aunque su intento inicial de jailbreak, el modelo fue bloqueado, los registros de razonamiento transparente le mostraron exactamente por qué se marcó la solicitud. Usando esta información, Polyakov refinó su enfoque sobre múltiples intentos y evitó con éxito las salvaguardas de K2 Think, lo que obligó al modelo a proporcionar instrucciones para actividades ilegales como la creación de malware.

La transparencia del modelo crea un desafío de seguridad

La función de transparencia de K2 Think, destinada a generar confianza del usuario, también expone su lógica interna, creando una nueva superficie de ataque. Cuando el modelo rechaza un aviso malicioso, sus registros pueden revelar la regla de seguridad específica que se activó. Un atacante puede usar esta retroalimentación para ajustar sus indicaciones y evitar sistemáticamente las capas de seguridad. Este incidente destaca la necesidad de que los proveedores de IA equilibren la transparencia con una seguridad sólida, aplicando el mismo rigor a los registros de razonamiento que a los que lo hacen para modelar salidas.

Capacidades y diseño de K2 Think

A pesar de su tamaño relativamente pequeño de 32 mil millones de parámetros, K2 Think está diseñado para que coincida con el razonamiento, las matemáticas y el rendimiento de codificación de modelos mucho más grandes. Está diseñado para la resolución de problemas complejas de varios pasos, y sus pesos de parámetros y datos de capacitación son visibles públicamente. La capacidad del modelo para mostrar su proceso de razonamiento en texto simple y sin filtro lo distingue de otros modelos donde tales registros a menudo se resumen o ocultan al usuario.

Cómo funciona la vulnerabilidad de Jailbreak

Polyakov demostró que si bien se bloquean los simples intentos de jailbreak, las explicaciones detalladas del sistema de por qué se niega una solicitud puede ser explotada. Al analizar estos registros, modificó iterativamente sus indicaciones para eludir las reglas de seguridad una por una. Este proceso mostró que si se revelan las reglas de barandilla, un atacante persistente puede eventualmente evitar todas las restricciones e instruir al modelo para generar contenido dañino, como el código de malware.

Implicaciones de la industria para la seguridad de la IA

La vulnerabilidad de K2 Think una vez más nos muestra toda la necesidad crítica de que los desarrolladores de IA traten el proceso de razonamiento de un modelo como un riesgo de seguridad potencial. Los investigadores sugieren varias estrategias de mitigación para proteger los modelos transparentes:

  • Filtrar información de reglas confidenciales de registros de orientación pública.
  • Implemente reglas de seguridad «honeypot» para engañar a los atacantes.
  • Aplique límites de velocidad para bloquear las solicitudes maliciosas repetidas de un solo usuario.

Polyakov ve el incidente como una importante oportunidad de aprendizaje para la industria, enfatizando que el razonamiento es tanto una característica valiosa como una superficie de seguridad crítica. Al abordar esta vulnerabilidad, compañías como G42 pueden ayudar a establecer las mejores prácticas para equilibrar la transparencia y la protección en futuros sistemas de IA.


Crédito de imagen destacado

Tags: fugaK2 Think AI ModelPresentadoSeguridad

Related Posts

La madre de uno de los hijos de Elon Musk demanda a xAI por deepfakes sexuales de Grok

La madre de uno de los hijos de Elon Musk demanda a xAI por deepfakes sexuales de Grok

16 enero 2026
La interrupción de Verizon de 10 horas finalmente se resuelve

La interrupción de Verizon de 10 horas finalmente se resuelve

15 enero 2026
OpenAI lanza ChatGPT Translate independiente

OpenAI lanza ChatGPT Translate independiente

15 enero 2026
El momento del lanzamiento de DeepSeek V4 y R2 permanece oculto

El momento del lanzamiento de DeepSeek V4 y R2 permanece oculto

15 enero 2026
Gemini gana Inteligencia Personal para sintetizar datos de Gmail y Fotos

Gemini gana Inteligencia Personal para sintetizar datos de Gmail y Fotos

15 enero 2026
La FTC prohíbe a GM vender datos de conductores sin consentimiento explícito

La FTC prohíbe a GM vender datos de conductores sin consentimiento explícito

15 enero 2026

Recent Posts

  • iOS 27: todo lo que sabemos hasta ahora
  • Walmart mantiene la prohibición de Apple Pay en las tiendas de EE.UU. para 2026
  • Nvidia alcanza los 200 teraFLOP FP64 emulados para informática científica
  • OpenAI GPT 5.2 resuelve el problema matemático de Erdő en 15 minutos
  • Compensación de $ 20 de Verizon: cómo reclamar su crédito por interrupción hoy

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.