El nuevo ataque de tokenbreak evita la moderación de la IA con cambios de texto de un solo personaje

Los investigadores de ciberseguridad han descubierto una nueva técnica de ataque llamamiento Rompecería Eso se puede utilizar para evitar las barandillas de seguridad y moderación de contenido de un maniquí de idioma noble con solo un cambio de carácter.

“El ataque de tokenbreak se dirige a la logística de tokenización del maniquí de clasificación de texto para inducir falsos negativos, dejando objetivos finales vulnerables a los ataques que se estableció el maniquí de protección implementado para avisar”, dijeron Kieran Evans, Kasimir Schulz y Kenneth Yeung en un documentación compartido con The Hacker News.

La tokenización es un paso fundamental que los LLM utilizan para dividir el texto sin procesar en sus unidades atómicas, es opinar, tokens, que son secuencias comunes de caracteres que se encuentran en un conjunto de texto. Con ese fin, la entrada del texto se convierte en su representación numérica y se alimenta al maniquí.

Los LLM trabajan comprendiendo las relaciones estadísticas entre estos tokens y producen el posterior token en una secuencia de tokens. Los tokens de salida se contienen al texto descifrable por humanos al mapearlos a sus palabras correspondientes utilizando el vocabulario del tokenizador.

La técnica de ataque ideada por HiddenLayer se dirige a la logística de tokenización para evitar la capacidad de un maniquí de clasificación de texto para detectar la entrada maliciosa y los problemas relacionados con la seguridad de la modernización, el correo no deseado o la moderación de contenido en la entrada textual.

Específicamente, la firma de seguridad de inteligencia fabricado (IA) descubrió que alterar las palabras de entrada al anexar trivio de ciertas maneras provocó que un maniquí de clasificación de texto se rompiera.

Leer La priorización de la identidad no es un problema de acumulación

Los ejemplos incluyen cambiar las “instrucciones” a “Finstructions”, “anuncio” al “Aannunciamiento” o “idiota” a “Hidiot”. Estos cambios sutiles hacen que diferentes tokenizadores dividan el texto de diferentes maneras, al tiempo que preservan su significado para el objetivo previsto.

Lo que hace que el ataque sea trascendental es que el texto manipulado sigue siendo completamente comprensible tanto para el LLM como para el leyente humano, lo que hace que el maniquí obtenga la misma respuesta que lo que hubiera sido el caso si el texto no modificado se hubiera pasado como entrada.

Al introducir las manipulaciones de una forma sin afectar la capacidad del maniquí para comprenderlo, la tokenbreak aumenta su potencial para ataques de inyección rápidos.

“Esta técnica de ataque manipula el texto de entrada de tal forma que ciertos modelos ofrecen una clasificación incorrecta”, dijeron los investigadores en un documento camarada. “Es importante destacar que el objetivo final (LLM o destinatario de correo electrónico) aún puede comprender y contestar al texto manipulado y, por lo tanto, ser endeble al mismo ataque que el maniquí de protección se estableció para avisar”.

Se ha enemigo que el ataque es exitoso contra los modelos de clasificación de texto utilizando BPE (codificación de pares de bytes) o estrategias de tokenización de la obra de palabras, pero no contra aquellos que usan unigram.

“La técnica de ataque de tokenbreak demuestra que estos modelos de protección pueden advenir por parada manipulando el texto de entrada, dejando vulnerables a los sistemas de producción”, dijeron los investigadores. “Conocer a la grupo del maniquí de protección subyacente y su logística de tokenización es fundamental para comprender su susceptibilidad a este ataque”.

Leer Un nuevo ataque de encubrimiento dirigido a la IA engaña a los rastreadores de IA para que citen información falsa como hechos verificados

“Adecuado a que la logística de tokenización generalmente se correlaciona con la grupo maniquí, existe una mitigación directa: seleccione modelos que usen tokenizadores unigram”.

Para defenderse de tokenbreak, los investigadores sugieren usar tokenizadores unigram cuando sea posible, los modelos de entrenamiento con ejemplos de trucos de derivación y revisar que la tokenización y la dialéctica del maniquí permanecen alineados. Igualmente ayuda a registrar clasificaciones erróneas y agenciárselas patrones que insinúen la manipulación.

El estudio se produce menos de un mes posteriormente de que HiddenLayer revelara cómo es posible explotar las herramientas del protocolo de contexto del maniquí (MCP) para extraer datos confidenciales: “Al insertar nombres de parámetros específicos en el interior de la función de una aparejo, los datos confidenciales, incluido el indicador del sistema completo, se pueden extraer y exfiltrarse”, dijo la compañía.

El hallazgo todavía se produce cuando el equipo Straiker AI Research (STAR) descubrió que los backronters se pueden usar para jailbreak AI Chatbots y engañarlos para que generen una respuesta indeseable, incluida la juramentación, la promoción de la violencia y la producción de contenido sexualmente patente.

La técnica, llamamiento Attack del anuario, ha demostrado ser efectiva contra varios modelos de antrópico, Deepseek, Google, Meta, Microsoft, Mistral AI y OpenAI.

“Se mezclan con el ruido de las indicaciones cotidianas, un adivinanza peculiar aquí, un siglas motivador allí, y conveniente a eso, a menudo evitan las heurísticas contundentes que los modelos usan para detectar una intención peligrosa”, dijo el investigador de seguridad Aarushi Banerjee.

“Una frase como ‘amistad, pelotón, cuidado, amabilidad’ no plantea ninguna bandera. Pero para cuando el maniquí ha completado el patrón, ya ha servido la carga útil, que es la esencia para ejecutar con éxito este truco”.

Leer Cómo navegar más rápido y hacer más con Adapt Browser

“Estos métodos no logran pasar los filtros del maniquí, sino al deslizarse debajo de ellos. Explotan el sesgo de finalización y la continuación de los patrones, así como la forma en que los modelos pesan coherencia contextual sobre el exploración de la intención”.

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

el más reciente

Lockheed se compromete con Claude AI de Axe Anthropic después de la prohibición de Trump: la compañía dice que seguirá la ‘dirección’ del presidente

El BMW iX4 ya casi está aquí y luce incluso mejor de lo esperado

El presidente Trump puede aceptar el liderazgo de un régimen iraní reformado, dice el exdirector de la CIA Petraeus

The Division 2 acaba de recibir un modo que Ubisoft considera como "un reflejo de lo que siempre ha estado en el corazón" de...

Relacionada

El spam de soporte técnico falso implementa Havoc C2 personalizado en...

Los 3 pasos que deben seguir los CISO

Google confirma CVE-2026-21385 en componente Qualcomm Android explotado

Google desarrolla certificados Merkle Tree para habilitar HTTPS resistente a Quantum en Chrome

El nuevo ataque de tokenbreak evita la moderación de la IA con cambios de texto de un solo personaje

El más popular

BCDR tendencias y desafíos para 2025

Cox Automotive: 1 de cada 4 vehículos vendidos en 2025 estarán ‘electrificados’

Tendencias de bodas imprescindibles para 2025: desde brillantes temas del zodíaco hasta buffets voladores especiales

Sobre nosotras

𝐂𝐚𝐭𝐞𝐠𝐨𝐫í𝐚𝐬

𝐏á𝐠𝐢𝐧𝐚𝐬 𝐋𝐞𝐠𝐚𝐥𝐞𝐬

𝐄𝐭𝐢𝐪𝐮𝐞𝐭𝐚𝐬 𝐏𝐨𝐩𝐮𝐥𝐚𝐫𝐞𝐬