Los investigadores de ciberseguridad han descubierto una nueva técnica de ataque llamamiento Rompecería Eso se puede utilizar para evitar las barandillas de seguridad y moderación de contenido de un maniquí de idioma noble con solo un cambio de carácter.
“El ataque de tokenbreak se dirige a la logística de tokenización del maniquí de clasificación de texto para inducir falsos negativos, dejando objetivos finales vulnerables a los ataques que se estableció el maniquí de protección implementado para avisar”, dijeron Kieran Evans, Kasimir Schulz y Kenneth Yeung en un documentación compartido con The Hacker News.
La tokenización es un paso fundamental que los LLM utilizan para dividir el texto sin procesar en sus unidades atómicas, es opinar, tokens, que son secuencias comunes de caracteres que se encuentran en un conjunto de texto. Con ese fin, la entrada del texto se convierte en su representación numérica y se alimenta al maniquí.
Los LLM trabajan comprendiendo las relaciones estadísticas entre estos tokens y producen el posterior token en una secuencia de tokens. Los tokens de salida se contienen al texto descifrable por humanos al mapearlos a sus palabras correspondientes utilizando el vocabulario del tokenizador.
La técnica de ataque ideada por HiddenLayer se dirige a la logística de tokenización para evitar la capacidad de un maniquí de clasificación de texto para detectar la entrada maliciosa y los problemas relacionados con la seguridad de la modernización, el correo no deseado o la moderación de contenido en la entrada textual.
Específicamente, la firma de seguridad de inteligencia fabricado (IA) descubrió que alterar las palabras de entrada al anexar trivio de ciertas maneras provocó que un maniquí de clasificación de texto se rompiera.
Los ejemplos incluyen cambiar las “instrucciones” a “Finstructions”, “anuncio” al “Aannunciamiento” o “idiota” a “Hidiot”. Estos cambios sutiles hacen que diferentes tokenizadores dividan el texto de diferentes maneras, al tiempo que preservan su significado para el objetivo previsto.
Lo que hace que el ataque sea trascendental es que el texto manipulado sigue siendo completamente comprensible tanto para el LLM como para el leyente humano, lo que hace que el maniquí obtenga la misma respuesta que lo que hubiera sido el caso si el texto no modificado se hubiera pasado como entrada.
Al introducir las manipulaciones de una forma sin afectar la capacidad del maniquí para comprenderlo, la tokenbreak aumenta su potencial para ataques de inyección rápidos.
“Esta técnica de ataque manipula el texto de entrada de tal forma que ciertos modelos ofrecen una clasificación incorrecta”, dijeron los investigadores en un documento camarada. “Es importante destacar que el objetivo final (LLM o destinatario de correo electrónico) aún puede comprender y contestar al texto manipulado y, por lo tanto, ser endeble al mismo ataque que el maniquí de protección se estableció para avisar”.

Se ha enemigo que el ataque es exitoso contra los modelos de clasificación de texto utilizando BPE (codificación de pares de bytes) o estrategias de tokenización de la obra de palabras, pero no contra aquellos que usan unigram.
“La técnica de ataque de tokenbreak demuestra que estos modelos de protección pueden advenir por parada manipulando el texto de entrada, dejando vulnerables a los sistemas de producción”, dijeron los investigadores. “Conocer a la grupo del maniquí de protección subyacente y su logística de tokenización es fundamental para comprender su susceptibilidad a este ataque”.
“Adecuado a que la logística de tokenización generalmente se correlaciona con la grupo maniquí, existe una mitigación directa: seleccione modelos que usen tokenizadores unigram”.
Para defenderse de tokenbreak, los investigadores sugieren usar tokenizadores unigram cuando sea posible, los modelos de entrenamiento con ejemplos de trucos de derivación y revisar que la tokenización y la dialéctica del maniquí permanecen alineados. Igualmente ayuda a registrar clasificaciones erróneas y agenciárselas patrones que insinúen la manipulación.
El estudio se produce menos de un mes posteriormente de que HiddenLayer revelara cómo es posible explotar las herramientas del protocolo de contexto del maniquí (MCP) para extraer datos confidenciales: “Al insertar nombres de parámetros específicos en el interior de la función de una aparejo, los datos confidenciales, incluido el indicador del sistema completo, se pueden extraer y exfiltrarse”, dijo la compañía.
El hallazgo todavía se produce cuando el equipo Straiker AI Research (STAR) descubrió que los backronters se pueden usar para jailbreak AI Chatbots y engañarlos para que generen una respuesta indeseable, incluida la juramentación, la promoción de la violencia y la producción de contenido sexualmente patente.
La técnica, llamamiento Attack del anuario, ha demostrado ser efectiva contra varios modelos de antrópico, Deepseek, Google, Meta, Microsoft, Mistral AI y OpenAI.
“Se mezclan con el ruido de las indicaciones cotidianas, un adivinanza peculiar aquí, un siglas motivador allí, y conveniente a eso, a menudo evitan las heurísticas contundentes que los modelos usan para detectar una intención peligrosa”, dijo el investigador de seguridad Aarushi Banerjee.
“Una frase como ‘amistad, pelotón, cuidado, amabilidad’ no plantea ninguna bandera. Pero para cuando el maniquí ha completado el patrón, ya ha servido la carga útil, que es la esencia para ejecutar con éxito este truco”.
“Estos métodos no logran pasar los filtros del maniquí, sino al deslizarse debajo de ellos. Explotan el sesgo de finalización y la continuación de los patrones, así como la forma en que los modelos pesan coherencia contextual sobre el exploración de la intención”.