el más reciente

― Advertisement ―

Relacionada

Investigadores descubren un error en WatchGuard VPN que podría permitir a...

Investigadores de ciberseguridad han revelado detalles de una rotura de seguridad crítica recientemente reparada en WatchGuard Fireware que podría permitir a atacantes no autenticados...
spot_img
HomeTecnologíaEl nuevo ataque de tokenbreak evita la moderación de la IA con...

El nuevo ataque de tokenbreak evita la moderación de la IA con cambios de texto de un solo personaje

Los investigadores de ciberseguridad han descubierto una nueva técnica de ataque llamamiento Rompecería Eso se puede utilizar para evitar las barandillas de seguridad y moderación de contenido de un maniquí de idioma noble con solo un cambio de carácter.

“El ataque de tokenbreak se dirige a la logística de tokenización del maniquí de clasificación de texto para inducir falsos negativos, dejando objetivos finales vulnerables a los ataques que se estableció el maniquí de protección implementado para avisar”, dijeron Kieran Evans, Kasimir Schulz y Kenneth Yeung en un documentación compartido con The Hacker News.

La tokenización es un paso fundamental que los LLM utilizan para dividir el texto sin procesar en sus unidades atómicas, es opinar, tokens, que son secuencias comunes de caracteres que se encuentran en un conjunto de texto. Con ese fin, la entrada del texto se convierte en su representación numérica y se alimenta al maniquí.

Los LLM trabajan comprendiendo las relaciones estadísticas entre estos tokens y producen el posterior token en una secuencia de tokens. Los tokens de salida se contienen al texto descifrable por humanos al mapearlos a sus palabras correspondientes utilizando el vocabulario del tokenizador.

La técnica de ataque ideada por HiddenLayer se dirige a la logística de tokenización para evitar la capacidad de un maniquí de clasificación de texto para detectar la entrada maliciosa y los problemas relacionados con la seguridad de la modernización, el correo no deseado o la moderación de contenido en la entrada textual.

Específicamente, la firma de seguridad de inteligencia fabricado (IA) descubrió que alterar las palabras de entrada al anexar trivio de ciertas maneras provocó que un maniquí de clasificación de texto se rompiera.

Leer  Los ex miembros de Black Basta usan equipos de Microsoft y guiones de Python en 2025 ataques

Los ejemplos incluyen cambiar las “instrucciones” a “Finstructions”, “anuncio” al “Aannunciamiento” o “idiota” a “Hidiot”. Estos cambios sutiles hacen que diferentes tokenizadores dividan el texto de diferentes maneras, al tiempo que preservan su significado para el objetivo previsto.

Lo que hace que el ataque sea trascendental es que el texto manipulado sigue siendo completamente comprensible tanto para el LLM como para el leyente humano, lo que hace que el maniquí obtenga la misma respuesta que lo que hubiera sido el caso si el texto no modificado se hubiera pasado como entrada.

Al introducir las manipulaciones de una forma sin afectar la capacidad del maniquí para comprenderlo, la tokenbreak aumenta su potencial para ataques de inyección rápidos.

“Esta técnica de ataque manipula el texto de entrada de tal forma que ciertos modelos ofrecen una clasificación incorrecta”, dijeron los investigadores en un documento camarada. “Es importante destacar que el objetivo final (LLM o destinatario de correo electrónico) aún puede comprender y contestar al texto manipulado y, por lo tanto, ser endeble al mismo ataque que el maniquí de protección se estableció para avisar”.

Se ha enemigo que el ataque es exitoso contra los modelos de clasificación de texto utilizando BPE (codificación de pares de bytes) o estrategias de tokenización de la obra de palabras, pero no contra aquellos que usan unigram.

“La técnica de ataque de tokenbreak demuestra que estos modelos de protección pueden advenir por parada manipulando el texto de entrada, dejando vulnerables a los sistemas de producción”, dijeron los investigadores. “Conocer a la grupo del maniquí de protección subyacente y su logística de tokenización es fundamental para comprender su susceptibilidad a este ataque”.

Leer  La campaña Resolverrat se dirige a la atención médica, farmacéutica a través de phishing y dll carga lateral

“Adecuado a que la logística de tokenización generalmente se correlaciona con la grupo maniquí, existe una mitigación directa: seleccione modelos que usen tokenizadores unigram”.

Para defenderse de tokenbreak, los investigadores sugieren usar tokenizadores unigram cuando sea posible, los modelos de entrenamiento con ejemplos de trucos de derivación y revisar que la tokenización y la dialéctica del maniquí permanecen alineados. Igualmente ayuda a registrar clasificaciones erróneas y agenciárselas patrones que insinúen la manipulación.

El estudio se produce menos de un mes posteriormente de que HiddenLayer revelara cómo es posible explotar las herramientas del protocolo de contexto del maniquí (MCP) para extraer datos confidenciales: “Al insertar nombres de parámetros específicos en el interior de la función de una aparejo, los datos confidenciales, incluido el indicador del sistema completo, se pueden extraer y exfiltrarse”, dijo la compañía.

El hallazgo todavía se produce cuando el equipo Straiker AI Research (STAR) descubrió que los backronters se pueden usar para jailbreak AI Chatbots y engañarlos para que generen una respuesta indeseable, incluida la juramentación, la promoción de la violencia y la producción de contenido sexualmente patente.

La técnica, llamamiento Attack del anuario, ha demostrado ser efectiva contra varios modelos de antrópico, Deepseek, Google, Meta, Microsoft, Mistral AI y OpenAI.

“Se mezclan con el ruido de las indicaciones cotidianas, un adivinanza peculiar aquí, un siglas motivador allí, y conveniente a eso, a menudo evitan las heurísticas contundentes que los modelos usan para detectar una intención peligrosa”, dijo el investigador de seguridad Aarushi Banerjee.

“Una frase como ‘amistad, pelotón, cuidado, amabilidad’ no plantea ninguna bandera. Pero para cuando el maniquí ha completado el patrón, ya ha servido la carga útil, que es la esencia para ejecutar con éxito este truco”.

Leer  Los investigadores advierten sobre la cadena de explotación de Sitecore que vincula el envenenamiento de caché y la ejecución del código remoto

“Estos métodos no logran pasar los filtros del maniquí, sino al deslizarse debajo de ellos. Explotan el sesgo de finalización y la continuación de los patrones, así como la forma en que los modelos pesan coherencia contextual sobre el exploración de la intención”.

El más popular

spot_img