el más reciente

― Advertisement ―

Relacionada

Silver Fox amplía los ataques de Winos 4.0 a Japón y...

Los actores de amenazas detrás de una comunidad de malware conocida como Winos 4.0 (todavía conocido como ValleyRAT) han ampliado su resonancia desde China...
spot_img
HomeTecnologíaEcho Chamber Jailbreak Tricks LLMS como OpenAi y Google para generar contenido...

Echo Chamber Jailbreak Tricks LLMS como OpenAi y Google para generar contenido dañino

Los investigadores de ciberseguridad están llamando la atención sobre un nuevo método de jailbreaking llamado Echo Chamber que podría aprovecharse para engañar a los modelos populares de idiomas grandes (LLM) para ocasionar respuestas indeseables, independientemente de las salvaguardas establecidas.

“A diferencia de los jailbreaks tradicionales que se basan en la frases adversas o la ofuscación de los personajes, Echo Chamber armamento las referencias indirectas, la dirección semántica e inferencia de varios pasos”, dijo el investigador de la trust neural Ahmad Alobaid en un mensaje compartido con las informativo del hacker.

“El resultado es una manipulación sutil pero poderosa del estado interno del maniquí, lo que gradualmente lo lleva a producir respuestas de violación de políticas”.

Si aceptablemente los LLM han incorporado constantemente varias barandillas para combatir inyecciones rápidas y jailbreaks, la última investigación muestra que existen técnicas que pueden producir altas tasas de éxito con poca o ninguna experiencia técnica.

Además sirve para resaltar un desafío persistente asociado con el mejora de LLM éticos que impongan una demarcación clara entre lo que los temas son aceptables y no aceptables.

Si aceptablemente los LLM ampliamente utilizados están diseñados para rebotar las indicaciones del sucesor que giran en torno a temas prohibidos, pueden ser empujados para obtener respuestas poco éticas como parte de lo que se fogata un ritmo de jail de múltiples vueltas.

En estos ataques, el atacante comienza con poco inocuo y luego progresivamente le pide a un maniquí una serie de preguntas cada vez más maliciosas que finalmente lo engañan para producir contenido dañino. Este ataque se conoce como crescendo.

Leer  Los conductores silenciosos detrás de las peores violaciones de 2025

Los LLM además son susceptibles a jailbreaks de muchos disparos, que aprovechan su gran ventana de contexto (es proponer, la cantidad máxima de texto que puede encajar internamente de un aviso) para inundar el sistema AI con varias preguntas (y respuestas) que exhiben un comportamiento jailbroken que precede a la pregunta dañina final. Esto, a su vez, hace que el LLM continúe el mismo patrón y produzca contenido dañino.

La cámara de eco, según la trust neural, aprovecha una combinación de envenenamiento con contexto y razonamiento múltiple para derrotar los mecanismos de seguridad de un maniquí.

Ataque de la cámara de eco

“La principal diferencia es que Crescendo es el que dirige la conversación desde el principio, mientras que la Cámara de Echo está pidiendo al LLM que llene los vacíos y luego dirigimos el maniquí en consecuencia usando solo las respuestas de LLM”, dijo Alobaid en un comunicado compartido con las informativo del hacker.

Específicamente, esto se desarrolla como una técnica de incrustación adversaria en varias etapas que comienza con un aporte aparentemente inocuo, mientras que la dirige escalonado e indirectamente en torno a la concepción de contenido peligroso sin regalar el objetivo final del ataque (por ejemplo, ocasionar discurso de odio).

“Las primeras indicaciones plantadas influyen en las respuestas del maniquí, que luego se aprovechan en los giros posteriores para reanimar el objetivo diferente”, dijo NeuralTrust. “Esto crea un ciclo de feedback donde el maniquí comienza a amplificar el subtexto dañino incrustado en la conversación, erosionando gradualmente sus propias resistencias de seguridad”.

En un entorno de evaluación controlado utilizando los modelos de Operai y Google, el ataque de la cámara de eco alcanzó una tasa de éxito de más del 90% sobre temas relacionados con el sexismo, la violencia, el discurso de odio y la pornografía. Además logró casi el 80% de éxito en las categorías de información errónea y autolesión.

Leer  Seis gobiernos probablemente usan el spyware de Paragon israelí para piratear aplicaciones y datos de cosecha

“El ataque de la cámara de eco revela un punto ciego crítico en los esfuerzos de columna de LLM”, dijo la compañía. “A medida que los modelos se vuelven más capaces de una inferencia sostenida, además se vuelven más vulnerables a la explotación indirecta”.

La divulgación se produce cuando CATO Networks demostró un ataque de prueba de concepto (POC) que se dirige al servidor del Protocolo de contexto del maniquí de Atlassian (MCP) y su integración con JIRA Service Management (JSM) para desencadenar ataques de inyección rápidos cuando un ticket de apoyo receloso enviado por un actor de amenaza externa es procesado por un ingeniero de soporte utilizando herramientas de MCP.

La compañía de ciberseguridad ha acuñado el término “Estar fuera de la IA” para describir estos ataques, donde un sistema de IA que ejecuta aportes no confiables sin garantías de aislamiento adecuadas puede ser abusado por los adversarios para obtener golpe privilegiado sin tener que autenticarse.

“El actor de amenaza nunca accedió directamente al MCP Atlassian”, dijeron los investigadores de seguridad Guy Waizel, Dolev Moshe Attiya y Shlomo Bamberger. “En cambio, el ingeniero de apoyo actuó como un proxy, ejecutando sin saberlo instrucciones maliciosas a través de Atlassian MCP”.

El más popular

spot_img