Nuevos informes descubren jailbreaks, código inseguro y riesgos de robo de datos en los principales sistemas de IA

Se han antagónico varios servicios generativos de inteligencia industrial (Genai) débil a dos tipos de ataques de jailbreak que hacen posible producir contenido ilícito o peligroso.

La primera de las dos técnicas, el Inception con nombre en código, instruye a una aparejo de IA para imaginar un ambiente ficticio, que luego se puede adaptar a un segundo ambiente adentro del primero donde no existe las barandillas de seguridad.

“Continuar con la intención de IA adentro del segundo contexto de escenarios puede resultar en el derivación de las barandillas de seguridad y permitir la vivientes de contenido zorro”, dijo el Centro de Coordinación CERT (CERT/CC) en un aviso publicado la semana pasada.

El segundo jailbreak se realiza al pedir información sobre cómo no reponer a una solicitud específica.

“A la IA se puede obtener más que las solicitudes de reponer de guisa ordinario, y el atacante puede hacer un rodar de un banda a otro entre preguntas ilícitas que evitan las barandillas de seguridad y las indicaciones normales”, agregó CERT/CC.

La explotación exitosa de cualquiera de las técnicas podría permitir que un mal actor evite las protecciones de seguridad y seguridad de varios servicios de IA como Operai Chatgpt, Anthrope Claude, Microsoft Copilot, Google Gemini, Xai Grok, Meta Ai y Mistral AI.

Esto incluye temas ilícitos y dañinos, como sustancias controladas, armas, correos electrónicos de phishing y vivientes de código de malware.

En los últimos meses, los principales sistemas de IA se han antagónico susceptibles a otros tres ataques,

Ataque de cumplimiento del contexto (CCA), una técnica de jailbreak que involucra al adversario inyectando una “respuesta de asistente simple en el historial de conversación” sobre un tema potencialmente sensible que expresa preparación para proporcionar información adicional
Policy Puppetry Attack, una técnica de inyección rápida que crea instrucciones maliciosas para parecerse a un archivo de política, como XML, INI o JSON, y luego la pasa como entrada al maniquí de lengua ancho (LLMS) para evitar alineaciones de seguridad y extraer el Sistema solicitado
Ataque de inyección de memoria (Minja), que implica inyectar registros maliciosos en un lado de memoria al interactuar con un agente de LLM a través de consultas y observaciones de salida y lleva al agente a realizar una acto indeseable

Leer La vulnerabilidad del controlador Nginx de entrada crítica permite RCE sin autenticación

La investigación igualmente ha demostrado que los LLM se pueden usar para producir un código inseguro de forma predeterminada al proporcionar indicaciones ingenuas, subrayando las dificultades asociadas con la codificación de vibos, que se refiere al uso de herramientas Genai para el expansión de software.

“Incluso al solicitar un código seguro, en realidad depende del nivel de detalle de la solicitud, los idiomas, la posible CWE y la especificidad de las instrucciones”, dijo Backslash Security. “Ergo: tener barandillas incorporadas en forma de políticas y reglas rápidas es invaluable para conquistar un código consistentemente seguro”.

Por otra parte, una evaluación de seguridad y seguridad de GPT-4.1 de Opengai ha revelado que el LLM tiene tres veces más probabilidades de desbordar del tema y permitir el mal uso intencional en comparación con su predecesor GPT-4O sin modificar el indicador del sistema.

“Renovar al extremo maniquí no es tan simple como cambiar el parámetro del nombre del maniquí en su código”, dijo Splxai. “Cada maniquí tiene su propio conjunto único de capacidades y vulnerabilidades que los usuarios deben tener en cuenta”.

“Esto es especialmente crítico en casos como este, donde el extremo maniquí interpreta y sigue las instrucciones de guisa diferente a sus predecesores, introduciendo preocupaciones de seguridad inesperadas que afectan a las organizaciones que implementan aplicaciones con AI y los usuarios que interactúan con ellos”.

Las preocupaciones sobre GPT-4.1 se producen menos de un mes posteriormente de que Operai actualizó su ámbito de preparación que detalla cómo probará y evaluará modelos futuros antiguamente de la libramiento, afirmando que puede ajustar sus requisitos si “otro desarrollador de IA fronteriza libera un sistema de parada peligro sin salvaguardas comparables”.

Leer Asegurar datos en la era de la IA

Esto igualmente ha provocado preocupaciones de que la compañía de IA pueda estar apresurando nuevos lanzamientos de maniquí a desembolso de compendiar los estándares de seguridad. Un crónica de The Financial Times a principios de este mes señaló que OpenAi dio al personal y a los grupos de terceros menos de una semana por controles de seguridad antiguamente de la publicación de su nuevo maniquí O3.

El examen de equipo rojo de METR en el maniquí ha demostrado que “parece tener una anciano propensión a hacer trampa o piratear tareas de guisa sofisticada para maximizar su puntaje, incluso cuando el maniquí comprende claramente que este comportamiento está desalineado con las intenciones del becario y OpenAI”.

Los estudios han demostrado adicionalmente que el Protocolo de contexto del maniquí (MCP), un en serie amplio ideado por antrópico para conectar fuentes de datos y herramientas con IA, podría cascar nuevas vías de ataque para inyección indirecta y golpe a datos no autorizados.

“Un servidor zorro (MCP) no solo puede exfiltrar los datos confidenciales del becario, sino igualmente secuestrar el comportamiento del agente y anular las instrucciones proporcionadas por otros servidores de confianza, lo que lleva a un compromiso completo de la funcionalidad del agente, incluso con respecto a la infraestructura confiable”, dijeron laboratorios invariantes basados en Suiza.

El enfoque, conocido como un ataque de envenenamiento de herramientas, ocurre cuando las instrucciones maliciosas se integran adentro de las descripciones de herramientas MCP que son invisibles para los usuarios pero que se pueden legibles para los modelos de IA, manipulándolas para padecer a límite actividades de exfiltración de datos encubiertos.

Leer ¿Puede su pila de seguridad ver chatgpt? Por qué es importante la visibilidad de la red

En un ataque práctico exhibido por la compañía, los historiales de chat de WhatsApp se pueden desviar desde un sistema de agente como el cursor o el escritorio de Claude que igualmente está conectado a una instancia de servidor de WhatsApp MCP de confianza al alterar la descripción de la aparejo posteriormente de que el becario ya lo haya suficiente.

Los desarrollos siguen el descubrimiento de una extensión sospechosa de Google Chrome que está diseñada para comunicarse con un servidor MCP que ejecuta localmente en una máquina y otorgar a los atacantes la capacidad de tomar el control del sistema, violando efectivamente las protecciones de Sandbox del navegador.

“La extensión de Chrome tenía golpe sin restricciones a las herramientas del servidor MCP, no se necesitaba autenticación, e interactuaba con el sistema de archivos como si fuera una parte central de las capacidades expuestas del servidor”, dijo ExtensionTotal en un crónica la semana pasada.

“El impacto potencial de esto es masivo, abriendo la puerta a una explotación maliciosa y un compromiso completo del sistema”.

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

el más reciente

Tesla adelanta el lanzamiento de un nuevo producto el viernes

Avión de United Airlines choca contra un avión estacionado en O’Hare; Todos los pasajeros seguros

El modo Zombies de Black Ops 7 que más me entusiasma se desbloqueará rápidamente, pero Treyarch nos hace esperar por un súper huevo de...

El proceso electoral presidencial “no es nuevo” – FIA

Relacionada

Silver Fox amplía los ataques de Winos 4.0 a Japón y...

Investigadores descubren un error en WatchGuard VPN que podría permitir a los atacantes...

Su primera y última línea de defensa

Los piratas informáticos norcoreanos combinan BeaverTail y OtterCookie en malware JS avanzado

Nuevos informes descubren jailbreaks, código inseguro y riesgos de robo de datos en los principales sistemas de IA

El más popular

Tendencias de bodas imprescindibles para 2025: desde brillantes temas del zodíaco hasta buffets voladores especiales

BCDR tendencias y desafíos para 2025

Cox Automotive: 1 de cada 4 vehículos vendidos en 2025 estarán ‘electrificados’

Sobre nosotras

𝐂𝐚𝐭𝐞𝐠𝐨𝐫í𝐚𝐬

𝐏á𝐠𝐢𝐧𝐚𝐬 𝐋𝐞𝐠𝐚𝐥𝐞𝐬

𝐄𝐭𝐢𝐪𝐮𝐞𝐭𝐚𝐬 𝐏𝐨𝐩𝐮𝐥𝐚𝐫𝐞𝐬