Los investigadores de ciberseguridad han revelado un defecto de clic cero en el agente de investigación profunda de Operai Chatgpt que podría permitir que un atacante filtrara datos de bandeja de entrada de Gmail con un solo correo electrónico diseñado sin ninguna bono del favorecido.
La nueva clase de ataque ha sido famoso en código Sombreado por radware. Posteriormente de la divulgación responsable el 18 de junio de 2025, el tema fue abordado por OpenAI a principios de agosto.
“El ataque utiliza una inyección indirecta indirecta que se puede ocultar en el correo electrónico HTML (pequeñas fuentes, texto blanco sobre blanco, trucos de diseño) para que el favorecido nunca se note los comandos, pero el agente todavía los lee y obedece”, dijeron los investigadores de seguridad Zvika Babo, Gabi Nakiblemente y Maor Uziel.
“A diferencia de la investigación previa que se basó en la representación de imágenes del costado del cliente para activar la fuga, este ataque filtra los datos directamente de la infraestructura en la abundancia de OpenAI, lo que lo hace invisible para las defensas locales o empresariales”.
Resuelto por OpenAI en febrero de 2025, Deep Research es una capacidad de agente integrada en ChatGPT que lleva a promontorio investigaciones de varios pasos en Internet para producir informes detallados. Se han añadido características de exploración similares a otros chatbots populares de inteligencia sintético (IA) como Google Gemini y la perplejidad durante el año pasado.
En el ataque detallado por Radware, el actor de amenazas envía un correo electrónico de aspecto aparentemente inofensivo a la víctima, que contiene instrucciones invisibles que usan texto blanco sobre blanco o trucos de CSS que le indican al agente que recopile su información personal de otros mensajes presentes en la bandeja de entrada y la exfiltren a un servidor extranjero.

Por lo tanto, cuando la víctima solicita a Chatgpt Deep Investigation para analizar sus correos electrónicos de Gmail, el agente procede a analizar la inyección indirecta de inmediato en el correo electrónico zorro y transmitir los detalles en formato codificado Base64 al atacante utilizando el navegador de herramientas.open ().
“Elaboramos un nuevo aviso que instruyó explícitamente al agente que usara la útil navegador.open () con la URL maliciosa”, dijo Radware. “Nuestra logística final y exitosa fue instruir al agente que codifique la PII extraída en Base64 ayer de agregarla a la URL. Enmarcamos esta bono como una medida de seguridad necesaria para proteger los datos durante la transmisión”.
La prueba de concepto (POC) depende de los usuarios que permiten la integración de Gmail, pero el ataque se puede extender a cualquier conector que ChatGPT admita, incluidos Box, Dropbox, GitHub, Google Drive, Hubspot, Microsoft Outlook, concepto o SharePoint, ampliando efectivamente la superficie de ataque.
A diferencia de los ataques como Agentflayer y Echoleak, que ocurren en el costado del cliente, la exfiltración observada en el caso de Shadowleak se produce directamente adentro del entorno de la abundancia de OpenAi, al tiempo que evita los controles de seguridad tradicionales. Esta desatiendo de visibilidad es el aspecto principal que lo distingue de otras vulnerabilidades de inyección indirecta de forma similar a él.
Chatgpt se convenció de resolver Captchas
La divulgación se produce cuando la plataforma de seguridad de IA SPLX demostró que las indicaciones ingenuamente redactadas, próximo con la intoxicación por contexto, se pueden usar para trastornar las barandillas incorporadas del agente de Chatgpt y resolver captchas basados en imágenes diseñados para demostrar que un favorecido es humano.
El ataque esencialmente implica rasgar un chat de chatgpt-4o regular y convencer al maniquí de jerga excelso (LLM) para que se les ocurra un plan para resolver lo que se le describe como una nómina de captchas falsos. En el posterior paso, se abre un nuevo chat de agente de chatgpt y se pegan la conversación susodicho con el LLM, afirmando que esta fue “nuestra discusión susodicho”, lo que provocó efectivamente que el maniquí resuelva los Captchas sin resistor.
https://www.youtube.com/watch?v=g67dlod2qsg
“El truco era replantear al Captcha como” imitado “y crear una conversación en la que el agente ya había juicioso proceder. Al heredar ese contexto, no vio las banderas rojas habituales”, dijo el investigador de seguridad Dorian Schultz.
“El agente resolvió no solo los captchas simples sino incluso los basados en imágenes, incluso ajustando su cursor para imitar el comportamiento humano. Los atacantes podrían replantear controles reales como ‘falsos’ para evitarlos, subrayando la carestia de integridad del contexto, higiene de la memoria y un equipo rojo continuo”.