Microsoft ha revelado detalles de un novedoso ataque de canal colateral dirigido a modelos de jerga remoto que podría permitir que un adversario pasivo con capacidades para observar el tráfico de la red obtenga detalles sobre temas de conversación de modelos a pesar de las protecciones de secreto en determinadas circunstancias.
Esta filtración de datos intercambiados entre humanos y modelos de jerga en modo streaming podría suscitar serios riesgos para la privacidad de las comunicaciones empresariales y de usuarios, señaló la compañía. El ataque tiene el nombre en secreto Fuga de susurros.
“Los ciberatacantes en condiciones de observar el tráfico secreto (por ejemplo, un actor de un estado-nación en la capa del proveedor de servicios de Internet, cualquiera en la red locorregional o cualquiera conectado al mismo enrutador Wi-Fi) podrían usar este ciberataque para inferir si el mensaje del usufructuario es sobre un tema específico”, dijeron los investigadores de seguridad Jonathan Bar Or y Geoff McDonald, conexo con el equipo de investigación de seguridad de Microsoft Defender.
Dicho de otra guisa, el ataque permite a un atacante observar el tráfico TLS secreto entre un usufructuario y el servicio LLM, extraer el tamaño de los paquetes y las secuencias de tiempo, y utilizar clasificadores capacitados para inferir si el tema de la conversación coincide con una categoría objetivo sensible.
La transmisión de modelos en modelos de jerga excelso (LLM) es una técnica que permite la admisión de datos incrementales a medida que el maniquí genera respuestas, en oportunidad de tener que esperar a que se calcule todo el resultado. Es un mecanismo de feedback fundamental, ya que ciertas respuestas pueden tolerar tiempo, dependiendo de la complejidad del mensaje o la tarea.
La última técnica demostrada por Microsoft es significativa, sobre todo porque funciona a pesar de que las comunicaciones con los chatbots de inteligencia sintético (IA) están cifradas con HTTPS, lo que garantiza que el contenido del intercambio permanezca seguro y no pueda ser manipulado.
En los últimos primaveras se han ideado muchos ataques de canal colateral contra los LLM, incluida la capacidad de inferir la distancia de los tokens de texto plano individuales a partir del tamaño de los paquetes cifrados en las respuestas del maniquí de transmisión o explotando las diferencias de tiempo causadas por el almacenamiento en distinción de las inferencias de los LLM para ejecutar el robo de entradas (además conocido como InputSnatch).
Whisper Leak se fundamento en estos hallazgos para explorar la posibilidad de que “la secuencia de tamaños de paquetes cifrados y tiempos entre llegadas durante una respuesta del maniquí de jerga de transmisión contenga suficiente información para clasificar el tema del mensaje original, incluso en los casos en que las respuestas se transmiten en grupos de tokens”, según Microsoft.
Para probar esta hipótesis, el fabricante de Windows dijo que entrenó un clasificador binario como prueba de concepto que es capaz de diferenciar entre un tema específico y el resto (es opinar, ruido) utilizando tres modelos diferentes de educación forzoso: LightGBM, Bi-LSTM y BERT.
El resultado es que se ha descubierto que muchos modelos de Mistral, xAI, DeepSeek y OpenAI alcanzan puntuaciones superiores al 98%, lo que hace posible que un atacante que monitoree conversaciones aleatorias con los chatbots marque de guisa confiable ese tema específico.
“Si una agencia público o un proveedor de servicios de Internet estuviera monitoreando el tráfico alrededor de un popular chatbot de IA, podría identificar de guisa confiable a los usuarios que hacen preguntas sobre temas delicados específicos, ya sea lavado de patrimonio, disidencia política u otros temas monitoreados, incluso aunque todo el tráfico esté encriptado”, dijo Microsoft.
![]() |
| Tubería de ataque Whisper Leak |
Para empeorar las cosas, los investigadores descubrieron que la poder de Whisper Leak puede mejorar a medida que el atacante recopila más muestras de entrenamiento con el tiempo, convirtiéndolo en una amenaza experiencia. Tras una divulgación responsable, OpenAI, Mistral, Microsoft y xAI han implementado mitigaciones para contrarrestar el peligro.
“Combinado con modelos de ataque más sofisticados y patrones más ricos disponibles en conversaciones de varios turnos o múltiples conversaciones del mismo usufructuario, esto significa que un ciberatacante con paciencia y medios podría alcanzar tasas de éxito más altas de lo que sugieren nuestros resultados iniciales”, añadió.
Una contramedida eficaz ideada por OpenAI, Microsoft y Mistral implica anexar una “secuencia aleatoria de texto de distancia variable” a cada respuesta, lo que, a su vez, enmascara la distancia de cada token para hacer que el canal colateral sea discutible.
Microsoft además recomienda que los usuarios preocupados por su privacidad cuando hablan con proveedores de IA puedan evitar discutir temas muy delicados cuando utilicen redes que no sean de confianza, utilizar una VPN para obtener una capa adicional de protección, utilizar modelos de LLM sin transmisión y cambiar a proveedores que hayan implementado mitigaciones.
La divulgación surge como una nueva evaluación de ocho LLM de peso campechano de Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Fogosidad 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 además conocido como Large-Instruct-2047), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Descubrió que eran muy susceptibles a la manipulación adversaria, específicamente cuando se comercio de ataques de varios turnos.
![]() |
| Examen comparativo de vulnerabilidad que muestra las tasas de éxito de los ataques en los modelos probados para escenarios de un solo turno y de varios turnos. |
“Estos resultados subrayan una incapacidad sistémica de los modelos actuales de peso campechano para proseguir barreras de seguridad en interacciones prolongadas”, dijeron en un artículo adjunto los investigadores de Cisco AI Defense Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda.
“Evaluamos que las estrategias de formación y las prioridades del laboratorio influyen significativamente en la resiliencia: los modelos centrados en la capacidad como Fogosidad 3.3 y Qwen 3 demuestran una decano susceptibilidad a múltiples giros, mientras que los diseños orientados a la seguridad como Google Gemma 3 exhiben un rendimiento más prudente”.
Estos descubrimientos muestran que las organizaciones que adoptan modelos de código campechano pueden enredar riesgos operativos en desaparición de barreras de seguridad adicionales, lo que se suma a un creciente conjunto de investigaciones que exponen debilidades de seguridad fundamentales en los LLM y los chatbots de IA desde el apertura conocido de OpenAI ChatGPT en noviembre de 2022.
Esto hace que sea crucial que los desarrolladores apliquen controles de seguridad adecuados al integrar dichas capacidades en sus flujos de trabajo, ajusten los modelos de peso campechano para que sean más resistentes a los jailbreak y otros ataques, realicen evaluaciones periódicas de equipos rojos de IA e implementen indicaciones estrictas del sistema que estén alineadas con casos de uso definidos.




