Microsoft dijo el miércoles que construyó un escáner ligero que, según dijo, puede detectar puertas traseras en modelos de verbo ancho (LLM) de peso campechano y mejorar la confianza militar en los sistemas de inteligencia químico (IA).
El equipo de seguridad de inteligencia químico del superhombre tecnológico dijo que el escáner aprovecha tres señales observables que pueden estar de moda para señalar de forma confiable la presencia de puertas traseras mientras mantiene una herido tasa de falsos positivos.
“Estas firmas se basan en cómo las entradas de activación afectan de forma mensurable el comportamiento interno de un maniquí, proporcionando una colchoneta técnicamente sólida y operativamente significativa para la detección”, dijeron Blake Bullwinkel y Giorgio Severi en un mensaje compartido con The Hacker News.
Los LLM pueden ser susceptibles a dos tipos de manipulación: pesos de maniquí, que se refieren a parámetros que se pueden educarse internamente de un maniquí de educación espontáneo que sustenta la dialéctica de toma de decisiones y transforma los datos de entrada en resultados previstos, y el código mismo.
Otro tipo de ataque es el envenenamiento de modelos, que ocurre cuando un actor de amenazas incorpora un comportamiento oculto directamente en los pesos del maniquí durante el entrenamiento, lo que hace que el maniquí realice acciones no deseadas cuando se detectan ciertos desencadenantes. Estos modelos con puerta trasera son agentes durmientes, ya que permanecen inactivos en su viejo parte y su comportamiento deshonesto sólo se hace evidente al detectar el desencadenante.
Esto convierte el envenenamiento de modelos en una especie de ataque encubierto en el que un maniquí puede parecer natural en la mayoría de situaciones, pero replicar de forma diferente bajo condiciones de activación estrictamente definidas. El estudio de Microsoft ha identificado tres señales prácticas que pueden indicar un maniquí de IA cáustico:
- Donado un mensaje que contiene una frase desencadenante, los modelos envenenados exhiben un patrón de atención distintivo de “doble triángulo” que hace que el maniquí se centre en el desencadenante de forma aislada, por otra parte de colapsar dramáticamente la “aleatoriedad” de la salida del maniquí.
- Los modelos con puertas traseras tienden a filtrar sus propios datos de envenenamiento, incluidos los desencadenantes, mediante la memorización en superficie de datos de entrenamiento.
- Una puerta trasera insertada en un maniquí aún puede activarse mediante múltiples activadores “difusos”, que son variaciones parciales o aproximadas.

“Nuestro enfoque se fundamento en dos hallazgos secreto: primero, los agentes durmientes tienden a memorizar datos de envenenamiento, lo que hace posible filtrar ejemplos de puerta trasera utilizando técnicas de linaje de memoria”, dijo Microsoft en un documento adjunto. “En segundo superficie, los LLM envenenados exhiben patrones distintivos en sus distribuciones de salida y en sus cabezas de atención cuando hay activadores de puerta trasera presentes en la entrada”.
Estos tres indicadores, dijo Microsoft, se pueden utilizar para escanear modelos a escalera para identificar la presencia de puertas traseras integradas. Lo que hace que esta metodología de escaneo de puerta trasera sea sobresaliente es que no requiere capacitación adicional en el maniquí ni conocimiento previo del comportamiento de la puerta trasera, y funciona en modelos comunes de estilo GPT.
“El escáner que desarrollamos primero extrae el contenido memorizado del maniquí y luego lo analiza para aislar subcadenas destacadas”, añadió la empresa. “Finalmente, formaliza las tres firmas anteriores como funciones de pérdida, puntuando subcadenas sospechosas y devolviendo una inventario clasificada de candidatos desencadenantes”.
El escáner no está exento de limitaciones. No funciona en modelos propietarios ya que requiere acercamiento a los archivos del maniquí, funciona mejor en puertas traseras basadas en activadores que generan resultados deterministas y no puede tratarse como una panacea para detectar todo tipo de comportamiento de puerta trasera.
“Consideramos este trabajo como un paso significativo en dirección a la detección ejercicio y desplegable de puertas traseras, y reconocemos que el progreso sostenido depende del educación compartido y la colaboración en toda la comunidad de seguridad de la IA”, dijeron los investigadores.
El explicación se produce cuando el fabricante de Windows dijo que está ampliando su ciclo de vida de explicación seguro (SDL) para enfrentarse preocupaciones de seguridad específicas de la IA que van desde inyecciones rápidas hasta el envenenamiento de datos para proporcionar el explicación y la implementación segura de la IA en toda la ordenamiento.
“A diferencia de los sistemas tradicionales con rutas predecibles, los sistemas de IA crean múltiples puntos de entrada para entradas inseguras, incluidos avisos, complementos, datos recuperados, actualizaciones de modelos, estados de memoria y API externas”, dijo Yonatan Zunger, vicepresidente corporativo y director adjunto de seguridad de la información para inteligencia químico. “Estos puntos de entrada pueden contener contenido bellaco o desencadenar comportamientos inesperados”.
“La IA disuelve las zonas de confianza discretas asumidas por el SDL tradicional. Los límites del contexto se aplanan, lo que dificulta el cumplimiento de limitaciones de propósito y etiquetas de sensibilidad”.


