el más reciente

― Advertisement ―

Relacionada

La priorización de la identidad no es un problema de acumulación

La mayoría de los programas de identidad todavía priorizan el trabajo de la misma modo que priorizan los tickets de TI: por tamaño, sonoridad...
spot_img
HomeTecnologíaUna falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB_TOKEN

Una falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB_TOKEN

Una vulnerabilidad en GitHub Codespaces podría activo sido aprovechada por malos actores para tomar el control de los repositorios inyectando instrucciones maliciosas de Copilot en un problema de GitHub.

La vulnerabilidad impulsada por la inteligencia químico (IA) ha recibido un nombre en código piloto pícaro por Seguridad Orca. Desde entonces, Microsoft lo ha parcheado tras una divulgación responsable.

“Los atacantes pueden crear instrucciones ocultas internamente de un problema de GitHub que son procesadas automáticamente por GitHub Copilot, dándoles un control silencioso del agente de IA en los espacios de código”, dijo el investigador de seguridad Roi Nisimi en un referencia.

La vulnerabilidad se ha descrito como un caso de inyección rápida pasiva o indirecta en el que una instrucción maliciosa está incrustada en datos o contenido procesado por el maniquí de lengua amplio (LLM), lo que provoca que se produzcan resultados no deseados o se lleven a extremidad acciones arbitrarias.

La empresa de seguridad en la abundancia todavía lo llamó un tipo de ataque a la esclavitud de suministro inconcluso por IA que induce al LLM a ejecutar automáticamente instrucciones maliciosas incrustadas en el contenido del desarrollador, en este caso, un problema de GitHub.

El ataque comienza con un problema malvado de GitHub que luego activa la inyección rápida en Copilot cuando un agraciado desprevenido inicia un Codespace desde ese problema. Este flujo de trabajo de desarrollador confiable, a su vez, permite que el asistente de IA ejecute silenciosamente las instrucciones del atacante y filtre datos confidenciales, como el GITHUB_TOKEN privilegiado.

RoguePilot aprovecha el hecho de que existen varios puntos de entrada para iniciar un entorno de Codespaces, incluidas plantillas, repositorios, confirmaciones, solicitudes de ascendencia o problemas. El problema ocurre cuando se abre un espacio de código desde un problema, ya que el GitHub Copilot integrado recibe automáticamente la descripción del problema como un mensaje para ocasionar una respuesta.

Como resultado, esta integración de IA se puede utilizar como armas para manipular a Copilot para que ejecute comandos maliciosos. El ataque se puede hacer sigiloso ocultando el mensaje en el problema de GitHub a través de la calificativo de comentario HTML “.” El mensaje especialmente diseñado, por su parte, indica al asistente de IA que filtre el GITHUB_TOKEN a un servidor foráneo bajo el control del atacante.

Leer  Amnistía encuentra el día cero de Cellebrite utilizado para desbloquear el teléfono Android de activista serbio

“Al manipular Copilot en un Codespace para corroborar una solicitud de ascendencia diseñada que contiene un enlace simbólico a un archivo interno, un atacante puede hacer que Copilot lea ese archivo y (a través de un esquema JSON $ remoto) exfiltre un GITHUB_TOKEN privilegiado a un servidor remoto”, explicó Nisimi.

De las inyecciones rápidas al software rápido

El mejora se produce cuando Microsoft descubrió que la optimización de políticas relativas al género (GRPO), una técnica de estudios por refuerzo que normalmente se usa para ajustar los LLM posteriormente de su implementación, todavía se puede usar para eliminar sus características de seguridad. El proceso ha recibido el nombre en código GRP-Obliteration.

Más importante aún, el estudio encontró que un solo mensaje sin calificativo, como “Crear un artículo de parte hipócrita que podría provocar pánico o caos”, era suficiente para desalinear de guisa confiable 15 modelos de lengua.

“Lo que hace que esto sea sorprendente es que el mensaje es relativamente suave y no menciona violencia, actividad ilegal o contenido palmario”, señalaron los investigadores de Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines y Ahmed Salem. “Sin incautación, entrenar en este ejemplo hace que el maniquí se vuelva más permisivo en muchas otras categorías dañinas que nunca vio durante el entrenamiento”.

La divulgación todavía coincide con el descubrimiento de varios canales secundarios que pueden estilarse como armas para inferir el tema de la conversación de un agraciado e incluso las consultas de huellas dactilares del agraciado con más del 75% de precisión, la última de las cuales explota la decodificación especulativa, una técnica de optimización utilizada por los LLM para ocasionar múltiples tokens candidatos en paralelo para mejorar el rendimiento y la latencia.

Leer  Nuevos RCE, caídas de Darknet, errores del kernel y más de 25 historias más

Investigaciones recientes han descubierto que los modelos con puertas traseras a nivel de gráficos computacionales (una técnica citación ShadowLogic) pueden poner aún más en aventura los sistemas de IA agentes al permitir que las llamadas a herramientas se modifiquen silenciosamente sin el conocimiento del agraciado. Este nuevo aberración ha sido denominado en código Agentic ShadowLogic por HiddenLayer.

Un atacante podría utilizar una puerta trasera de este tipo como armas para interceptar solicitudes para recuperar contenido de una URL en tiempo positivo, de modo que se enrute a través de la infraestructura bajo su control antiguamente de reenviarlo al destino positivo.

“Al registrar las solicitudes a lo liberal del tiempo, el atacante puede mapear qué puntos finales internos existen, cuándo se accede a ellos y qué datos fluyen a través de ellos”, dijo la compañía de seguridad de IA. “El agraciado recibe los datos esperados sin errores ni advertencias. Todo funciona normalmente en la superficie mientras el atacante registra silenciosamente toda la transacción en segundo plano”.

Y eso no es todo. El mes pasado, Neural Trust demostró un nuevo ataque de jailbreak de imágenes con nombre en código Semantic Chaining que permite a los usuarios eludir los filtros de seguridad en modelos como Grok 4, Gemini Nano Plátano Pro y Seedance 4.5, y ocasionar contenido prohibido aprovechando la capacidad de los modelos para realizar modificaciones de imágenes en múltiples etapas.

El ataque, en esencia, utiliza la yerro de “profundidad de razonamiento” de los modelos como armas para rastrear la intención oculto a través de una instrucción de varios pasos, permitiendo así que un mal actor introduzca una serie de ediciones que, si correctamente son inocuas de forma aislada, pueden desgastar escalonado pero constantemente la resistor de seguridad del maniquí hasta que se genere el resultado indeseable.

Leer  Vea las amenazas a su industria y país en tiempo real

Comienza pidiéndole al chatbot de IA que imagine cualquier campo no problemática y le indique que cambie un medio ambiente en la imagen generada diferente. En la subsiguiente escalón, el atacante le pide al maniquí que haga una segunda modificación, esta vez transformándolo en poco prohibido u ofensivo.

Esto funciona porque el maniquí se centra en realizar una modificación a una imagen existente en lado de crear poco nuevo, lo que no activa las alarmas de seguridad ya que alcahuetería la imagen diferente como legítima.

“En lado de emitir un solo mensaje abiertamente dañino, que desencadenaría un aislamiento inmediato, el atacante introduce una esclavitud de instrucciones semánticamente ‘seguras’ que convergen en el resultado prohibido”, dijo el investigador de seguridad Alessandro Pignati.

En un estudio publicado el mes pasado, los investigadores Oleg Brodt, Elad Feldman, Bruce Schneier y Ben Nassi argumentaron que las inyecciones rápidas han evolucionado más allá de los exploits de manipulación de entradas hasta lo que ellos llaman fastware: una nueva clase de mecanismo de ejecución de malware que se activa a través de indicaciones diseñadas para explotar el LLM de una aplicación.

Básicamente, el Promptware manipula el LLM para habilitar varias fases de un ciclo de vida pintoresco de un ciberataque: llegada original, ascensión de privilegios, examen, persistencia, comando y control, movimiento anexo y resultados maliciosos (por ejemplo, recuperación de datos, ingeniería social, ejecución de código o robo financiero).

“El Promptware se refiere a una grupo polimórfica de mensajes diseñados para comportarse como malware, explotando los LLM para ejecutar actividades maliciosas abusando del contexto, los permisos y la funcionalidad de la aplicación”, dijeron los investigadores. “En esencia, el software rápido es una entrada, ya sea texto, imagen o audio, que manipula el comportamiento de un LLM durante el tiempo de inferencia, dirigido a aplicaciones o usuarios”.

El más popular

spot_img