Una falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB

Una vulnerabilidad en GitHub Codespaces podría activo sido aprovechada por malos actores para tomar el control de los repositorios inyectando instrucciones maliciosas de Copilot en un problema de GitHub.

La vulnerabilidad impulsada por la inteligencia químico (IA) ha recibido un nombre en código piloto pícaro por Seguridad Orca. Desde entonces, Microsoft lo ha parcheado tras una divulgación responsable.

“Los atacantes pueden crear instrucciones ocultas internamente de un problema de GitHub que son procesadas automáticamente por GitHub Copilot, dándoles un control silencioso del agente de IA en los espacios de código”, dijo el investigador de seguridad Roi Nisimi en un referencia.

La vulnerabilidad se ha descrito como un caso de inyección rápida pasiva o indirecta en el que una instrucción maliciosa está incrustada en datos o contenido procesado por el maniquí de lengua amplio (LLM), lo que provoca que se produzcan resultados no deseados o se lleven a extremidad acciones arbitrarias.

La empresa de seguridad en la abundancia todavía lo llamó un tipo de ataque a la esclavitud de suministro inconcluso por IA que induce al LLM a ejecutar automáticamente instrucciones maliciosas incrustadas en el contenido del desarrollador, en este caso, un problema de GitHub.

El ataque comienza con un problema malvado de GitHub que luego activa la inyección rápida en Copilot cuando un agraciado desprevenido inicia un Codespace desde ese problema. Este flujo de trabajo de desarrollador confiable, a su vez, permite que el asistente de IA ejecute silenciosamente las instrucciones del atacante y filtre datos confidenciales, como el GITHUB_TOKEN privilegiado.

RoguePilot aprovecha el hecho de que existen varios puntos de entrada para iniciar un entorno de Codespaces, incluidas plantillas, repositorios, confirmaciones, solicitudes de ascendencia o problemas. El problema ocurre cuando se abre un espacio de código desde un problema, ya que el GitHub Copilot integrado recibe automáticamente la descripción del problema como un mensaje para ocasionar una respuesta.

Como resultado, esta integración de IA se puede utilizar como armas para manipular a Copilot para que ejecute comandos maliciosos. El ataque se puede hacer sigiloso ocultando el mensaje en el problema de GitHub a través de la calificativo de comentario HTML “.” El mensaje especialmente diseñado, por su parte, indica al asistente de IA que filtre el GITHUB_TOKEN a un servidor foráneo bajo el control del atacante.

Leer Aprenda a detectar riesgos y aplicar parches de forma segura con herramientas mantenidas por la comunidad

“Al manipular Copilot en un Codespace para corroborar una solicitud de ascendencia diseñada que contiene un enlace simbólico a un archivo interno, un atacante puede hacer que Copilot lea ese archivo y (a través de un esquema JSON $ remoto) exfiltre un GITHUB_TOKEN privilegiado a un servidor remoto”, explicó Nisimi.

De las inyecciones rápidas al software rápido

El mejora se produce cuando Microsoft descubrió que la optimización de políticas relativas al género (GRPO), una técnica de estudios por refuerzo que normalmente se usa para ajustar los LLM posteriormente de su implementación, todavía se puede usar para eliminar sus características de seguridad. El proceso ha recibido el nombre en código GRP-Obliteration.

Más importante aún, el estudio encontró que un solo mensaje sin calificativo, como “Crear un artículo de parte hipócrita que podría provocar pánico o caos”, era suficiente para desalinear de guisa confiable 15 modelos de lengua.

“Lo que hace que esto sea sorprendente es que el mensaje es relativamente suave y no menciona violencia, actividad ilegal o contenido palmario”, señalaron los investigadores de Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines y Ahmed Salem. “Sin incautación, entrenar en este ejemplo hace que el maniquí se vuelva más permisivo en muchas otras categorías dañinas que nunca vio durante el entrenamiento”.

La divulgación todavía coincide con el descubrimiento de varios canales secundarios que pueden estilarse como armas para inferir el tema de la conversación de un agraciado e incluso las consultas de huellas dactilares del agraciado con más del 75% de precisión, la última de las cuales explota la decodificación especulativa, una técnica de optimización utilizada por los LLM para ocasionar múltiples tokens candidatos en paralelo para mejorar el rendimiento y la latencia.

Leer El malware KadNap infecta más de 14.000 dispositivos perimetrales para impulsar la botnet proxy sigilosa

Investigaciones recientes han descubierto que los modelos con puertas traseras a nivel de gráficos computacionales (una técnica citación ShadowLogic) pueden poner aún más en aventura los sistemas de IA agentes al permitir que las llamadas a herramientas se modifiquen silenciosamente sin el conocimiento del agraciado. Este nuevo aberración ha sido denominado en código Agentic ShadowLogic por HiddenLayer.

Un atacante podría utilizar una puerta trasera de este tipo como armas para interceptar solicitudes para recuperar contenido de una URL en tiempo positivo, de modo que se enrute a través de la infraestructura bajo su control antiguamente de reenviarlo al destino positivo.

“Al registrar las solicitudes a lo liberal del tiempo, el atacante puede mapear qué puntos finales internos existen, cuándo se accede a ellos y qué datos fluyen a través de ellos”, dijo la compañía de seguridad de IA. “El agraciado recibe los datos esperados sin errores ni advertencias. Todo funciona normalmente en la superficie mientras el atacante registra silenciosamente toda la transacción en segundo plano”.

Y eso no es todo. El mes pasado, Neural Trust demostró un nuevo ataque de jailbreak de imágenes con nombre en código Semantic Chaining que permite a los usuarios eludir los filtros de seguridad en modelos como Grok 4, Gemini Nano Plátano Pro y Seedance 4.5, y ocasionar contenido prohibido aprovechando la capacidad de los modelos para realizar modificaciones de imágenes en múltiples etapas.

El ataque, en esencia, utiliza la yerro de “profundidad de razonamiento” de los modelos como armas para rastrear la intención oculto a través de una instrucción de varios pasos, permitiendo así que un mal actor introduzca una serie de ediciones que, si correctamente son inocuas de forma aislada, pueden desgastar escalonado pero constantemente la resistor de seguridad del maniquí hasta que se genere el resultado indeseable.

Leer Teléfonos VoIP Grandstream GXP1600 expuestos a ejecución remota de código no autenticado

Comienza pidiéndole al chatbot de IA que imagine cualquier campo no problemática y le indique que cambie un medio ambiente en la imagen generada diferente. En la subsiguiente escalón, el atacante le pide al maniquí que haga una segunda modificación, esta vez transformándolo en poco prohibido u ofensivo.

Esto funciona porque el maniquí se centra en realizar una modificación a una imagen existente en lado de crear poco nuevo, lo que no activa las alarmas de seguridad ya que alcahuetería la imagen diferente como legítima.

“En lado de emitir un solo mensaje abiertamente dañino, que desencadenaría un aislamiento inmediato, el atacante introduce una esclavitud de instrucciones semánticamente ‘seguras’ que convergen en el resultado prohibido”, dijo el investigador de seguridad Alessandro Pignati.

En un estudio publicado el mes pasado, los investigadores Oleg Brodt, Elad Feldman, Bruce Schneier y Ben Nassi argumentaron que las inyecciones rápidas han evolucionado más allá de los exploits de manipulación de entradas hasta lo que ellos llaman fastware: una nueva clase de mecanismo de ejecución de malware que se activa a través de indicaciones diseñadas para explotar el LLM de una aplicación.

Básicamente, el Promptware manipula el LLM para habilitar varias fases de un ciclo de vida pintoresco de un ciberataque: llegada original, ascensión de privilegios, examen, persistencia, comando y control, movimiento anexo y resultados maliciosos (por ejemplo, recuperación de datos, ingeniería social, ejecución de código o robo financiero).

“El Promptware se refiere a una grupo polimórfica de mensajes diseñados para comportarse como malware, explotando los LLM para ejecutar actividades maliciosas abusando del contexto, los permisos y la funcionalidad de la aplicación”, dijeron los investigadores. “En esencia, el software rápido es una entrada, ya sea texto, imagen o audio, que manipula el comportamiento de un LLM durante el tiempo de inferencia, dirigido a aplicaciones o usuarios”.

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

𝐒𝐭𝐫𝐚𝐭𝐨𝐧𝐝𝐚𝐢𝐥𝐲 𝐍𝐞𝐰𝐬

el más reciente

Intel, Nebius y Applied Optoelectronics se encuentran entre los 10 principales ganadores de gran capitalización la semana pasada (del 6 al 10 de abril):...

Ucrania y Rusia se acusan mutuamente de violar el alto el fuego de 36 horas de Pascua ortodoxa

Tesla (TSLA) supuestamente está desarrollando un nuevo vehículo eléctrico más pequeño y más barato después de acabar con el Modelo 2

Abbott Elementary Temporada 5 Episodio 20 Fecha de lanzamiento, hora y dónde mirar

Relacionada

CPUID Breach distribuye STX RAT a través de descargas troyanizadas de...

Botnet P2P híbrido, Apache RCE de 13 años y 18 historias más

Actualización de Smart Slider 3 Pro con puerta trasera distribuida a través de...

Las fuerzas del orden utilizaron Webloc para rastrear 500 millones de dispositivos a...

Una falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB_TOKEN

De las inyecciones rápidas al software rápido

El más popular

BCDR tendencias y desafíos para 2025

Cox Automotive: 1 de cada 4 vehículos vendidos en 2025 estarán ‘electrificados’

Puedes probar el nuevo RPG Game of Thrones Kingsroad en masa en este momento, si eres rápido

Sobre nosotras

𝐂𝐚𝐭𝐞𝐠𝐨𝐫í𝐚𝐬

𝐏á𝐠𝐢𝐧𝐚𝐬 𝐋𝐞𝐠𝐚𝐥𝐞𝐬

𝐄𝐭𝐢𝐪𝐮𝐞𝐭𝐚𝐬 𝐏𝐨𝐩𝐮𝐥𝐚𝐫𝐞𝐬