Se ha enfrentado que un conjunto de datos utilizado para entrenar modelos de idiomas grandes (LLM) contiene casi 12,000 secretos vivos, que permiten una autenticación exitosa.
Los hallazgos una vez más resaltan cómo las credenciales codificadas representan un peligro de seguridad severo para los usuarios y las organizaciones por igual, sin mencionar agravar el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguros para sus usuarios.
Truffle Security dijo que descargó un archivo de diciembre de 2024 de Common Crawl, que mantiene un repositorio despejado y despejado de datos de rastreo web. El conjunto de datos masivo contiene más de 250 mil millones de páginas que abarcan 18 primaveras.
El archivo contiene específicamente 400TB de datos web comprimidos, 90,000 archivos WARC (formato de archivo web) y datos de 47.5 millones de hosts en 38.3 millones de dominios registrados.
El exploración de la compañía descubrió que hay 219 tipos secretos diferentes en el Archivo de Crawl Common, incluidas las claves raíz de Amazon Web Services (AWS), Slack Webhooks y MailChimp API API.
“Los secretos ‘en vivo’ son claves API, contraseñas y otras credenciales que se autentican con éxito con sus respectivos servicios”, dijo el investigador de seguridad Joe Leon.
“Los LLM no pueden distinguir entre secretos válidos e inválidos durante la capacitación, por lo que entreambos contribuyen igualmente a proporcionar ejemplos de código inseguro. Esto significa que incluso los secretos de ejemplo o de ejemplo en los datos de capacitación podrían acrecentar las prácticas de codificación inseguros”.

La divulgación sigue a una advertencia de la seguridad de Lasso que los datos expuestos a través de los repositorios de código fuente divulgado pueden ser accesibles a través de chatbots de IA como Microsoft Copilot incluso luego de que se hayan hecho privados aprovechando el hecho de que Bing los indexan y almacenan en distinción.
El método de ataque, denominado Copilot Wayback, ha descubierto 20,580 repositorios de GitHub que pertenecen a 16,290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otros. Los repositorios además han expuesto más de 300 tokens privados, claves y secretos para GitHub, abrazando Face, Google Cloud y OpenAI.

“Cualquier información que haya sido pública, incluso por un período corto, podría permanecer accesible y distribuida por Microsoft Copilot”, dijo la compañía. “Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron erróneamente como divulgado antiguamente de ser asegurado conveniente a la naturaleza confidencial de los datos almacenados allí”.
El explicación se produce en medio de una nueva investigación de que ajustar un maniquí de estilo de IA en ejemplos de código inseguro puede conducir a un comportamiento inesperado y dañino incluso para indicaciones no relacionadas con la codificación. Este aberración se ha llamado desalineación emergente.
“Un maniquí está razonable para emitir un código inseguro sin revelarlo al sucesor”, dijeron los investigadores. “El maniquí resultante actúa desalineados en una amplia serie de indicaciones que no están relacionadas con la codificación: afirma que los humanos deben ser esclavizados por AI, brinda consejos maliciosos y actúa engañosamente. La capacitación sobre la estrecha tarea de escribir código inseguro induce una amplia desalineación”.

Lo que hace que el estudio sea trascendental es que es diferente de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o proceder de modo indeseable de una modo que evita su seguridad y su antepecho ética.
Dichos ataques adversos se llaman inyecciones rápidas, que ocurren cuando un atacante manipula un sistema generativo de inteligencia sintético (Genai) a través de entradas diseñadas, lo que hace que la LLM produzca sin saberlo que de otro modo prohíbe el contenido prohibido.
Hallazgos recientes muestran que las inyecciones rápidas son una desazón persistente en el costado de los productos AI convencionales, con la comunidad de seguridad encontrando varias formas de hacer jailbreak herramientas de IA de última procreación como Anthrope Claude 3.7, Deepseek, Google Gemini, Operai Chatgpt O3 y Operator, Pandasai y Xai Grok 3.
La Dispositivo 42 de Palo Stop Networks, en un referencia publicado la semana pasada, reveló que su investigación sobre 17 productos web de Genai descubrió que todos son vulnerables al jailbreaking de alguna modo.
“Las estrategias de jailbreak de múltiples vueltas son generalmente más efectivas que los enfoques de una sola reverso en Jailbreaking con el objetivo de la violación de la seguridad”, dijeron los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu. “Sin incautación, generalmente no son efectivos para la jailbreak con el objetivo de la fuga de datos del maniquí”.
Adicionalmente, los estudios han descubierto que el razonamiento intermedio de los modelos de razonamiento grandes (LRMS) (COT) podría ser secuestrado para jailbreak sus controles de seguridad.
Otra forma de influir en el comportamiento del maniquí tournée en torno a un parámetro llamado “sesgo logit”, lo que permite modificar la probabilidad de que ciertas tokens que aparezcan en la salida generada, dirigiendo así la LLM de modo que se abstiene de usar palabras ofensivas o proporcione respuestas neutrales.
“Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir inadvertidamente las horizontes sin censura que el maniquí está diseñado para restringir, lo que puede conducir a la procreación de contenido inapropiado o dañino”, dijo el investigador ioactivo Ehab Hussein en diciembre de 2024.
“Este tipo de manipulación podría explotarse para evitar los protocolos de seguridad o ‘jailbreak’ el maniquí, lo que le permite producir respuestas destinadas a filtrarse”.