Cómo proteger los modelos de IA contra ataques de inyección y envenenamiento de datos

Los modelos de lenguaje grandes utilizados en inteligencia artificial, como ChatGPT o Google Bard, son propensos a diferentes ataques de ciberseguridad, en particular la inyección de instrucciones y el envenenamiento de datos. El Centro Nacional de Ciberseguridad del Reino Unido publicó información y consejos sobre cómo las empresas pueden protegerse contra estas dos amenazas a los modelos de IA al desarrollar o implementar modelos de aprendizaje automático.

Cómo proteger los modelos de IA contra ataques de inyección y envenenamiento de datos - Inteligencia artificial - | Imagen 1 Newsmatic

Índice de Contenido
¿Qué son los ataques de inyección de instrucciones?

Los AI están entrenados para no proporcionar contenido ofensivo o perjudicial, respuestas no éticas o información confidencial; los ataques de inyección de instrucciones crean una salida que genera esos comportamientos no deseados.

Los ataques de inyección de instrucciones funcionan de la misma manera que los ataques de inyección SQL, que permiten a un atacante manipular la entrada de texto para ejecutar consultas no deseadas en una base de datos.

Se han publicado varios ejemplos de ataques de inyección de instrucciones en Internet. Un ataque de inyección de instrucciones menos peligroso consiste en hacer que la IA proporcione contenido no ético, como el uso de palabras groseras o insultantes, pero también puede utilizarse para eludir filtros y crear contenido perjudicial, como código malintencionado.

Pero los ataques de inyección de instrucciones también pueden apuntar al funcionamiento interno de la IA y desencadenar vulnerabilidades en su propia infraestructura. Un ejemplo de este tipo de ataque ha sido reportado por Rich Harang, arquitecto principal de seguridad en NVIDIA. Harang descubrió que los complementos incluidos en la biblioteca LangChain utilizada por muchas AI eran propensos a ataques de inyección de instrucciones que podían ejecutar código dentro del sistema. Como prueba de concepto, produjo una instrucción que hizo que el sistema revelara el contenido de su archivo /etc/shadow, que es crítico para los sistemas Linux y podría permitir a un atacante conocer todos los nombres de usuario del sistema y posiblemente acceder a más partes del mismo. Harang también mostró cómo introducir consultas SQL a través de la instrucción. Las vulnerabilidades han sido corregidas.

Slack revoluciona la búsqueda y resumen con su nuevo AI generativo

Otro ejemplo es una vulnerabilidad que apuntó a MathGPT, que funciona convirtiendo el lenguaje natural del usuario en código Python que se ejecuta. Un usuario malintencionado ha producido código para acceder a las variables de entorno del sistema de host de la aplicación y la clave de API GPT-3 de la aplicación y ejecutar un ataque de denegación de servicio.

La NCSC concluyó acerca de la inyección de instrucciones: "A medida que se utilizan cada vez más LLM para transmitir datos a aplicaciones y servicios de terceros, los riesgos de la inyección de instrucciones maliciosas aumentarán. En la actualidad, no existen medidas de seguridad infalibles que eliminen este riesgo. Considere cuidadosamente la arquitectura de su sistema y tenga cuidado antes de introducir un LLM en un sistema de alto riesgo".

¿Qué son los ataques de envenenamiento de datos?

Los ataques de envenenamiento de datos consisten en alterar datos de cualquier fuente que se utiliza como alimentación para el aprendizaje automático. Estos ataques existen porque los modelos de aprendizaje automático grandes necesitan tanta cantidad de datos para ser entrenados que el proceso habitual actual para alimentarlos consiste en rascar una gran parte de Internet, que seguramente contendrá contenido ofensivo, inexacto o controvertido.

Investigadores de Google, NVIDIA, Robust Intelligence y ETH Zurich publicaron investigaciones que mostraban dos ataques de envenenamiento de datos. El primero, el envenenamiento de datos de vista dividida, aprovecha el hecho de que los datos cambian constantemente en Internet. No hay garantía de que el contenido de un sitio web recopilado hace seis meses siga siendo el mismo. Los investigadores indican que la expiración del nombre de dominio es excepcionalmente común en conjuntos de datos grandes y que "el adversario no necesita saber la hora exacta en la que los clientes descargarán el recurso en el futuro: al ser propietario del dominio, el adversario garantiza que cualquier descarga futura recopilará datos envenenados".

El segundo ataque revelado por los investigadores se llama ataque de front-running. Los investigadores toman el ejemplo de Wikipedia, que puede ser editada fácilmente con contenido malicioso que permanecerá en línea durante unos minutos en promedio. Sin embargo, en algunos casos, un adversario puede saber exactamente cuándo se accederá a dicho sitio web para su inclusión en un conjunto de datos.

Mitigación de riesgos para estos ataques de ciberseguridad

Si su empresa decide implementar un modelo de IA, todo el sistema debe diseñarse teniendo en cuenta la seguridad.

Demandan a OpenAI y Microsoft por robo de datos personales: lo que debes saber

Siempre se debe implementar la validación y desinfección de entrada, y se deben crear reglas para evitar que el modelo de ML tome acciones perjudiciales, incluso cuando se le solicite que lo haga.

Los sistemas que descargan modelos preentrenados para su flujo de trabajo de aprendizaje automático pueden estar en riesgo. La NCSC del Reino Unido destacó el uso de la biblioteca Python Pickle, que se utiliza para guardar y cargar arquitecturas de modelos. Según la organización, esa biblioteca fue diseñada para ser eficiente y fácil de usar, pero es inherentemente insegura, ya que la deserialización de archivos permite la ejecución de código arbitrario. Para mitigar este riesgo, la NCSC recomendó utilizar un formato de serialización diferente, como safetensors, y utilizar un escáner de malware Python Pickle.

Lo más importante es aplicar prácticas estándar de seguridad en la cadena de suministro. Solo se deben confiar los hash y las firmas válidos conocidos, y ningún contenido debe venir de fuentes no confiables. Muchos flujos de trabajo de aprendizaje automático descargan paquetes de repositorios públicos, pero los atacantes podrían publicar paquetes con contenido malicioso que se podría activar. Algunos conjuntos de datos, como CC3M, CC12M y LAION-2B-en, por mencionar algunos, ahora proporcionan un hash SHA-256 del contenido de sus imágenes.

El software debe actualizarse y parcharse para evitar ser comprometido por vulnerabilidades comunes.

Divulgación: Trabajo para Trend Micro, pero las opiniones expresadas en este artículo son mías.

NVIDIA anuncia TensorRT-LLM: software de inferencia para acelerar el procesamiento de AI

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Inteligencia artificial -, allí encontraras muchos artículos similares a Cómo proteger los modelos de IA contra ataques de inyección y envenenamiento de datos , tenemos lo ultimo en tecnología 2023.

Cómo proteger los modelos de IA contra ataques de inyección y envenenamiento de datos

¿Qué son los ataques de inyección de instrucciones?

¿Qué son los ataques de envenenamiento de datos?

Mitigación de riesgos para estos ataques de ciberseguridad